C114訊 5月23日消息(水易)今日,CIOE中國(guó)光博會(huì)與C114通信網(wǎng)聯(lián)合舉辦“2024中國(guó)光通信高質(zhì)量發(fā)展論壇”第四場(chǎng)研討會(huì)——“AI時(shí)代:數(shù)據(jù)中心光互聯(lián)技術(shù)新趨勢(shì)”正式上線(xiàn)。會(huì)議邀請(qǐng)電信運(yùn)營(yíng)商、互聯(lián)網(wǎng)服務(wù)商、云計(jì)算廠(chǎng)商、模塊芯片商、科研院所、業(yè)內(nèi)專(zhuān)家,深入探討光互聯(lián)和全光交換的應(yīng)用及其面臨的機(jī)遇和挑戰(zhàn)。
中國(guó)電信研究院高級(jí)工程師劉昊表示,AI大模型的出現(xiàn),驅(qū)動(dòng)新型算力基礎(chǔ)設(shè)施建設(shè)不斷發(fā)展,傳統(tǒng)數(shù)據(jù)中心加速向智算中心轉(zhuǎn)型,對(duì)網(wǎng)絡(luò)的規(guī)模、時(shí)延、帶寬和可靠性等方面提出新的發(fā)展需求與挑戰(zhàn)。
數(shù)據(jù)顯示,截至2023年底,我國(guó)智能算力規(guī)模突破230EFLOPS,全面超過(guò)通用算力,并且差距逐漸拉開(kāi)。中國(guó)電信積極響應(yīng)國(guó)家政策,在全國(guó)范圍內(nèi)部署智算中心集群,推動(dòng)智算中心高質(zhì)量發(fā)展。
智算中心內(nèi)部光互連
中國(guó)電信集團(tuán)科技委主任韋樂(lè)平曾表示,以ChatGPT為代表的AI大模型近中期主要影響DCN網(wǎng)絡(luò)。DCN顧名思義就是數(shù)據(jù)中心內(nèi)部網(wǎng)絡(luò),智算中心內(nèi)部網(wǎng)絡(luò)也包括其中,AI大模型訓(xùn)練需要DCN具備大規(guī)模、高帶寬、低時(shí)延、零丟包等能力。
劉昊介紹,AI大模型訓(xùn)練參數(shù)已達(dá)到千億-萬(wàn)億的級(jí)別,需要千/萬(wàn)卡GPU集群來(lái)滿(mǎn)足計(jì)算任務(wù),大規(guī)模組網(wǎng)成為剛需。同時(shí),GPU網(wǎng)卡之間需要傳輸大量參數(shù)、梯度信息,高帶寬傳輸能力不可或缺。對(duì)于實(shí)時(shí)性要求高的應(yīng)用,難以預(yù)測(cè)的動(dòng)態(tài)時(shí)延會(huì)對(duì)網(wǎng)絡(luò)性能造成嚴(yán)重影響,需重點(diǎn)關(guān)注時(shí)延和抖動(dòng)指標(biāo)。更為重要的是,千分之一的丟包率,將導(dǎo)致AI算力下降50%。因此需要構(gòu)建無(wú)損數(shù)據(jù)中心網(wǎng)絡(luò)。
目前智算中心大規(guī)模組網(wǎng)主要有IB和RoCE兩種方案。對(duì)于IB組網(wǎng),英偉達(dá)能夠提供從GPU到服務(wù)器到交換機(jī)的全家桶式一體化解決方案,但成本高。RoCE基于以太網(wǎng)RDMA技術(shù),目前已發(fā)展到第二代,可以復(fù)用現(xiàn)有的以太網(wǎng)設(shè)備,成本低,備受青睞。
對(duì)于智算中心網(wǎng)絡(luò)的高帶寬需求,直接反映在光模塊的應(yīng)用上。隨著交換芯片容量來(lái)到51.2T,800G光模塊開(kāi)始嶄露頭角。面對(duì)光模塊大規(guī)模部署應(yīng)用,成本和功耗問(wèn)題日益顯著,打造綠色、低碳的智算中心勢(shì)在必行。
為了改善千卡/萬(wàn)卡集群算力消耗的功耗和時(shí)延,LPO/LRO新型光模塊備受關(guān)注。劉昊介紹,目前產(chǎn)業(yè)正加快標(biāo)準(zhǔn)化進(jìn)程,今年3月,12家單位成立LPO-MSA聯(lián)盟,旨在定義LPO系列標(biāo)準(zhǔn),不過(guò)能否實(shí)現(xiàn)規(guī)模化應(yīng)用有待時(shí)間檢驗(yàn)。
想要進(jìn)一步降低設(shè)備的處理和轉(zhuǎn)發(fā)時(shí)延,基于SDN的光路交換技術(shù)(OCS)來(lái)到聚光燈下,為智算提供一種新型組網(wǎng)方案。目前谷歌和英偉達(dá)都有相應(yīng)方案,器件方面Lumentum、光迅都稱(chēng)有相應(yīng)產(chǎn)品。不過(guò),是否能充分發(fā)揮其自身優(yōu)勢(shì)取決于應(yīng)用方式,控制器需要升級(jí)以滿(mǎn)足無(wú)損應(yīng)用。
智算中心之間光互連
AI大模型的持續(xù)火熱,對(duì)算力的需求持續(xù)攀升,超大規(guī)模智算中心資源日漸稀缺,跨區(qū)域算力協(xié)同成為算力資源的重要補(bǔ)充。
劉昊介紹,以中國(guó)電信為例,目前已經(jīng)在全國(guó)范圍內(nèi)部署眾多智算中心,同時(shí)大量中小型智算中心算力不足,考慮到合理利用,通過(guò)對(duì)跨區(qū)域中小型智算中心進(jìn)行組網(wǎng),實(shí)現(xiàn)遠(yuǎn)距離算力協(xié)同調(diào)度。
對(duì)于智算中心拉遠(yuǎn)需求,WDM/OTN是不二之選,其大帶寬、低時(shí)延、強(qiáng)保護(hù)等特性,能夠?yàn)橹撬闾峁┓(wěn)定的傳輸管道。劉昊表示,不同于在同一智算中心執(zhí)行訓(xùn)練任務(wù),智算中心拉遠(yuǎn)面臨一系列挑戰(zhàn),包括傳輸時(shí)延對(duì)模型訓(xùn)練的效率影響,遠(yuǎn)距離通信如何做到無(wú)損傳輸,傳輸設(shè)備引入的建設(shè)成本,不同類(lèi)型設(shè)備之間能否解耦。
在劉昊看來(lái),拉遠(yuǎn)場(chǎng)景下開(kāi)放的智算光網(wǎng)絡(luò)系統(tǒng)有助于提高模型訓(xùn)練效率,短期方案是信息實(shí)時(shí)共享,這需要制定協(xié)議,如傳輸側(cè)感知無(wú)損業(yè)務(wù)類(lèi)型、帶寬、VLAN等,IP側(cè)感知時(shí)延、帶寬等;終極目標(biāo)是控制器管理所有設(shè)備,需要跨專(zhuān)業(yè)協(xié)同,難度大。整體來(lái)看,DCI場(chǎng)景下跨域設(shè)備管控方案建議標(biāo)準(zhǔn)先行。
據(jù)了解,在開(kāi)放解耦的道路上,中國(guó)電信具備一定的經(jīng)驗(yàn)積累。中國(guó)電信的DCI-BOX盒式波分設(shè)備經(jīng)過(guò)兩期發(fā)展迭代,具備城域內(nèi)組網(wǎng)能力,支持10G-100G業(yè)務(wù)接入能力,單波200G/400G,具備光層組網(wǎng)能力,可覆蓋滿(mǎn)足大帶寬數(shù)據(jù)中心互聯(lián)、城域波分組網(wǎng)場(chǎng)景。
對(duì)于DCI-BOX能否繼續(xù)在智算場(chǎng)景發(fā)揮價(jià)值?劉昊認(rèn)為,盒式波分設(shè)備支持城域組網(wǎng),具備向800G演進(jìn)的水平,其開(kāi)放解耦的特征能夠支撐智算拉遠(yuǎn)場(chǎng)景應(yīng)用。
劉昊介紹,近期中國(guó)電信北京公司在現(xiàn)網(wǎng)完成城域三節(jié)點(diǎn)無(wú)損智算網(wǎng)絡(luò)部署,采用800G組網(wǎng)方案,分布式訓(xùn)練性能達(dá)到集中式單智算中心訓(xùn)練性能的90%以上,證實(shí)了分布式無(wú)損智算網(wǎng)技術(shù)方向的可行性。后續(xù),中國(guó)電信將在此基礎(chǔ)上進(jìn)一步驗(yàn)證更高速率組網(wǎng)方案,以及嘗試采用空芯光纖降低傳輸時(shí)延,驗(yàn)證其對(duì)運(yùn)算效率提升的影響。