C114訊 1月17日消息(趙婷婷)AI時代已經來臨。大模型等新興AI應用需求海量的算力支撐,一座座智算中心拔地而起,規(guī)模龐大的萬卡集群逐漸投入商用。如何更好地實現(xiàn)智算中心互聯(lián),服務AI應用創(chuàng)新發(fā)展,業(yè)界做了大量研究工作。
1月16日,作為“2025中國光通信高質量發(fā)展論壇”的開篇之作,“智算中心互聯(lián):算網協(xié)同,構筑智算互聯(lián)新底座”線上研討會順利召開。
會上,中國信息通信研究院技術與標準研究所(以下簡稱中國信通院標準所)所長張海懿在演講時指出,當前,我國主管部門持續(xù)發(fā)布算力基礎設施相關政策,引導算力基礎設施高質量發(fā)展。AI大模型及相關應用推動智算中心向超萬卡及以上集群發(fā)展,智算中心內互聯(lián)、智算中心間互聯(lián)、智算應用支撐等高質互聯(lián)相關技術成為關注熱點。接下來,她介紹了相應關鍵技術發(fā)展的具體情況。
智算中心內互聯(lián)
張海懿指出,智算中心內互聯(lián)一方面要支撐萬億及以上量級參數(shù)量大模型訓練,同時還要滿足超大規(guī)模組網、大帶寬、超低時延、高可用性等需求。
現(xiàn)階段,智算中心內互聯(lián)相關協(xié)議和技術競相發(fā)展,片間互聯(lián)開放與專用模式持續(xù)競爭。智算中心內部組網以IB和基于以太網的多種方案并存方式發(fā)展,前者是以性能取勝,后者因其開放性和性價比,在 AI大模型訓練組網的占比也在進一步提升。
大規(guī)模AI訓練需要高效協(xié)同智算中心內軟硬件資源,快速、高效、可移植的集合通信庫成為影響智能計算效率的重要因素。目前國內外頭部廠商主要以各自研發(fā)獨有的高速集合通信庫為主,整體上捆綁特定芯片。為進一步高效支撐智算部署與應用,集合通信庫異構兼容或成未來趨勢。
同時,大帶寬需求助推高速光模塊迭代加速。數(shù)據(jù)中心直調直檢光模塊速率約3~4年更新一代,AI智算引入后迭代周期呈現(xiàn)縮短趨勢,當前處于800Gb/s速率為主階段,預計未來1~2年進入1.6Tb/s速率,2030年3.2Tb/s速率將走向規(guī)模應用。在AI應用的驅動下,高速光模塊應用需求持續(xù)強勁,國內外標準化布局加速向T+量級演進延伸,同時為保障互聯(lián)質量,智算中心對光模塊誤碼率等指標可能會提出更高要求。
面對低能耗和低時延等應用需求,線性驅動可插拔模塊(LPO)及其應用持續(xù)研究和探索。服務器機柜間互聯(lián)采用光學方式,單通道速率正在從112G向224G演進,線性方案是降低能耗的有效途徑。當前112G/lane LPO應用處于探索階段,兼容性及標準化問題有待持續(xù)研究評估,224G/lane LPO預計2025年進行互通展示,考慮到性能和能耗的均衡等問題,預計224G/lane可插拔方案傾向于線性接收可插拔光模塊(LRO)的可能性較大。
除此之外,芯片級光互聯(lián)提供高密度低能耗互聯(lián)新方案。芯片級光互連相較電互連或傳統(tǒng)可插拔模塊互連方式,具有大帶寬、低能耗、高集成等諸多優(yōu)勢。片間光互聯(lián)中,CPO主要用于交換網絡,OIO主要用于算存網絡,近期AI集群發(fā)展推動OIO熱度迅速上升。目前,全球領先的硅光平臺依托其強大的芯片加工制造和先進封裝能力,在芯片級光互聯(lián)方面不斷取得新突破。
另外,從目前發(fā)展情況來看,智算與光互聯(lián)雙向賦能,光互聯(lián)作用日益凸顯,光進銅退趨勢進一步持續(xù),但短距的電互聯(lián)依靠其高可靠與低成本等特點,生命力依舊旺盛。另外,考慮能耗、靈活性和可靠性等大模型訓練及推理需求,智算中心內的全光交換組網和連接可靠性成為業(yè)界的持續(xù)關注點。
智算中心間互聯(lián)
智算中心間互聯(lián)的典型需求是長距離、高吞吐量、算間高效協(xié)同等,需要通過長距無損、極低故障率的互聯(lián)能力來支撐構建分布式智算集群。目前發(fā)展情況如下:
一是大帶寬、低時延和高可靠需求凸顯。智算多集群分布式訓練可期,算間互聯(lián)業(yè)務需求包括距離相近的多個智算中心間互聯(lián)、大規(guī)模樞紐算力節(jié)點間的互聯(lián)以及邊緣與核心云之間的互聯(lián)與協(xié)同,來實現(xiàn)分布式訓練、訓練推理協(xié)同、數(shù)據(jù)搬運等場景。同時,多種應用需要高質量的互聯(lián),包括大規(guī)模樞紐算力節(jié)點間的數(shù)據(jù)中心互聯(lián)、相近物理位置多數(shù)據(jù)中心間互聯(lián)、以及邊緣與核心數(shù)據(jù)中心間協(xié)同等。
二是智算分布式訓練應用試驗加速探索,F(xiàn)階段多家已經開展智算分布式訓練實驗/試驗,但是分布式應用仍面臨多重技術挑戰(zhàn),例如廣域網絡性能需求、運維管控復雜性、建網成本等都是制約因素,需要在多層多域單點技術突破、跨層跨域多技術協(xié)同融合等方面持續(xù)推進技術創(chuàng)新。
三是干線啟動400G規(guī)模部署,城域推動800G+逐步試驗。目前400G技術體系基本完善,我國運營商逐步啟動干線場景規(guī)模部署,目前400G系統(tǒng)中的 WSS、OTU已實現(xiàn)C+L波段一體化設計, 但一體化OA技術方案仍在探索驗證之中。對于更高速率的傳輸技術,業(yè)界加快800G/1.6T技術標準研制,OIF和ITU等標準化組織正在開展相關項目研究工作,產業(yè)界也已經啟動試點驗證。
四是新型光纖加速助力構建高質量網絡。一方面,G.654.E等超低損光纖成為智算中心間互聯(lián)應用優(yōu)配,適配400G及以上超高速長距離、C+L多波段大容量等應用,支撐優(yōu)質互聯(lián)需求,是網絡傳輸性能提升的關鍵;另一方面,空芯光纖擁有諸多優(yōu)勢,發(fā)展?jié)撃芸善,目前仍需突破制備工藝、工程部署等諸多難題,后續(xù)發(fā)展仍需業(yè)界持續(xù)加強協(xié)同,助力鍛造未來超低時延算力網。
智算應用支撐
智算業(yè)務支撐方面,主要包括入算和端到端協(xié)同管控等功能。全光接入為用戶提供靈活品質入算,主要包括家庭園區(qū)萬兆全光入算、中小企業(yè)便捷一跳入算、大企業(yè)高品質專線入算等。同時,通過端到端協(xié)同管控助力用戶快速入云入算。在接入側,進一步增強用戶感知能力;
在數(shù)據(jù)中心互聯(lián)側,實現(xiàn)基于意圖的智能化管控;在數(shù)據(jù)中心網絡側,實現(xiàn)整個的數(shù)據(jù)中心網絡和數(shù)據(jù)中心互聯(lián)的協(xié)同。整體來看,用戶入算及智算訓練等業(yè)務調度需要算網協(xié)同管控,綜合考慮用戶、組網以及算力提供者多方因素,在任務需求與算網資源綜合約束下,對多層級設備進行彈性統(tǒng)一調度,在用戶和算力服務之間動態(tài)按需建立連接。
另外,網絡大模型成為網絡自智邁向L4,甚至是更高階的關鍵技術。運營商、設備/軟件商紛紛布局網絡大模型,利用大模型高效的理解和生成能力增強網絡自智能力,加速智算網絡自智能力邁向高階自智L4。
張海懿最后表示,中國信通院標準所將持續(xù)開展智算中心互聯(lián)相關技術產業(yè)發(fā)展、算力網絡性能監(jiān)測、算力接入1ms城市行動計劃等工作,希望與業(yè)界一道協(xié)同構建我國智算互聯(lián)網絡技術產業(yè)創(chuàng)新發(fā)展新生態(tài),助力我國光通信行業(yè)高質量發(fā)展。