C114通信網(wǎng)  |  通信人家園

專題
2024/5/24 15:41

AI驅(qū)動(dòng)光互聯(lián)創(chuàng)新:阿里云陳欽談光模塊面臨挑戰(zhàn)與未來趨勢

C114通信網(wǎng)  邵鵬慧

C114訊 5月24日消息(邵鵬慧)昨日,CIOE中國光博會(huì)與C114通信網(wǎng)聯(lián)合舉辦的“2024中國光通信高質(zhì)量發(fā)展論壇”第四場——“AI時(shí)代:數(shù)據(jù)中心光互聯(lián)技術(shù)新趨勢”線上研討會(huì)順利召開。

阿里云光網(wǎng)絡(luò)技術(shù)專家陳欽應(yīng)邀作了題為《AI網(wǎng)絡(luò)對光互聯(lián)的需求和挑戰(zhàn)》的主題演講。陳欽表示,AI應(yīng)用帶來了海量的光模塊需求,未來GPU間的scale-up網(wǎng)絡(luò)將持續(xù)推高光模塊的需求,同時(shí)AI也催化了光模塊更新迭代的速度,對光模塊的穩(wěn)定性要求也進(jìn)一步提高,AI對光模塊也帶來巨大的挑戰(zhàn),。

AI發(fā)展帶來海量光模塊新增需求  

當(dāng)前,隨著AI和算力發(fā)展,作為數(shù)據(jù)中心內(nèi)部以及數(shù)據(jù)中心之間連接的重要技術(shù),光模塊產(chǎn)業(yè)快速崛起迎來高速發(fā)展時(shí)期,其速率和帶寬的提升對于滿足AI時(shí)代數(shù)據(jù)傳輸?shù)男枨笾陵P(guān)重要,AI網(wǎng)絡(luò)建設(shè)帶來海量的光模塊需求。

如何量化AI對光模塊的需求,陳欽介紹,在通用計(jì)算網(wǎng)絡(luò)中可以通過接入的服務(wù)器數(shù)量來獲得光模塊的需求量;同理在AI網(wǎng)絡(luò)中,可以通過GPU卡數(shù)量來推測光模塊的用量。

當(dāng)前AI網(wǎng)絡(luò)中,GPU卡和800G光模塊數(shù)量的比例約為1:3,未來,Scale-up GPU網(wǎng)絡(luò)(compute Fabric)將帶來更多的光互聯(lián)需求,光模塊的需求和光模塊的成本支出在AI集群中占比將大幅上升。

AI催化光模塊技術(shù)演進(jìn):光模塊迭代周期縮減一倍

回顧過去10年數(shù)據(jù)中心光模塊演進(jìn)歷程,交換芯片的容量遵循每兩年翻一倍的規(guī)律,而這是通過Serdes 數(shù)量和Serdes 速率,每兩年交替的翻倍來達(dá)到的;

Serdes單通道速率和光模塊單波長速率實(shí)際上是每4年翻一倍,主流光模塊每4年更新一代。

AI的應(yīng)用催化了光互聯(lián)的演進(jìn)速率,光模塊從原本每4年更新一代,縮短為每2年更新一代,新一代光模塊研發(fā)到落地的周期將要求被大幅縮短,這個(gè)變化對于整個(gè)光模塊生態(tài)而言都是一個(gè)極大的挑戰(zhàn)。

AI網(wǎng)絡(luò)對光互聯(lián)穩(wěn)定性提出兩方面挑戰(zhàn)

陳欽表示AI大模型訓(xùn)練對光互聯(lián)的穩(wěn)定性要求極高,當(dāng)前AI網(wǎng)絡(luò)穩(wěn)定性的挑戰(zhàn)主要來自兩方面。

一方面是光模塊硬件,主要是光器件失效引起的,包括激光器探測器失效。陳欽介紹,光器件的Wear-out失效不是問題,早期失效和隨機(jī)失效才是關(guān)鍵。 當(dāng)前的行業(yè)標(biāo)準(zhǔn)GR468對光模塊和光芯片的測試標(biāo)準(zhǔn)太松,并不適用于AI網(wǎng)絡(luò)。鑒于此,阿里云對光器件的可靠性提出了更為嚴(yán)格的標(biāo)準(zhǔn)。

另一方面是光模塊軟件,高速光模塊普遍使用CMIS管理協(xié)議,帶來了強(qiáng)大的功能,但也使系統(tǒng)設(shè)備和模塊的交互變得更復(fù)雜。對此陳欽建議,光模塊廠家應(yīng)加強(qiáng)光模塊在各系統(tǒng)設(shè)備上的集成適配測試。

AI網(wǎng)絡(luò)下光模塊功耗挑戰(zhàn):TRO技術(shù)成為發(fā)展新方向

2018年 PAM4 DSP在光模塊中出現(xiàn),光的功耗開始超過電的功耗,成為網(wǎng)絡(luò)中功耗占比最高的部分,到1.6T/3.2T光模塊,數(shù)據(jù)中心將需要新的技術(shù)處理功耗問題,例如液冷技術(shù)。功耗的變化,將會(huì)給AI基礎(chǔ)設(shè)施帶來極大的技術(shù)挑戰(zhàn)。

那么應(yīng)該如何降低光模塊的功耗,陳欽表示最直接的手段就是去掉或減少DSP在光模塊內(nèi)部的使用,也就是被討論的技術(shù)熱點(diǎn):LPO、TRO、CPO技術(shù)。

CPO光和交換芯片共封裝融為一體,是一種完全封閉的生態(tài),它不符合數(shù)據(jù)中心開放解耦的要求,也無法做到“pay as your growth”,此外CPO的運(yùn)維也面臨重重挑戰(zhàn),所以CPO只有在可插拔光模塊演進(jìn)不下去時(shí)才會(huì)被考慮。

LPO方案是完全去掉DSP,在功耗、成本和時(shí)延上有很大優(yōu)勢。但在標(biāo)準(zhǔn)化和互聯(lián)互通方面仍具有很大挑戰(zhàn)。若LPO無法做到互聯(lián)互通,便不符合數(shù)據(jù)中心對開放解耦的要求。此外,LPO技術(shù)到單波200G是否可持續(xù)也有較大爭論,綜合來看,LPO技術(shù)落地的挑戰(zhàn)性較大。

TRO去掉一半DSP,是一種折中的技術(shù)方案,它也能夠有效降低功耗,得益于ASIC Serdes接收端強(qiáng)大的均衡能力,TRO的鏈路性能可以得到保證,另外TRO也更容易制定標(biāo)準(zhǔn)和互聯(lián)互通,符合數(shù)據(jù)中心對開放解耦的要求,“TRO是一個(gè)非常有潛力的下一代光互聯(lián)技術(shù)方案”,陳欽表示。

 

給作者點(diǎn)贊
0 VS 0
寫得不太好

版權(quán)說明:C114刊載的內(nèi)容,凡注明來源為“C114通信網(wǎng)”或“C114原創(chuàng)”皆屬C114版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位,也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和本站來源。編譯類文章僅出于傳遞更多信息之目的,不代表證實(shí)其描述或贊同其觀點(diǎn);翻譯質(zhì)量問題請指正。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2024 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網(wǎng) 版權(quán)所有 舉報(bào)電話:021-54451141