C114通信網(wǎng)  |  通信人家園

專題
2024/5/24 17:29

百度資深工程師周谞:大模型背后的數(shù)據(jù)中心光網(wǎng)絡(luò)演進(jìn)

C114通信網(wǎng)  岳明

C114訊 5月24日消息(岳明)CIOE中國(guó)光博會(huì)與C114通信網(wǎng)昨日聯(lián)合舉辦的“2024中國(guó)光通信高質(zhì)量發(fā)展論壇”第四場(chǎng)研討會(huì)——“AI時(shí)代:數(shù)據(jù)中心光互聯(lián)技術(shù)新趨勢(shì)”正式上線。會(huì)議邀請(qǐng)電信運(yùn)營(yíng)商互聯(lián)網(wǎng)服務(wù)商、云計(jì)算廠商、模塊芯片商、科研院所、業(yè)內(nèi)專家,深入探討光互聯(lián)和全光交換的應(yīng)用及其面臨的機(jī)遇和挑戰(zhàn)。

會(huì)上,百度資深工程師周谞?wèi)?yīng)邀作了題為《數(shù)據(jù)中心光通信技術(shù)趨勢(shì)》的主題演講,重點(diǎn)介紹了數(shù)據(jù)中心之間DCI光互聯(lián)、數(shù)據(jù)中心內(nèi)DCN光互聯(lián),以及在現(xiàn)有大模型下,OTN與其結(jié)合等光通信技術(shù)問題。

從靈活系統(tǒng)到智能化運(yùn)維,助力DCI光互聯(lián)

周谞表示,在數(shù)據(jù)中心之間DCI光互聯(lián)方面,城域單波傳輸技術(shù)大致每3~4年有一次迭代,從2017年至2019年的單波200G,波道間隔50GHz,到2020至2023年單波400G,波道間隔75GHz,到現(xiàn)在已經(jīng)到來(lái)的單波800G,波道間隔150GHz,單波速率的提升能帶來(lái)成本的降低,也存在速率迭代年限與機(jī)房系統(tǒng)使用年限不匹配的矛盾。傳統(tǒng)方案中,固定的間隔和限定速率,在應(yīng)用更新一代的單波傳輸技術(shù)時(shí),使系統(tǒng)難以引入更高速率的電層板卡。

2023年,百度引入了FlexGrid系統(tǒng),其靈活網(wǎng)格方案波道可變功能,取代傳統(tǒng)使用的固定間隔的AWG功能。靈活系統(tǒng)方案可以實(shí)現(xiàn)在無(wú)需改造條件下,適應(yīng)不同速率,實(shí)現(xiàn)400G和800G系統(tǒng)的平滑升級(jí)。根據(jù)場(chǎng)景,選擇最優(yōu)的速率,整個(gè)系統(tǒng)的頻譜得到更好利用,以期在2024年這一800G速率換代時(shí)期,取得更好的收益。

此外,隨著數(shù)據(jù)中心之間業(yè)務(wù)云化,以及云規(guī)模的日漸增大,同一云業(yè)務(wù)可能被部署在不同數(shù)據(jù)中心,這就對(duì)數(shù)據(jù)中心之間傳輸穩(wěn)定性提出更高要求。周谞表示,傳統(tǒng)傳輸系統(tǒng)保護(hù)倒換時(shí)間大致在50ms,這一時(shí)間在電信領(lǐng)域存在近20年,而通過(guò)高速磁光開關(guān)取代傳統(tǒng)的機(jī)械式光開關(guān),及優(yōu)化DSP等,第一次實(shí)現(xiàn)了5ms高速保護(hù)倒換時(shí)間。同時(shí),在設(shè)備出現(xiàn)業(yè)務(wù)中斷的情況下,通過(guò)傳輸設(shè)備主動(dòng)介入技術(shù),實(shí)現(xiàn)整體網(wǎng)絡(luò)的相對(duì)穩(wěn)定。

IP over WDM方面,隨著光子集成技術(shù)的發(fā)展,通過(guò)封裝技術(shù)實(shí)現(xiàn)光信號(hào)直接從交換機(jī)出來(lái)后具備長(zhǎng)距離傳輸能力,改變傳統(tǒng)的需要額外電層設(shè)備完成線路到客戶的轉(zhuǎn)換過(guò)程。當(dāng)然,這需要IP+光統(tǒng)一網(wǎng)管協(xié)同,適用機(jī)房之間近距離傳輸。同時(shí),這種相關(guān)光模塊對(duì)接上,測(cè)試中面臨著個(gè)別廠商模塊抗裂化能力差,不同廠商對(duì)接上的難題。

在傳輸?shù)倪\(yùn)維和管理上,大部分現(xiàn)有廠商采用的是開放式光傳輸系統(tǒng)的方案,所有設(shè)備通過(guò)統(tǒng)一建模,完成設(shè)備與網(wǎng)管之間的交互,再通過(guò)統(tǒng)一的網(wǎng)管實(shí)現(xiàn)對(duì)所有設(shè)備的管理,提升自動(dòng)化開發(fā)效率。從傳統(tǒng)運(yùn)維,各廠商自己完成從網(wǎng)管到設(shè)備,到統(tǒng)一化運(yùn)維,統(tǒng)一網(wǎng)管,統(tǒng)一運(yùn)維培訓(xùn)體系,再到智能化運(yùn)維,本質(zhì)上是為了更進(jìn)一步提高效能。

CPO未來(lái)有可能成為GPU互聯(lián)重要方案

周谞表示,在AI時(shí)代,整個(gè)數(shù)據(jù)中心內(nèi)部對(duì)光互聯(lián)的需求也非常大。HPN網(wǎng)絡(luò)主要是針對(duì)GPU訓(xùn)練集群的專門網(wǎng)絡(luò),其里面存在多種訓(xùn)練方式,以實(shí)現(xiàn)不同GPU之間信息共享,而GPU 卡之間的通信帶寬速率的提升,會(huì)帶來(lái)訓(xùn)練時(shí)間的減少,以及成本的降低。但是大模型參數(shù)增長(zhǎng)非常快,數(shù)據(jù)中心內(nèi)光寬帶如何跟上節(jié)奏,成為非常重要的議題。以 IB/RoCE 為代表的跨GPU 服務(wù)器互聯(lián)技術(shù),當(dāng)前速率在400G/800G時(shí)代,伴隨訓(xùn)練規(guī)模的變大和算力的提升,未來(lái)向1.6T及更高速率發(fā)展。雖然現(xiàn)有的交換機(jī)加光模塊形式能滿足一些需求,但卻面臨更大的成本和功耗壓力,這就引出了對(duì)線性直驅(qū)光模塊(LPO)的需求。

相比傳統(tǒng)光模塊,LPO將DSP功能集成到芯片中,降低了模塊的功耗和成本,具有良好的可維護(hù)性。當(dāng)然,除了傳統(tǒng)光模塊和線性直驅(qū)光模塊方案外,還有其他也有一些方案,比如聯(lián)合封裝技術(shù)(CPO)方案,其將光模塊功能集成到芯片上,因光子器件離芯片更近,可實(shí)現(xiàn)更低的功耗。隨著GPU互聯(lián)對(duì)功耗,帶寬的要求,CPO將有可能成為GPU互聯(lián)的一種重要方案。

OTN與大模型結(jié)合方面,百度建立了文心大模型,訓(xùn)練方式包括提示詞工程提高大模型喚起的準(zhǔn)確率、更高級(jí)別的基于人類反饋的強(qiáng)化學(xué)習(xí)等,讓大模型更了解應(yīng)用場(chǎng)景。整個(gè)開發(fā)流程可以理解為,用自己的數(shù)據(jù)生成,注入到大模型訓(xùn)練,得到更理解應(yīng)用場(chǎng)景的一個(gè)大模型,比如OTN大模型,再把這個(gè)大模型部署到整個(gè)應(yīng)用環(huán)境中,去完成大模型推理等。

周谞表示,OTN和大語(yǔ)言模型的相互結(jié)合,是值得去關(guān)注的一個(gè)方向。因?yàn)閭鹘y(tǒng)的運(yùn)維更多的是基于GUI的界面,即圖形界面,隨著大語(yǔ)言模型的興起,其實(shí)可以很好的實(shí)現(xiàn)人機(jī)基于自然語(yǔ)言的對(duì)話,慢慢地可能會(huì)形成GUI和LUI,即圖形交互和自然語(yǔ)言交互的一個(gè)運(yùn)維場(chǎng)景,得到更加懂我們的OTN大模型。

給作者點(diǎn)贊
0 VS 0
寫得不太好

版權(quán)說(shuō)明:C114刊載的內(nèi)容,凡注明來(lái)源為“C114通信網(wǎng)”或“C114原創(chuàng)”皆屬C114版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編,違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位,也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和本站來(lái)源。編譯類文章僅出于傳遞更多信息之目的,不代表證實(shí)其描述或贊同其觀點(diǎn);翻譯質(zhì)量問題請(qǐng)指正。

熱門文章
    最新視頻
    為您推薦

      C114簡(jiǎn)介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2024 c114 All Rights Reserved | 滬ICP備12002291號(hào)

      C114 通信網(wǎng) 版權(quán)所有 舉報(bào)電話:021-54451141