近日,公司打造的業(yè)界首個(gè)多DC分布式、非對(duì)稱(chēng)、超百公里協(xié)同訓(xùn)練智算網(wǎng)絡(luò)在江蘇移動(dòng)長(zhǎng)三角云計(jì)算中心完成測(cè)試,在3DC總距離1000公里的場(chǎng)景下,跨域分布式訓(xùn)練性能達(dá)到單智算中心訓(xùn)練性能的95%以上,標(biāo)志著多DC協(xié)同訓(xùn)練技術(shù)落地驗(yàn)證可行,并逐步向商用邁進(jìn)。
算力是數(shù)字經(jīng)濟(jì)時(shí)代的核心基礎(chǔ)設(shè)施,對(duì)促進(jìn)經(jīng)濟(jì)增長(zhǎng),推動(dòng)科技進(jìn)步以及滿(mǎn)足日益增長(zhǎng)的數(shù)據(jù)處理需求具有至關(guān)重要的作用。隨著大模型訓(xùn)練需求的持續(xù)增長(zhǎng),算力需求和單地域(DC)的算力不匹配問(wèn)題日益突出,將多地域(DC)內(nèi)的碎片算力集中起來(lái)提升算力利用率、訓(xùn)練更大的模型成了多智算中心算間網(wǎng)絡(luò)發(fā)展的必經(jīng)之路。
本次公司多DC分布式協(xié)同訓(xùn)練試點(diǎn)測(cè)試,通過(guò)3DC及以上的場(chǎng)景互聯(lián)、從對(duì)稱(chēng)組網(wǎng)到非對(duì)稱(chēng)組網(wǎng)、從環(huán)形組網(wǎng)到鏈型組網(wǎng),驗(yàn)證了多DC之間非對(duì)稱(chēng)算力協(xié)同訓(xùn)練和百億、千億大模型在訓(xùn)練過(guò)程中鏈路中斷對(duì)訓(xùn)練性能的影響等,更加符合現(xiàn)網(wǎng)場(chǎng)景。試點(diǎn)測(cè)試結(jié)果表明,智算分布式協(xié)同訓(xùn)練解決方案已經(jīng)具備技術(shù)可行性。
本次試點(diǎn),通過(guò)3DC參數(shù)面拉遠(yuǎn)組網(wǎng),以單DC最優(yōu)性能配置為基線(xiàn),使用Llama2-70B、GPT3-175B作為輸入模型,對(duì)比了跨DC協(xié)同不同參數(shù)的性能變化,測(cè)試了分布式智算集群對(duì)大模型訓(xùn)練性能影響的關(guān)鍵因素,支撐未來(lái)區(qū)域化智算集群商用可行性。該方案通過(guò)彈性靈活調(diào)度、廣域無(wú)損技術(shù)實(shí)現(xiàn)多個(gè)智算中心互聯(lián),滿(mǎn)足跨DC分布式智算集群靈活擴(kuò)展,支撐客戶(hù)大模型訓(xùn)練和按需部署。測(cè)試結(jié)果表明,三DC總距離千公里場(chǎng)景下,跨域分布式訓(xùn)練性能下降5%以?xún)?nèi)。
未來(lái),公司將攜手產(chǎn)業(yè)伙伴面向更大規(guī)模、更長(zhǎng)距離的分布式智算網(wǎng)絡(luò)持續(xù)探索,堅(jiān)持走出一條符合產(chǎn)業(yè)需求的智算發(fā)展之路,提高數(shù)字經(jīng)濟(jì)時(shí)代整體產(chǎn)業(yè)的競(jìng)爭(zhēng)力。