11月29日-12月1日, CCF中國存儲大會在廣州長隆國際會展中心召開,阿里云服務(wù)器研團隊受邀參加,在超算互連網(wǎng)和智能化時代存儲應(yīng)用創(chuàng)新兩個專題論壇發(fā)表演講,同步UALink聯(lián)盟發(fā)布后ALS(ALink System)產(chǎn)業(yè)生態(tài)發(fā)展現(xiàn)狀,以及面向AI場景下存儲軟硬件結(jié)合創(chuàng)新和實踐經(jīng)驗。
背景信息:
中國計算機學(xué)會中國存儲大會(CCF China Storage Conference,簡稱 CCF ChinaStorage)是國內(nèi)一年一度信息計算與存儲領(lǐng)域?qū)W術(shù)界和產(chǎn)業(yè)界聯(lián)合舉辦的大型年度盛會。CCF ChinaStorage 2024 以“存力、算力、智力”為主題,圍繞存儲與計算技術(shù)前沿發(fā)展方向,針對存力算力網(wǎng)、新型存儲器件及體系結(jié)構(gòu)、存儲互聯(lián)與分布式計算、數(shù)據(jù)庫與文件系統(tǒng)、存算一體、存儲網(wǎng)絡(luò)和信息存儲標(biāo)準(zhǔn)及評測等20多個技術(shù)領(lǐng)域展開研討,并開展產(chǎn)品與新技術(shù)原型展示,探索高性能計算、人工智能和云計算等應(yīng)用場景下存儲與計算系統(tǒng)的新型解決方案,為國內(nèi)存儲技術(shù)相關(guān)專業(yè)研究與應(yīng)用的專家、學(xué)者、技術(shù)人員、學(xué)生以及產(chǎn)業(yè)界提供了一場存儲學(xué)術(shù)產(chǎn)業(yè)盛會。
UALink聯(lián)盟10月29日正式成立,除了9家創(chuàng)始成員外,短短1個月內(nèi)新增貢獻會員和應(yīng)用會員已近40家。特別是全球主流CSP廠商齊聚,直接說明超大規(guī)模AI算力基礎(chǔ)設(shè)施建設(shè)中,Scale Up技術(shù)路線之爭基本塵埃落定,AI智算超節(jié)點內(nèi)Scale Up互連更多是關(guān)注高性能和低延時。正是基于對未來Scale Up技術(shù)路線發(fā)展的判斷,阿里云聯(lián)合信通院和AMD等單位在今年9月發(fā)布了ALink Sytem產(chǎn)業(yè)生態(tài),并在2024云棲大會現(xiàn)場展示了AI Infra 2.0服務(wù)器系統(tǒng),其中底層互連協(xié)議部分兼容UALink協(xié)議。
“當(dāng)前業(yè)界已經(jīng)形成共識,在開放協(xié)議領(lǐng)域,以UALink為代表的Scale Up協(xié)議和UEC為代表的Scale Out協(xié)議,共同支持AI集群互連基礎(chǔ)協(xié)議向前演進。Scale Up互連用于GPU之間GPU 互連,Scale Out互連用于服務(wù)器之間是基于網(wǎng)卡+交換機的集群互連,兩者在互連范圍、流量特點和編程模式上有顯著區(qū)別。而這種應(yīng)用場景需求上的區(qū)別也體現(xiàn)在協(xié)議設(shè)計和底層硬件實現(xiàn)上。”阿里云超高速互連負責(zé)人孔陽在現(xiàn)場演講中提到。
孔陽在超算互聯(lián)網(wǎng)分論壇發(fā)表演講
ALS(ALink System,加速器互連系統(tǒng))作為阿里云主導(dǎo)的開放生態(tài),目標(biāo)是解決Scale Up互連系統(tǒng)的行業(yè)發(fā)展規(guī)范問題。ALS包括ALS-D數(shù)據(jù)面和ALS-M管控面兩個主要組成部分。ALS-D數(shù)據(jù)面互連采用UALink協(xié)議,除了原生支持高性能內(nèi)存語義訪問、顯存共享,支持Switch組網(wǎng)模式,性能上具備超高帶寬、超低時延能力外,還增加定義了在網(wǎng)計算等特性。ALS-M可為不同芯片提供標(biāo)準(zhǔn)化接入方案,符合規(guī)范的設(shè)備均可靈活接入應(yīng)用方系統(tǒng),無論是對開放生態(tài)還是廠商專有互連協(xié)議,ALS使用統(tǒng)一的軟件接口。同時,ALS-M為云計算等集群管理場景,提供單租、多租等靈活和彈性的配置能力。整體來看,ALS聚焦GPU算力互連需求,旨在解決AI智算超節(jié)點快速發(fā)展中面臨的超高速、超大帶寬的Scale Up技術(shù)難題,促進國內(nèi)AI智算互連領(lǐng)域的技術(shù)創(chuàng)新和標(biāo)準(zhǔn)化,驅(qū)動構(gòu)建端到端的、開放的、標(biāo)準(zhǔn)化的開放生態(tài)。
AI應(yīng)用的興起不僅對算力提出更高要求,也對存儲基礎(chǔ)設(shè)施提出了更高的挑戰(zhàn)。在智能化時代存儲應(yīng)用創(chuàng)新專題論壇,來自于阿里云服務(wù)器研發(fā)團隊的資深技術(shù)專家陶凱,分享AI場景下阿里云存儲從部件到服務(wù)器,再到硬件解決方案的多層次創(chuàng)新實踐。阿里云自研服務(wù)器和存儲部件通過軟硬結(jié)合創(chuàng)新,為上層AI訓(xùn)推任務(wù)提供具有核心競爭力的存儲硬件底座,包括面向大模型存儲分層,數(shù)據(jù)集智能流動的平臺解決方案,提升訓(xùn)推場景網(wǎng)絡(luò)帶寬和硬件利用率的存儲服務(wù)器,以及大容量/低成本的QLC SSD和高帶寬/低延遲CXL 持久化內(nèi)存等技術(shù)創(chuàng)新。
陶凱在智能化時代存儲應(yīng)用創(chuàng)新專題論壇發(fā)表演講
在自研部件Aliflash和AliSCM的發(fā)展過程中,阿里云在確保關(guān)鍵技術(shù)領(lǐng)先的同時還不斷優(yōu)化成本和運維效率,并結(jié)合業(yè)務(wù)部門需求進行深度軟硬件整合,針對性地解決業(yè)務(wù)的痛點問題并滿足定制化需求,進一步提升相關(guān)業(yè)務(wù)的競爭力。未來,阿里云也將持續(xù)在Aliflash和AliSCM等自研存儲部件上探索CXL、PIM等技術(shù)創(chuàng)新,深化其在AI領(lǐng)域的技術(shù)探索與應(yīng)用實踐。
在服務(wù)器層面,阿里云以磐久存儲服務(wù)器平臺為基礎(chǔ),持續(xù)推動軟硬結(jié)合實踐和創(chuàng)新,為AI時代數(shù)據(jù)存儲提供核心競爭力。高性能存儲服務(wù)器平臺,通過自研網(wǎng)卡實現(xiàn)高性能、低延遲400G網(wǎng)絡(luò),支持大規(guī)模訓(xùn)練集群高速數(shù)據(jù)傳輸;大容量存儲服務(wù)器平臺,規(guī)模落地大容量SMR HDD,提供極致成本的AI數(shù)據(jù)集存儲服務(wù);AI存儲服務(wù)器平臺,與業(yè)務(wù)緊密合作,基于自研硬件平臺完成數(shù)據(jù)集智能流動和加速,以及CheckPoint流程優(yōu)化提效等關(guān)鍵功能開發(fā)上線。
阿里云服務(wù)器研發(fā)始終堅持以技術(shù)創(chuàng)新為核心驅(qū)動力,引領(lǐng)行業(yè)發(fā)展趨勢,結(jié)合業(yè)務(wù)需求深入軟硬融合創(chuàng)新,為阿里云基礎(chǔ)設(shè)施的持續(xù)發(fā)展創(chuàng)造獨特價值。