C114通信網(wǎng)  |  通信人家園

專題
2024/10/21 15:59

鑄引擎、破難題、建樣板:移動(dòng)云以智算服務(wù)體系為基,助力千行萬(wàn)業(yè)擁抱AI+時(shí)代

C114通信網(wǎng)  蔣均牧

C114訊 10月21日專稿(蔣均牧)技術(shù)的每一次突破,都創(chuàng)造了無(wú)限的可能。過(guò)去數(shù)年中,我們共同見(jiàn)證了人工智能的迅速崛起和跨越拐點(diǎn)——從前沿科技到貼身助理、從星空探索到衣食住行,AI技術(shù)正以驚人速度融入眾多場(chǎng)景,在數(shù)字經(jīng)濟(jì)發(fā)展中發(fā)揮越來(lái)越重要的作用,成為新質(zhì)生產(chǎn)力核心驅(qū)動(dòng)因素和新的生產(chǎn)工具。

人工智能當(dāng)前已經(jīng)上升為國(guó)家戰(zhàn)略,今年的政府工作報(bào)告中明確提出要深化大數(shù)據(jù)、AI等研發(fā)應(yīng)用,開(kāi)展“人工智能+”行動(dòng),打造具有國(guó)際競(jìng)爭(zhēng)力的數(shù)字產(chǎn)業(yè)集群。在硬幣的另一面,AI的技術(shù)迭代和應(yīng)用普惠,離不開(kāi)強(qiáng)大算力的支持;在各行各業(yè)落地AI大模型以賦能產(chǎn)業(yè)升級(jí)的過(guò)程中,也依然存在著不少難點(diǎn)、痛點(diǎn)。面向AI+時(shí)代,易獲取且好用的智算產(chǎn)品及服務(wù)無(wú)疑是擁抱變革浪潮、共建繁榮業(yè)態(tài)的關(guān)鍵所在。

作為云計(jì)算和AI領(lǐng)域的“國(guó)家隊(duì)”,移動(dòng)云在智算賽道上耕耘多時(shí)、領(lǐng)勢(shì)先行。就在剛剛召開(kāi)的2024中國(guó)移動(dòng)全球合作伙伴大會(huì)上,移動(dòng)云攜算網(wǎng)研發(fā)最新成果及智算服務(wù)體系精彩亮相,全面展現(xiàn)了其綜合優(yōu)勢(shì)及卓越能力。以此為契機(jī),C114赴蘇州采訪到了中國(guó)移動(dòng)云能力中心平臺(tái)產(chǎn)品部總經(jīng)理齊驥,請(qǐng)這位移動(dòng)“大云”項(xiàng)目最早參與者之一、享受?chē)?guó)務(wù)院津貼的資深專家與我們分享對(duì)AI+時(shí)代云服務(wù)的思考、解讀移動(dòng)云的新時(shí)期布局,特別是在促進(jìn)AI大模型落地應(yīng)用方面的創(chuàng)新與實(shí)踐。

他指出,算力主體由通用算力轉(zhuǎn)向智能算力已是大勢(shì)所趨,移動(dòng)云擁有較大的用戶規(guī)模、廣泛的資源布局、靈活的算網(wǎng)大腦調(diào)度能力和云智產(chǎn)品技術(shù)積累,在此基礎(chǔ)上致力于加快推動(dòng)“由算融智”、打造AI服務(wù)入口、探索更多應(yīng)用場(chǎng)景,為智算產(chǎn)業(yè)的健康發(fā)展和千行萬(wàn)業(yè)的數(shù)智化轉(zhuǎn)型注入源源不斷的動(dòng)力。

多管齊下,鑄就AI+時(shí)代強(qiáng)引擎

生成式AI、AI大模型等AI技術(shù)的蓬勃發(fā)展和在行業(yè)中的走實(shí)向深,帶來(lái)了對(duì)算力尤其智能算力需求的爆炸性增長(zhǎng),讓算力成為如“水電煤”般一點(diǎn)接入、隨取隨用的社會(huì)級(jí)服務(wù)已經(jīng)演變?yōu)橐环N“剛需”。2023年10月,工信部等六部門(mén)對(duì)外發(fā)布《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動(dòng)計(jì)劃》,提出到2025年,算力規(guī)模超過(guò)300EFLOPS,智能算力占比達(dá)到35%,東西部算力平衡協(xié)調(diào)發(fā)展;今年9月,工信部等十一部門(mén)聯(lián)合發(fā)布《關(guān)于推動(dòng)新型信息基礎(chǔ)設(shè)施協(xié)調(diào)發(fā)展有關(guān)事項(xiàng)的通知》,強(qiáng)調(diào)要優(yōu)化布局算力基礎(chǔ)設(shè)施,逐步提升智能算力占比。

中國(guó)移動(dòng)以“信息服務(wù)科技創(chuàng)新公司”為愿景,提出并大力推進(jìn)“AI+”行動(dòng)計(jì)劃。齊驥介紹說(shuō),移動(dòng)云依托中國(guó)移動(dòng)資源稟賦,從算力、網(wǎng)絡(luò)、調(diào)度、產(chǎn)品、生態(tài)等維度多管齊下,推動(dòng)算力普及和高效利用,加速云服務(wù)走向“智算原生”,構(gòu)筑AI+時(shí)代強(qiáng)引擎。

其一是打造“超級(jí)工廠”,釋放算力集群優(yōu)勢(shì)。加快算力基礎(chǔ)設(shè)施向通智超量一體化演進(jìn),打造多元泛在、綠色低碳的智算集群,強(qiáng)化超算、量算等社會(huì)算力并網(wǎng)。面向“AI+”升級(jí),中國(guó)移動(dòng)今年著力深化N個(gè)全國(guó)性智算中心與X個(gè)邊緣智算節(jié)點(diǎn)建設(shè)布局,計(jì)劃年內(nèi)建成三個(gè)超萬(wàn)卡智算中心、總規(guī)模近6萬(wàn)卡,在1500個(gè)邊緣節(jié)點(diǎn)按需部署推理卡,形成“中心大集群、邊緣廣分布、中訓(xùn)邊推、訓(xùn)推一體”的智算網(wǎng)絡(luò)。

其二是暢通“信息高速”,發(fā)揮網(wǎng)絡(luò)規(guī)模優(yōu)勢(shì)。中國(guó)移動(dòng)在完成國(guó)家八大算力樞紐節(jié)點(diǎn)間400G全光高速直連基礎(chǔ)上,開(kāi)展800G/1.2T超高速下一代網(wǎng)絡(luò)、廣域高吞吐協(xié)議等試點(diǎn)驗(yàn)證,深化覆蓋全國(guó)的算力三級(jí)時(shí)延圈,通過(guò)在網(wǎng)絡(luò)方面的持續(xù)創(chuàng)新,將為AI訓(xùn)推一體提供低時(shí)延、大帶寬、高可靠、強(qiáng)彈性的互聯(lián)能力。

其三是研發(fā)“調(diào)度中樞”,筑牢算網(wǎng)融合優(yōu)勢(shì)。中國(guó)移動(dòng)將利用自主研發(fā)的算網(wǎng)大腦,實(shí)現(xiàn)全網(wǎng)調(diào)度能力和智能化水平的全面躍升,進(jìn)一步提升算力資源使用效率和效能,支撐更多國(guó)家級(jí)、樞紐級(jí)調(diào)度平臺(tái)的構(gòu)建。

其四是建設(shè)“策源之地”,構(gòu)建核心能力優(yōu)勢(shì)。中國(guó)移動(dòng)將依托AI智能基座,錨定AI供給者、匯聚者、運(yùn)營(yíng)者定位,構(gòu)建“4個(gè)1”智算能力體系,即升級(jí)1個(gè)AI+算網(wǎng)底座、升級(jí)1個(gè)智能云內(nèi)核、創(chuàng)新1個(gè)MaaS平臺(tái)、重塑1批AI+應(yīng)用服務(wù)。

其五是開(kāi)放“產(chǎn)業(yè)生態(tài)”,推動(dòng)算力模型融通。開(kāi)展“百川”算力并網(wǎng)行動(dòng)計(jì)劃,覆蓋通、智、超、量多種算力類型,實(shí)現(xiàn)昆山超算中心、許昌智算中心、波色量子等3.4 EFLOPS社會(huì)算力并網(wǎng)。模型生態(tài)匯聚自研、開(kāi)源及三方商業(yè)大模型,與行業(yè)龍頭共建行業(yè)大模型,打造最大規(guī)模、最開(kāi)放的模型生態(tài),推動(dòng)AI+融合創(chuàng)新應(yīng)用加速落地。

震澤平臺(tái),破解大模型訓(xùn)練難題

AI大模型被公認(rèn)為是推動(dòng)行業(yè)變革的關(guān)鍵因素,得益于政策和需求的雙輪驅(qū)動(dòng),千億、萬(wàn)億參數(shù)規(guī)模的大模型不斷涌現(xiàn)、性能也越來(lái)越強(qiáng)。但是對(duì)傳統(tǒng)產(chǎn)業(yè)來(lái)說(shuō),AI大模型的落地應(yīng)用面臨不少挑戰(zhàn),例如大模型訓(xùn)練尚處在早期階段,存在著效率低、不穩(wěn)定、門(mén)檻高等明顯短板,智算資源池從“建起來(lái)”到“易用好用”,還有很長(zhǎng)的路要走。

“隨著參數(shù)規(guī)模和訓(xùn)練樣本的增加,千億大模型預(yù)訓(xùn)練周期大約在45~60天,但千卡集群穩(wěn)定訓(xùn)練時(shí)長(zhǎng)平均只有2天。雖然業(yè)界已有斷點(diǎn)續(xù)訓(xùn)的通用能力,但故障定位、任務(wù)恢復(fù)往往需要消耗幾個(gè)小時(shí)。同時(shí),由于檢查點(diǎn)非實(shí)時(shí)保存,依舊存在歷史訓(xùn)練記錄的丟失,從而損失算力的有效訓(xùn)練時(shí)間!饼R驥舉例說(shuō)。

有鑒于此,為加快AI大模型在行業(yè)中的落地,移動(dòng)云創(chuàng)新打造了一站式智算平臺(tái)——震澤智算平臺(tái),以系統(tǒng)性地解決當(dāng)下的矛盾。該平臺(tái)具備異構(gòu)算力納管、萬(wàn)卡并行訓(xùn)練、全棧國(guó)產(chǎn)化適配、“通、智、邊”一體化等多類突出能力,能夠?yàn)橛脩籼峁└、更穩(wěn)、更好的大模型訓(xùn)推體驗(yàn)。在訓(xùn)練效率問(wèn)題上,設(shè)計(jì)和開(kāi)源了彈性資源管理架構(gòu)KOSMOS,池化智算算力,實(shí)現(xiàn)萬(wàn)卡算力資源分鐘級(jí)創(chuàng)建,開(kāi)箱即用;通過(guò)數(shù)據(jù)預(yù)熱和緩存加速,IO性能提升20%,成本壓縮三分之一;通過(guò)梯度分段聚合以及算子融合加速等技術(shù),將國(guó)產(chǎn)芯片MFU從35%提升至46%。

在長(zhǎng)穩(wěn)訓(xùn)練層面,移動(dòng)云首創(chuàng)了惰性續(xù)訓(xùn)技術(shù),當(dāng)故障來(lái)臨時(shí),健康節(jié)點(diǎn)忽略故障繼續(xù)訓(xùn)練,因故障發(fā)生而掉隊(duì)的節(jié)點(diǎn)則通過(guò)彈性供給快速補(bǔ)齊。利用新增資源追趕訓(xùn)練進(jìn)度,結(jié)合內(nèi)存實(shí)時(shí)檢查點(diǎn)實(shí)現(xiàn)故障恢復(fù)時(shí)間相比主流水平壓降90%,做到斷點(diǎn)不斷訓(xùn),實(shí)現(xiàn)了千卡25天超長(zhǎng)穩(wěn)訓(xùn)。

在訓(xùn)推平臺(tái)易用性層面,移動(dòng)云提供了一體化工具鏈。依托算網(wǎng)大腦實(shí)現(xiàn)通智邊一體化調(diào)度,結(jié)合數(shù)據(jù)快遞實(shí)現(xiàn)模型訓(xùn)中熱遷移,各智算中心資源化零為整;同時(shí)提供模型一鍵轉(zhuǎn)換能力,轉(zhuǎn)換好的模型自動(dòng)推送到邊緣異構(gòu)芯片進(jìn)行推理,為客戶屏蔽底層異構(gòu)芯片的差異以及資源跨域的感知。

齊驥表示,移動(dòng)云智算平臺(tái)在產(chǎn)品設(shè)計(jì)上遵循了安全可靠、穩(wěn)定高效、異構(gòu)解耦和用戶導(dǎo)向四大關(guān)鍵原則。在安全可靠上,移動(dòng)云于2023年高分通過(guò)公安部網(wǎng)絡(luò)安全等級(jí)保護(hù)四級(jí)認(rèn)證,并已獲得20多項(xiàng)安全資質(zhì)。智算平臺(tái)基于移動(dòng)云的安全防線,通過(guò)首創(chuàng)的KOSMOS管理架構(gòu),實(shí)現(xiàn)租戶間安全物理隔離,確保了多租戶環(huán)境下的數(shù)據(jù)隱私與操作獨(dú)立性。在穩(wěn)定高效上,首先將斷點(diǎn)續(xù)訓(xùn)升級(jí)為業(yè)界首創(chuàng)的惰性續(xù)訓(xùn),做到斷點(diǎn)不斷訓(xùn);同時(shí),結(jié)合數(shù)據(jù)預(yù)熱、緩存加速、梯度異步聚合、算子融合加速等核心技術(shù)將訓(xùn)練成本壓降15%以上,訓(xùn)練效能提升11%。在異構(gòu)解耦層面,移動(dòng)云通過(guò)支持英偉達(dá)和國(guó)產(chǎn)芯片模型的一鍵互轉(zhuǎn),將訓(xùn)推任務(wù)與芯片解耦,結(jié)合算網(wǎng)大腦實(shí)現(xiàn)訓(xùn)練推理任務(wù)在異地和異構(gòu)算力上的靈活調(diào)度。最后,堅(jiān)持以用戶為導(dǎo)向,深度整合市場(chǎng)需求、客戶訪談等多維度信息,捕捉用戶真實(shí)需求,進(jìn)而驅(qū)動(dòng)產(chǎn)品功能創(chuàng)新與交互設(shè)計(jì)的持續(xù)優(yōu)化,確保每一項(xiàng)改進(jìn)都緊密?chē)@用戶需求。

多方實(shí)踐,打通AI落地“最后一公里

基于海量算力資源,移動(dòng)云現(xiàn)已上線自研震澤智算平臺(tái)、大模型服務(wù)平臺(tái),提供模型訓(xùn)推、智能體開(kāi)發(fā)等全鏈路模型及應(yīng)用工具鏈,助力打通AI大模型行業(yè)落地的“最后一公里”。其中,大模型服務(wù)平臺(tái)匯聚了開(kāi)源、九天以及三方商用大模型,建設(shè)“L0基礎(chǔ)模型+L1行業(yè)模型+L2行業(yè)智能體+模型服務(wù)”的體系化生態(tài)服務(wù)內(nèi)容,攜手合作伙伴共建面向用戶需求的商業(yè)閉環(huán)。

“行勝于言”,相比于市場(chǎng)上并不鮮見(jiàn)的“口號(hào)式”創(chuàng)新,移動(dòng)云已經(jīng)拿出了實(shí)實(shí)在在的實(shí)踐成果。齊驥在采訪中與C114分享了幾個(gè)成功故事,這在一定程度上或可視作引領(lǐng)發(fā)展方向的一座座“燈塔”。

中國(guó)移動(dòng)云能力中心作為一個(gè)擁有3000名以上程序員的研發(fā)型單位,積累了海量代碼數(shù)據(jù),研發(fā)成本在整體成本支出中占比較高。移動(dòng)云自主研發(fā)并發(fā)布了湛盧代碼大模型,基于九天大模型基座,圍繞包括代碼問(wèn)答、代碼補(bǔ)全、單元測(cè)試等在內(nèi)的IT研發(fā)8大核心場(chǎng)景進(jìn)行特定優(yōu)化,支持100種以上編程語(yǔ)言,具備文生代碼、圖生代碼、企業(yè)私有知識(shí)庫(kù)等特色功能。目前,湛盧代碼助手已經(jīng)在移動(dòng)云內(nèi)部全面推廣使用,覆蓋開(kāi)發(fā)、測(cè)試、運(yùn)維研發(fā)全流程,預(yù)計(jì)今年將為移動(dòng)云降低10%研發(fā)成本。

移動(dòng)云在能源、物流、政務(wù)等領(lǐng)域均有大模型相關(guān)的落地項(xiàng)目,涵蓋多種應(yīng)用場(chǎng)景。例如在能源行業(yè),移動(dòng)云攜手兄弟單位助力客戶實(shí)施智能化升級(jí),通過(guò)發(fā)揮中國(guó)移動(dòng)算力網(wǎng)絡(luò)優(yōu)勢(shì),為客戶提供從資源到平臺(tái)、到模型服務(wù)的端到端產(chǎn)品能力,助力客戶得以快速具備400P的智算資源;搭建統(tǒng)一調(diào)度管理平臺(tái),為上層九天提供豐沛算力,支持各個(gè)業(yè)務(wù)場(chǎng)景使用。

再比如在物流行業(yè),面對(duì)人工客服標(biāo)準(zhǔn)化程度低、坐席緊張的情況,移動(dòng)云攜手物流公司打造物流客服大模型,AI客服可解答85%以上的用戶問(wèn)題,同時(shí)在并發(fā)場(chǎng)景下回復(fù)速率更快,從而提高了整體效率和客戶滿意度。

齊驥告訴C114,移動(dòng)云正在積極推進(jìn)大模型在各個(gè)行業(yè)的應(yīng)用落地,目前在教育、醫(yī)療、工業(yè)、交通等多個(gè)行業(yè)都看到了細(xì)分場(chǎng)景需求。

在生態(tài)方面,移動(dòng)云為合作伙伴提供了DICT庫(kù)、MaaS云市場(chǎng)、聯(lián)合實(shí)驗(yàn)室等多種合作方式,并且除了開(kāi)發(fā)工具等技術(shù)能力上的支持,還提供了算力補(bǔ)貼、技術(shù)大賽、沙龍活動(dòng)等政策扶持。未來(lái)將持續(xù)打造完備的模型及應(yīng)用生態(tài),幫助各個(gè)合作伙伴實(shí)現(xiàn)自己的智能服務(wù)。

面向未來(lái),加快實(shí)現(xiàn)商業(yè)閉環(huán)

超大規(guī)模智算集群是AI大模型發(fā)展的技術(shù)基礎(chǔ)。然而“技術(shù)可行”不等于“商業(yè)可行”,AI技術(shù)未來(lái)應(yīng)朝著可持續(xù)的商業(yè)閉環(huán)路徑邁進(jìn)。如何激發(fā)AI應(yīng)用市場(chǎng)需求以拉動(dòng)整個(gè)AI產(chǎn)業(yè)鏈的發(fā)展,是一個(gè)亟需探索的方向,這也意味著對(duì)于算力的需求將從模型訓(xùn)練到模型應(yīng)用,更強(qiáng)調(diào)計(jì)算的高性價(jià)比、彈性伸縮和低時(shí)延。

“人們總是高估新技術(shù)的短期影響,卻低估其長(zhǎng)期價(jià)值。電氣技術(shù)也是在成熟了30年以后才逐漸走向廣泛應(yīng)用,引發(fā)電氣革命,F(xiàn)在去擔(dān)憂AI會(huì)不會(huì)替代或者淘汰人還為時(shí)過(guò)早,而是要將重點(diǎn)放在AI的普及上來(lái)!饼R驥強(qiáng)調(diào)。

他介紹說(shuō),過(guò)去一年中,AI在軟件研發(fā)領(lǐng)域的應(yīng)用已經(jīng)變得更加廣泛和深入,各類“AI程序員”概念產(chǎn)品頻繁出現(xiàn)。談到,移動(dòng)云根據(jù)自身的技術(shù)實(shí)踐和行業(yè)洞察,AI在該領(lǐng)域?qū)妮o助代碼開(kāi)發(fā)向輔助軟件研發(fā)全流程發(fā)展、從輔助人類向自主編程發(fā)展。

“技術(shù)為根,人才為本”,AI的發(fā)展是一項(xiàng)長(zhǎng)期復(fù)雜的體系化工程,以大模型為例,其全流程就涉及了算力底座、數(shù)據(jù)準(zhǔn)備、模型使能、業(yè)務(wù)應(yīng)用等多個(gè)環(huán)節(jié)。各行各業(yè)在實(shí)現(xiàn)AI大模型落地應(yīng)用的過(guò)程中,也亟需由內(nèi)而外構(gòu)建起相應(yīng)的能力。因此對(duì)智算與大模型相關(guān)人才的需求將進(jìn)一步凸顯。

齊驥表示,任何一個(gè)產(chǎn)業(yè)的發(fā)展,都離不開(kāi)大量人才的支持。智算人才的培育,需要“政產(chǎn)學(xué)研”各方共同發(fā)力。移動(dòng)云除了自身通過(guò)內(nèi)培、競(jìng)賽等方式,促進(jìn)內(nèi)部人才的成長(zhǎng),還致力于與高校合作,讓在校生更早地接觸到AI知識(shí)、激發(fā)他們對(duì)新技術(shù)的興趣,從而形成立體、綜合、成批次的人才培育體系。

“在未來(lái)幾年內(nèi),我們希望構(gòu)建更穩(wěn)定、易用、好用和普惠的算力服務(wù),供給越來(lái)越多的AI應(yīng)用服務(wù)構(gòu)建智算商業(yè)閉環(huán),讓‘能用’的技術(shù)可行,轉(zhuǎn)變?yōu)椤巳擞谩纳虡I(yè)可行。側(cè)重解決算力運(yùn)營(yíng)中的問(wèn)題,解決規(guī);、集約化和高性價(jià)比等難題!痹诓稍L的最后他這樣展望道。

寫(xiě)在最后

人工智能被譽(yù)為是21世紀(jì)社會(huì)生產(chǎn)力最為重要的賦能技術(shù)!翱萍碱A(yù)言家”、知名科技雜志《連線》創(chuàng)始主編凱文·凱利(Kevin Kelly)曾預(yù)測(cè),未來(lái)百年里,人工智能將超越任何一種人工力量,將人類引領(lǐng)到一個(gè)前所未有的時(shí)代。今年的諾貝爾物理學(xué)獎(jiǎng)和諾貝爾化學(xué)獎(jiǎng)也都與AI相關(guān)。

如今,我們正處在AI起勢(shì)的關(guān)鍵階段。移動(dòng)云在智算及AI大模型方面的思考與實(shí)踐、布局與成果,既為AI的普惠化、產(chǎn)業(yè)化、規(guī);l(fā)展插上了翅膀,也為各行各業(yè)的智能化升級(jí)提供了利器,還給AI+時(shí)代的云服務(wù)樹(shù)立了標(biāo)桿。攜手移動(dòng)云,共同在新一輪創(chuàng)新變革浪潮中破浪前行,擘畫(huà)數(shù)改智轉(zhuǎn)更美好未來(lái),時(shí)不我待!

給作者點(diǎn)贊
0 VS 0
寫(xiě)得不太好

版權(quán)說(shuō)明:C114刊載的內(nèi)容,凡注明來(lái)源為“C114通信網(wǎng)”或“C114原創(chuàng)”皆屬C114版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編,違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位,也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和本站來(lái)源。編譯類文章僅出于傳遞更多信息之目的,不代表證實(shí)其描述或贊同其觀點(diǎn);翻譯質(zhì)量問(wèn)題請(qǐng)指正

熱門(mén)文章
    最新視頻
    為您推薦

      C114簡(jiǎn)介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2024 c114 All Rights Reserved | 滬ICP備12002291號(hào)

      C114 通信網(wǎng) 版權(quán)所有 舉報(bào)電話:021-54451141