8月30日,中國移動智算中心(哈爾濱)正式建成并投產(chǎn)使用,作為國內(nèi)運(yùn)營商最大的單集群智算中心,無論從前期的規(guī)劃設(shè)計、技術(shù)體系制定還是現(xiàn)場的規(guī)模數(shù)量、設(shè)備多樣性、建設(shè)驗(yàn)收都是一項(xiàng)巨大的、復(fù)雜的系統(tǒng)工程。在工程最繁忙的時候,現(xiàn)場有來自中國移動內(nèi)部相關(guān)單位以及設(shè)備商、集成商等外部合作伙伴近200名技術(shù)人員。而在其中,一名來自中國移動研究院的特殊的“數(shù)智員工”——“AUTO行云”自動化集成驗(yàn)收工具,以其兢兢業(yè)業(yè)的工作態(tài)度和高效可靠的工作能力,為這一里程碑式的智算萬卡集群順利上線提供了有力保障。
萬卡集群的高效交付為什么需要“數(shù)智員工”
近年來,以大模型為代表的人工智能技術(shù)取得了飛速發(fā)展,這一對未來影響深遠(yuǎn)的技術(shù)變革,使得作為人工智能發(fā)展基礎(chǔ)的大規(guī)模智算中心的建設(shè),也日漸成為各大企業(yè)乃至大國之間競爭的新焦點(diǎn)。在這一過程中,不僅算力規(guī)模日益龐大,從千卡向萬卡乃至未來十萬卡的量級快速擴(kuò)張,算力基礎(chǔ)設(shè)施的快速供應(yīng)也也成為關(guān)鍵。據(jù)消息稱,馬斯克最近投產(chǎn)的10萬卡超算集群,從硬件安裝到投入訓(xùn)練,總共只花了19天時間。
與此同時,在大規(guī);A(chǔ)設(shè)施特別是萬卡新型智算中心建設(shè)過程中,數(shù)千臺設(shè)備、數(shù)萬條網(wǎng)絡(luò)連線、數(shù)十萬項(xiàng)各類設(shè)備規(guī)格等等,會不可避免的發(fā)生設(shè)備硬件故障及驅(qū)動程序錯誤、網(wǎng)絡(luò)連線及光模塊問題,以及人工設(shè)備參數(shù)配置錯誤等。必須要對硬件進(jìn)行全面、準(zhǔn)確的驗(yàn)收檢查,發(fā)現(xiàn)、定位和幫助整改各類問題,以高質(zhì)量的算力基礎(chǔ)設(shè)施確保后續(xù)大模型訓(xùn)練的正常運(yùn)行。
可以想見,對于如此大的工作量,如果采用人工,即使可以通過投入大量資源完成測試,項(xiàng)目工期也是完全不可接受的。為應(yīng)對這一挑戰(zhàn),中國移動研究院自研的“AUTO行云”自動化集成驗(yàn)收工具應(yīng)運(yùn)而生。幾年來,該工具已經(jīng)在網(wǎng)絡(luò)云、IT云和智算中心等320多個資源池建設(shè)中累計應(yīng)用超過30萬臺服務(wù)器,將超過95%的人工操作轉(zhuǎn)為自動化,使配置驗(yàn)收環(huán)節(jié)效率提升10倍以上,整體工期縮短2/3以上。
為了便于現(xiàn)場使用自動化工具開展集成驗(yàn)收,AUTO團(tuán)隊(duì)打造了可遠(yuǎn)程訪問的AUTOBox軟硬一體機(jī)設(shè)備,每當(dāng)有類似哈爾濱智算集群這樣的大規(guī)模算網(wǎng)基礎(chǔ)設(shè)施建設(shè)項(xiàng)目,一臺AUTOBox就會作為一名“數(shù)智員工”出差到現(xiàn)場,成為輔助項(xiàng)目集成和驗(yàn)收的技術(shù)中堅力量。
AUTO“數(shù)智員工”(位于哈爾濱萬卡集群)
“數(shù)智員工”在哈爾濱萬卡集群中的表現(xiàn)可圈可點(diǎn)
在哈爾濱萬卡集群現(xiàn)場,研究院這名被大家親切稱之為“小5”(編號為AUTO-5)的“員工”,在歷時近2個月的集成驗(yàn)收測試期間表現(xiàn)可謂可圈可點(diǎn),獲得大家的一致認(rèn)可。
勇于擔(dān)當(dāng),直面困難不退縮。哈爾濱萬卡集群的各類服務(wù)器、交換機(jī)等設(shè)備數(shù)量超過6000臺,連線數(shù)量近7萬條,這一規(guī)模比AUTO以往驗(yàn)收過的最大規(guī)模資源池還要大3倍以上。雖然AUTO團(tuán)隊(duì)特意選派了“身體素質(zhì)好、戰(zhàn)斗力強(qiáng)”(設(shè)備配置高、性能強(qiáng))的“小5”前往哈爾濱,但在開始工作之處還是遭遇了嚴(yán)重的性能挑戰(zhàn)。
例如,其它集群中,一般1小時就可以完成的一輪全量驗(yàn)收測試,在萬卡智算集群中需要耗費(fèi)7至8小時。由于龐大的數(shù)據(jù)量對數(shù)據(jù)庫造成的壓力,可視化測試驗(yàn)收界面在加載數(shù)據(jù)時頻繁出現(xiàn)響應(yīng)緩慢,使得一線工程師難以實(shí)時監(jiān)控和了解測試的具體進(jìn)展。為此,AUTO團(tuán)隊(duì)迅速在調(diào)度策略、數(shù)據(jù)庫寫入次數(shù)、SQL執(zhí)行解耦、界面加載優(yōu)化等多維度制定優(yōu)化措施,保障“小5”的運(yùn)行性能。經(jīng)過不斷努力,將單輪全量測試時間壓縮到2小時以內(nèi)完成、錯誤用例的重測間隔時間更是控制到半小時以內(nèi),頁面響應(yīng)速度也大幅提升。
勤勉盡責(zé),默默嚴(yán)守質(zhì)量關(guān)。從7月初進(jìn)駐現(xiàn)場開始,“小5”就默默地待在機(jī)房的一個角落,保持著7×24小時的高強(qiáng)度、不間斷自動運(yùn)轉(zhuǎn)。哈爾濱智算集群的驗(yàn)收用例總計超過25萬個,“小5”一輪接著一輪運(yùn)行,第一時間通過頁面、郵件等方式匯報測試結(jié)果和發(fā)現(xiàn)的問題。
“小5”同時也是連接智算集群、一線工程師和AUTO團(tuán)隊(duì)的媒介。一方面,AUTO團(tuán)隊(duì)和一線工程師均可通過“小5”獲取測試結(jié)果的整體情況和詳細(xì)報告,并安排“小5”對部分測試用例進(jìn)行臨時復(fù)測,或者通過更新代碼、數(shù)據(jù)來升級“小5”的能力。另一方面,“小5”還自帶最新的基于大模型的“智能助手”,協(xié)助現(xiàn)網(wǎng)工程師實(shí)現(xiàn)快速問題分析并指導(dǎo)整改。
AUTO運(yùn)行界面(位于哈爾濱萬卡集群)
持續(xù)進(jìn)步,高效掌握新技能。在AUTO平臺以往的使用模式中,為保障測試過程和結(jié)果的準(zhǔn)確和可靠,通常需要人工預(yù)先準(zhǔn)備詳盡的期望值數(shù)據(jù)作為驗(yàn)收的依據(jù),期望值的內(nèi)容如有錯漏將直接影響自動化驗(yàn)收的結(jié)果。在本次哈爾濱萬卡集群中,面對6千余臺設(shè)備規(guī)模、約40種配置模型、每種模型包含30余個參數(shù)項(xiàng)的復(fù)雜場景特征,如何在盡量減少人員投入、避免反復(fù)溝通的情況下,快速準(zhǔn)確準(zhǔn)備數(shù)據(jù)成為關(guān)鍵問題。
為解決這一難題,AUTO團(tuán)隊(duì)為“小5”增加了“自學(xué)習(xí)”的能力。通過我們稱之為AUTOZero的無監(jiān)督自學(xué)習(xí)的數(shù)據(jù)管理算法,通過現(xiàn)場采集設(shè)備信息,采用智能算法來預(yù)測各類設(shè)備的組件規(guī)格、配置參數(shù)等期望結(jié)果,實(shí)際使用中預(yù)測準(zhǔn)確率達(dá)到95%以上,可減少80%的數(shù)據(jù)準(zhǔn)備及校驗(yàn)工作量,顯著縮短了驗(yàn)收的準(zhǔn)備時間。
即時響應(yīng),周到服務(wù)暖人心。在現(xiàn)場駐守的“小5”背后,是AUTO平臺軟件開發(fā)和實(shí)施支撐團(tuán)隊(duì)的近10名經(jīng)驗(yàn)豐富的研究院同事。“保姆式服務(wù)”,是黑龍江省公司負(fù)責(zé)萬卡集群驗(yàn)收的網(wǎng)絡(luò)部同事們,對AUTO團(tuán)隊(duì)現(xiàn)網(wǎng)支撐的敏捷響應(yīng)和實(shí)干精神有感而發(fā)的一個“詞”。AUTO團(tuán)隊(duì)為保障萬卡資源池的順利進(jìn)行,多次與省公司和一線工程師溝通,根據(jù)現(xiàn)場需求快速響應(yīng)實(shí)現(xiàn)分批測試、定位報錯設(shè)備位置信息、頁面會話保存、LLD更新時間等功能。通過多方的實(shí)時溝通,以及快速的測試問題整改響應(yīng),哈爾濱萬卡集群第一批設(shè)備在一周內(nèi)測試通過率迅速提升至99%,成為智算驗(yàn)收過程中整改速度最快的集群。省公司同事自己測算,整體驗(yàn)收效率提升73%以上,通過節(jié)省智算集群的上線時間,也進(jìn)一步降低了能耗、人工等多項(xiàng)成本。
面向未來,AUTO“數(shù)智員工”時刻待命
兩個“100”天打造了哈爾濱萬卡集群建設(shè)交付的圓滿佳績。AUTO在這個過程中也邁上了新臺階,不僅在集群規(guī)模上突破了歷史記錄,更是在流程、性能、功能、服務(wù)等各方面都取得了新的里程碑式成果。
哈爾濱1.8萬卡的超大規(guī)模智算集群成功上線,未來更多、更大的智算集群仍然在路上。在交流中,省公司對AUTO也提出了更多的應(yīng)用場景和功能需求,如自動化設(shè)備參數(shù)配置、標(biāo)簽智能化識別、數(shù)字孿生場景的網(wǎng)絡(luò)拓?fù)鋵?shí)現(xiàn)等等。“小5”和小伙伴們將在前期積累的技術(shù)創(chuàng)新和實(shí)戰(zhàn)經(jīng)驗(yàn),以及與項(xiàng)目一線的良好合作的基礎(chǔ)上,進(jìn)一步提升能力,隨時準(zhǔn)備奔赴新的智算中心建設(shè)現(xiàn)場,為公司智算集群建設(shè)和國家算力基礎(chǔ)設(shè)施的高質(zhì)量發(fā)展做出貢獻(xiàn)。