C114通信網(wǎng)  |  通信人家園

 
2024/12/13 14:02

鄭緯民:做好系統(tǒng)設(shè)計(jì)和軟件優(yōu)化,持續(xù)提升自主創(chuàng)新AI生態(tài)系統(tǒng)

廠商供稿  

如今,人工智能正進(jìn)入一個(gè)前所未有的新時(shí)代,以大模型為代表的人工智能技術(shù),正在各行各業(yè)加速落地,各種應(yīng)用場景層出不窮。但與此同時(shí),人工智能技術(shù)的持續(xù)進(jìn)化和深度應(yīng)用,以及大模型的遍地開花,也激發(fā)出對智能算力的強(qiáng)勁要求。

今年9月發(fā)布的《中國綜合算力指數(shù)報(bào)告(2024)》顯示,中國算力規(guī)模位居世界第二;其中,智能算力快速增長,同比增速超過65%。從2003年到2023年,智能算力需求的增長超過百億倍,構(gòu)成了算力增長的最主要驅(qū)動(dòng)力。在這一趨勢下,如何設(shè)計(jì)支持大模型訓(xùn)練的計(jì)算系統(tǒng),如何構(gòu)建自主創(chuàng)新的軟件生態(tài),已經(jīng)成為推動(dòng)人工智能大模型創(chuàng)新發(fā)展的“必答題”。

在日前召開的華為數(shù)字中國行2024·安徽新質(zhì)生產(chǎn)力創(chuàng)新峰會(huì)上,中國工程院院士、清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系教授鄭緯民在“支持人工智能大模型的系統(tǒng)軟件”的主題演講中表示,算力是大模型產(chǎn)業(yè)的主要開銷,在構(gòu)建支持大模型訓(xùn)練的計(jì)算系統(tǒng)過程中,想要持續(xù)提升自主創(chuàng)新AI生態(tài)系統(tǒng),就需要做好系統(tǒng)設(shè)計(jì)和相關(guān)軟件優(yōu)化。

其中,設(shè)計(jì)大模型計(jì)算系統(tǒng)需要考慮5個(gè)問題,包括多種精度運(yùn)算性能的平衡、網(wǎng)絡(luò)平衡設(shè)計(jì)、內(nèi)存平衡設(shè)計(jì)、IO子系統(tǒng)平衡設(shè)計(jì)、自主創(chuàng)新AI計(jì)算系統(tǒng);而構(gòu)建自主創(chuàng)新軟件生態(tài)則需要做好10件事情,包括編程框架、并行加速、通信庫、算子庫、AI編譯器,編程語言,以及調(diào)度器、內(nèi)存分配、容錯(cuò)系統(tǒng)、存儲(chǔ)系統(tǒng)等。

11c5e1df467e1940093a6181f5075be5e0cd2128

進(jìn)入大模型時(shí)代

算力成本居高不下

縱觀整個(gè)2024年的人工智能領(lǐng)域,“人工智能+”行動(dòng)持續(xù)推進(jìn),“百模大戰(zhàn)”仍在繼續(xù)。與此同時(shí),大模型正加速走向落地應(yīng)用,不僅在垂直領(lǐng)域持續(xù)走深,其應(yīng)用場景也逐步走向多樣化。正如鄭緯民所說,人工智能已進(jìn)入大模型時(shí)代。

同時(shí),鄭緯民也從技術(shù)和應(yīng)用層面對大模型的發(fā)展進(jìn)行了分析:一方面,AI基礎(chǔ)大模型正在從單模態(tài)向多模態(tài)發(fā)展。比如,在文本交互方面,ChatGPT實(shí)現(xiàn)真正像人類一樣來聊天交流;在圖像創(chuàng)作方面,Midjourney AIGC畫作《太空歌劇院》獲得人類藝術(shù)比賽冠軍;在視頻生成方面,I2VGen-XL可以在用戶上傳1張圖后2分鐘生成高清視頻。

另一方面,各行各業(yè)與AI的深度融合,正在加速行業(yè)智能化升級(jí),創(chuàng)造更大價(jià)值。比如,在金融行業(yè),在過去一年里,華為與領(lǐng)先金融機(jī)構(gòu)深入合作,共同落地了超過100個(gè)AI智能場景,正在以大模型重塑金融的應(yīng)用、終端交互及業(yè)務(wù)模式;在制造行業(yè),華為工業(yè)AI質(zhì)檢解決方案可全面覆蓋工業(yè)領(lǐng)域行為規(guī)范性檢測、缺陷檢測、定位、測量等場景,識(shí)別準(zhǔn)確度達(dá)到98.5%以上。

不過,大模型的快速發(fā)展和深度應(yīng)用,也給算力帶來了新需求和新挑戰(zhàn)。對此,鄭緯民從大模型生命周期的五個(gè)環(huán)節(jié)入手,即數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、模型訓(xùn)練、模型微調(diào)和模型推理,進(jìn)行了具體闡述。

在數(shù)據(jù)獲取階段,在獲取不同類型的原始數(shù)據(jù)并存儲(chǔ)的過程中,海量小文件存儲(chǔ)對文件系統(tǒng)提出新需求;在數(shù)據(jù)預(yù)處理階段,在隨機(jī)讀取訓(xùn)練樣本進(jìn)行預(yù)處理大數(shù)據(jù)過程中,頻繁、隨機(jī)小樣本讀取會(huì)對文件系統(tǒng)提出挑戰(zhàn);在模型訓(xùn)練階段,大量數(shù)據(jù)經(jīng)過模型需要海量算力;在模型微調(diào)階段,精調(diào)垂域模型需要可控算力;在模型推理階段,實(shí)時(shí)處理用戶請求需要穩(wěn)定可靠算力。

鄭緯民表示,算力是大模型產(chǎn)業(yè)的主要開銷。比如,在模型訓(xùn)練成本中,算力約占70%,數(shù)據(jù)占20%,人力僅占10%;而在推理階段,算力成本更是高達(dá)95%,人工智能產(chǎn)業(yè)算力成本居高不下。

設(shè)計(jì)大模型計(jì)算系統(tǒng)

需要考慮5個(gè)問題

目前,由于國外對人工智能的限制,自主創(chuàng)新AI系統(tǒng)和基于超級(jí)計(jì)算機(jī)的系統(tǒng)仍需優(yōu)化,我國要構(gòu)建支持大模型訓(xùn)練的計(jì)算系統(tǒng)仍面臨不小的難題。針對這一狀況,華為已經(jīng)基于昇騰打造出面向“端、邊、云”的全場景AI基礎(chǔ)設(shè)施方案,覆蓋深度學(xué)習(xí)領(lǐng)域推理和訓(xùn)練全流程,全方位支持大模型訓(xùn)練。在此基礎(chǔ)上,鄭緯民表示,要持續(xù)提升自主創(chuàng)新AI生態(tài)系統(tǒng),需要做好系統(tǒng)設(shè)計(jì)和相關(guān)軟件優(yōu)化。其中,設(shè)計(jì)大模型計(jì)算系統(tǒng)需要考慮以下5個(gè)問題:

第一,多種精度運(yùn)算性能的平衡。根據(jù)科學(xué)計(jì)算(AI For Science)和大模型訓(xùn)練的發(fā)展趨勢,變精度平衡設(shè)計(jì)可以更好地適應(yīng)科學(xué)計(jì)算和更廣泛的AI算法和應(yīng)用需求;不過,在設(shè)計(jì)中不僅要考慮半精度運(yùn)算性能,還要考慮雙精度運(yùn)算能力,雙精度與半精度運(yùn)算性能之比為1:50~1:100比較合適。

第二,網(wǎng)絡(luò)平衡設(shè)計(jì)。網(wǎng)絡(luò)設(shè)計(jì)不能針對CNN算法,還需考慮極大規(guī)模預(yù)訓(xùn)練模型對系統(tǒng)的需求;而大規(guī)模預(yù)訓(xùn)練模型需要高帶寬低延遲網(wǎng)絡(luò),并支持?jǐn)?shù)據(jù)并行、模型并行和專家并行模式。

第三,內(nèi)存平衡設(shè)計(jì)。一方面,訪問內(nèi)存的請求使網(wǎng)絡(luò)擁塞,降低吞吐量,反映到應(yīng)用程序上表現(xiàn)為訪存性能顯著下降,負(fù)載不均;另一方面,多個(gè)訪問內(nèi)存的請求可能訪問同一存控對應(yīng)的內(nèi)存空間,負(fù)載不均,存控需要順序處理訪存請求。

第四,IO子系統(tǒng)平衡設(shè)計(jì)。過去,在高性能機(jī)器應(yīng)用時(shí),為了避免訓(xùn)練不被中斷,通常采用增加檢查點(diǎn)的方法。比如,如果預(yù)期系統(tǒng)平均三小時(shí)出現(xiàn)一次錯(cuò)誤,那么就在2.5小時(shí)左右主動(dòng)停止訓(xùn)練,并保存訓(xùn)練結(jié)果。此外,還有一種辦法就是增加SSD,系統(tǒng)的本地NVMe SSD僅通過本地文件系統(tǒng)訪問限制了其應(yīng)用范圍,可將每臺(tái)服務(wù)器上的本地NVMe整合成應(yīng)用可見的全局分布式文件系統(tǒng)。

第五,如果采用自主創(chuàng)新AI計(jì)算系統(tǒng),還需要做好10件事:包括編程框架、并行加速、通信庫、算子庫、AI 編譯器、編程語言;以及其它支撐軟件,如調(diào)度器、內(nèi)存分配、容錯(cuò)系統(tǒng)、存儲(chǔ)系統(tǒng)等。

自主創(chuàng)新軟件生態(tài)

需要做好的10件事

在大模型計(jì)算系統(tǒng)中,算力性能的發(fā)揮不僅取決于硬件,更依賴于配套的軟件生態(tài)。軟件生態(tài)包括操作系統(tǒng)、編程框架、庫、工具鏈等,它們共同構(gòu)成了AI算力的“軟實(shí)力”。以華為為例,通過推出異構(gòu)計(jì)算架構(gòu)CANN、全場景AI框架昇思MindSpore、昇騰應(yīng)用使能MindX和一站式開發(fā)平臺(tái)ModelArts等,華為不僅構(gòu)建起日趨完善的昇騰計(jì)算軟件體系,也在昇騰計(jì)算產(chǎn)業(yè)生態(tài)上取得了全面進(jìn)展。

在此基礎(chǔ)上,鄭緯民表示,要改善自主創(chuàng)新軟件生態(tài),需要做好以下10件事情。

第一是編程框架,應(yīng)降低編寫人工智能模型的復(fù)雜度,利用基本算子快速構(gòu)建人工智能模型,如PyTorch、昇思MindSpore、TensorFlow。其中,全場景AI框架昇思MindSpore全場景AI框架昇思MindSpore具備一次開發(fā)云邊端全場景部署、原生支持大模型訓(xùn)練、支持AI+科學(xué)計(jì)算等關(guān)鍵特性,可加速科研創(chuàng)新和產(chǎn)業(yè)應(yīng)用。

第二是并行加速,為多機(jī)多卡環(huán)境提供人工智能模型并行訓(xùn)練的能力,支持?jǐn)?shù)據(jù)并行、模型并行、流水線并行、張量并行等,如微軟的DeepSpeed、昇騰MindSpeed、英偉達(dá)Megatron-LM。其中,昇騰MindSpeed是專為昇騰設(shè)備設(shè)計(jì)的大模型加速庫,旨在突破大模型訓(xùn)練中的顯存資源瓶頸,并加速訓(xùn)練過程。

第三是通信庫,要提供跨機(jī)跨卡的通信能力,能夠支持人工智能模型訓(xùn)練所需各種通信模式,能根據(jù)底層網(wǎng)絡(luò)特點(diǎn)充分利用網(wǎng)絡(luò)通信帶寬,如英偉達(dá)的NCCL庫、昇騰HCCL庫、超算普遍支持的MPI通信庫。其中,昇騰HCCL庫作為基于昇騰計(jì)算的高性能集合通信庫,可提供單機(jī)多卡以及多機(jī)多卡間的集合通信能力,支持大模型的數(shù)據(jù)并行、模型并行、專家并行、pipeline并行、序列并行等多種加速方案。

第四是算子庫,要提供人工智能模型所需基本操作的高性能實(shí)現(xiàn),能夠盡可能覆蓋典型人工智能模型所需的操作,能充分發(fā)揮底層硬件的性能,如英偉達(dá)cuDNN、cnBLAS、昇騰ACLNN。

第五是AI編譯器,可在異構(gòu)處理器上對人工智能程序生成高效的目標(biāo)代碼;對算子庫不能提供的操作,通過AI編譯器自動(dòng)生成高效目標(biāo)代碼,如XLA、TVM、畢昇編譯器。其中,畢昇編譯器作為華為提供的一款高性能、高可信及易擴(kuò)展的編譯器工具鏈,可提供深度優(yōu)化的編譯技術(shù)、增強(qiáng)多核并行化、自動(dòng)矢量化等,大幅提升指令和數(shù)據(jù)呑吐量。

第六是編程語言,要提供異構(gòu)處理器上編寫并行程序的支持;要覆蓋底層硬件功能,發(fā)揮硬件性能;能夠編寫人工智能模型的基本算子(Operator),如英偉達(dá)的CUDA、華為的CANN Ascend C、Intel的oneAPI。其中,異構(gòu)計(jì)算架構(gòu)CANN可向上支持多種AI框架,向下服務(wù)AI處理器與編程;并針對多樣化應(yīng)用場景,提供多層次編程接口,支持用戶快速構(gòu)建基于昇騰平臺(tái)的AI應(yīng)用和業(yè)務(wù)。而Ascend C算子開發(fā)語言是CANN針對算子開發(fā)場景推出的編程語言,原生支持C/C++編程規(guī)范,可極大提高算子開發(fā)效率,助力AI開發(fā)者低成本完成算子開發(fā)和模型調(diào)優(yōu)部署。

第七是調(diào)度器,需提供在大規(guī)模系統(tǒng)上高效調(diào)度人工智能任務(wù)的能力;同時(shí)設(shè)計(jì)高效調(diào)度算法,提高集群資源利用率,如Kubernetes(K8S)、華為ModelArts等。其中,ModelArts是華為云提供的一站式AI開發(fā)平臺(tái),可提供海量數(shù)據(jù)預(yù)處理及半自動(dòng)化標(biāo)注、大規(guī)模分布式訓(xùn)練、自動(dòng)化模型生成及端-邊-云模型按需部署能力,幫助用戶快速創(chuàng)建和部署模型,管理全周期AI工作流。

第八是內(nèi)存分配系統(tǒng),可針對人工智能應(yīng)用特點(diǎn)提供高效的內(nèi)存分配策略。

第九是容錯(cuò)系統(tǒng),用來提供在硬件發(fā)生故障后快速恢復(fù)模型訓(xùn)練的能力。

第十是存儲(chǔ)系統(tǒng),需支持訓(xùn)練過程中高效的數(shù)據(jù)讀寫(檢查點(diǎn)、訓(xùn)練數(shù)據(jù)等)。

不過,自主創(chuàng)新軟件生態(tài)的建設(shè)是一個(gè)長期而復(fù)雜的過程,需要企業(yè)、政府和開發(fā)者社區(qū)的共同努力。如今,在生態(tài)建設(shè)上,華為已經(jīng)取得了長足進(jìn)展,不僅包括整機(jī)硬件伙伴、IHV硬件伙伴、應(yīng)用軟件伙伴、一體機(jī)解決方案伙伴以及生態(tài)運(yùn)營伙伴等,還包括服務(wù)類伙伴、人才聯(lián)盟伙伴、投融資運(yùn)營伙伴等,以及眾多高校和開發(fā)者。由此,華為也將攜手生態(tài)伙伴共同推動(dòng)大模型計(jì)算系統(tǒng)的建設(shè),進(jìn)而加速AI技術(shù)的創(chuàng)新和應(yīng)用未來,正如鄭緯民所說:“大模型計(jì)算系統(tǒng)平衡設(shè)計(jì)的5點(diǎn)考慮做得好,別人要用1萬塊卡,我們用9000卡就可以了。把10件事情做好,大模型計(jì)算系統(tǒng)就能做得很好!

“數(shù)智世界 一觸即達(dá)” 選擇華為,讓您的企業(yè)輕松數(shù)智化。

給作者點(diǎn)贊
0 VS 0
寫得不太好

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實(shí)相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2024 c114 All Rights Reserved | 滬ICP備12002291號(hào)

      C114 通信網(wǎng) 版權(quán)所有 舉報(bào)電話:021-54451141