12月3日,以“聯(lián)創(chuàng)智匯·數(shù)領(lǐng)未來”為主題的2024數(shù)字科技生態(tài)大會科技創(chuàng)新合作論壇在廣州舉辦。
論壇期間,作為基礎(chǔ)研究合作創(chuàng)新成果,中國電信攜手合作伙伴正式發(fā)布了面向大模型的“智算異構(gòu)四芯混訓(xùn)解決方案”。該成果由中國電信聯(lián)合壁仞科技、中興通訊、中科院計算所、上海人工智能實(shí)驗(yàn)室、北京郵電大學(xué)、中科加禾、天數(shù)智芯、沐曦協(xié)同,攻關(guān)異構(gòu)混訓(xùn)的關(guān)鍵核心技術(shù)問題,打造“互聯(lián)互通、高效協(xié)同”的生態(tài)格局,推動新型信息基礎(chǔ)設(shè)施協(xié)調(diào)發(fā)展。
本次成果發(fā)布是,中國電信面向智算時代模型規(guī)模急劇增長引發(fā)的算力荒問題做出的有力嘗試。中國電信以“四個面向”為根本,依托云網(wǎng)融合大科創(chuàng)裝置,創(chuàng)造性地打造統(tǒng)一訓(xùn)練框架、統(tǒng)一集合通信庫、統(tǒng)一RDMA網(wǎng)絡(luò)的一體化解決方案,有效解決了異構(gòu)芯片間“生態(tài)豎井”、“算力孤島”問題,實(shí)現(xiàn)異構(gòu)算力的互聯(lián)、互通、互調(diào),是“息壤”算力一體化調(diào)度平臺戰(zhàn)略發(fā)展的關(guān)鍵一環(huán)。
“智算異構(gòu)四芯混訓(xùn)解決方案”實(shí)現(xiàn)框架、通信庫、平臺、網(wǎng)絡(luò)的全棧異構(gòu),適配Llama等國際主流模型與中國電信自研星辰大模型,實(shí)現(xiàn)跨異構(gòu)芯片網(wǎng)絡(luò)性能提升30%,異構(gòu)通信效率大于98%,異構(gòu)訓(xùn)練效率達(dá)同構(gòu)訓(xùn)練的95%。成果實(shí)現(xiàn)三個重大行業(yè)突破,突破并行訓(xùn)練框架調(diào)度木桶效應(yīng)難題,采用算力感知的非均質(zhì)拆分實(shí)現(xiàn)不均衡算力高效利用;突破異構(gòu)通信難題,首次實(shí)現(xiàn)GDR(GPU-Direct RDMA)技術(shù)形成四芯直連高性能通信方案;突破異構(gòu)RDMA性能瓶頸,采用全自研擁塞控制算法實(shí)現(xiàn)多鏈路網(wǎng)絡(luò)流量均衡控制。創(chuàng)下異構(gòu)廠商數(shù)量“之最”,業(yè)界首次形成異構(gòu)四芯并行訓(xùn)練解決方案,為行業(yè)推動異構(gòu)算力混池訓(xùn)練,打造異構(gòu)算力“合力”,實(shí)現(xiàn)“超大算力”統(tǒng)一供給,形成典型案例,推動算力生態(tài)產(chǎn)業(yè)發(fā)展與繁榮。
未來,中國電信將繼續(xù)攜手產(chǎn)業(yè)合作伙伴,共同打造異構(gòu)算力生態(tài)聯(lián)盟,推動異構(gòu)混池訓(xùn)練解決方案的規(guī)模化應(yīng)用,開啟多元算力驅(qū)動的人工智能新時代,為新質(zhì)生產(chǎn)力發(fā)展提供關(guān)鍵驅(qū)動力。