埃隆·馬斯(Elon Musk)曾表示,他的人工智能創(chuàng)業(yè)公司xAI將在美國田納西州孟菲斯市建造世界上最大的超級計算機(jī)。《商業(yè)內(nèi)幕》看到的文件顯示,該公司正為此投入數(shù)億美元,但面臨較大的電力缺口。
自2024年6月該項(xiàng)目首次宣布以來,xAI已經(jīng)向孟菲斯規(guī)劃與發(fā)展機(jī)構(gòu)提交了14份建筑許可證申請,總預(yù)估成本為4.059億美元(約合29億元人民幣)。
文件還顯示,xAI無法從孟菲斯當(dāng)?shù)仉娋W(wǎng)獲得足夠的電力來運(yùn)行100萬個GPU,除非它在項(xiàng)目所在地自行建設(shè)發(fā)電設(shè)施。馬斯克此前稱,要將孟菲斯超級計算機(jī)Colossus擴(kuò)大十倍,以容納100萬個GPU。
這些許可證申請涵蓋了電氣、機(jī)械、管道以及其他各類工程,其中包括一項(xiàng)價值3000萬美元的計算機(jī)設(shè)備安裝工程以及一項(xiàng)造價390萬美元、用于抵御汽車碰撞的圍欄建造工程。
電力缺口大
截至目前,xAI已向孟菲斯照明、天然氣和水處理公司(MLGW)申請了300兆瓦的電網(wǎng)電力,并已獲得150兆瓦的供電許可。
xAI已申請在超級計算機(jī)項(xiàng)目現(xiàn)場安裝天然氣渦輪機(jī)來發(fā)電。該公司表示,能否全部使用300兆瓦的電網(wǎng)電力取決于該地區(qū)“重大基礎(chǔ)設(shè)施升級”和輸電網(wǎng)絡(luò)的改善。與此同時,xAI一直在使用卡特彼勒子公司Solar Turbines的燃?xì)獍l(fā)電機(jī)來補(bǔ)充電力供應(yīng),這些發(fā)電機(jī)的總發(fā)電能力為250兆瓦。
xAI在許可申請中稱,“如果沒有額外的現(xiàn)場發(fā)電,我們無法滿足客戶需求”。 田納西河谷管理局(TVA)負(fù)責(zé)為田納西州大部分地區(qū)及周邊六個州部分地區(qū)供電,它在今年2月表示,計劃在未來幾年投資160億美元,以滿足其轄區(qū)內(nèi)歷史性的負(fù)荷增長。這一增長主要受到xAI、其他數(shù)據(jù)中心以及該地區(qū)電池制造商擴(kuò)張的推動。
田納西河谷管理局發(fā)言人在聲明中表示,其董事會“需要審查并批準(zhǔn)任何超過100兆瓦的新負(fù)荷,以確保電力系統(tǒng)的可靠性得以維持”。
加州大學(xué)河濱分校電氣與計算機(jī)工程副教授任紹磊(Shaolei Ren)表示,憑借自主現(xiàn)場發(fā)電能力,xAI很可能可為20萬個英偉達(dá)H100 GPU提供電力,但進(jìn)一步擴(kuò)展算力將面臨挑戰(zhàn)。
“雖然仍可能擴(kuò)大算力,但這意味著需要采用激進(jìn)的超額預(yù)訂策略。”任紹磊表示。超額預(yù)訂是數(shù)據(jù)中心常用的一種做法。數(shù)據(jù)中心會向客戶提供比其實(shí)際可用電力更大的合同電力額度,原因是并不是所有客戶都會在同一時間使用他們?nèi)款A(yù)訂的電力。
根據(jù)任紹磊的計算,運(yùn)行100萬個GPU可能需要超過1千兆瓦的電力,是xAI目前在孟菲斯可獲得電力的四倍。