據(jù)《華爾街日?qǐng)?bào)》報(bào)道,中國(guó)人工智能(AI)創(chuàng)業(yè)公司發(fā)布的大模型表明,他們追趕美國(guó)領(lǐng)先AI模型的速度要比業(yè)內(nèi)許多人預(yù)期的更快。
今年11月,深度求索公司(DeepSeek)發(fā)布了其最新大語(yǔ)言模型的預(yù)覽版。該公司表示,該大模型在難度較高的數(shù)學(xué)和編程任務(wù)上超越了OpenAI在9月推出的預(yù)覽版推理模型o1。
最近幾周,其他中國(guó)公司也在其大模型性能方面也取得巨大進(jìn)步。阿里巴巴和騰訊投資的創(chuàng)業(yè)公司月之暗面表示,它開發(fā)了一個(gè)專門研究數(shù)學(xué)的模型,性能接近o1。阿里表示,公司的一個(gè)實(shí)驗(yàn)研究模型在數(shù)學(xué)性能上優(yōu)于o1預(yù)覽版。
這些公司尚未發(fā)表介紹其模型的論文,因此難以評(píng)估這些說(shuō)法,而目前還沒(méi)有一個(gè)公認(rèn)的統(tǒng)一測(cè)試方法來(lái)衡量AI模型的性能。不過(guò),一些美國(guó)專家表示,中國(guó)公司在AI大模型上取得的進(jìn)展令人印象深刻。
“中國(guó)正在以更快的速度趕上。”前OpenAI研究員、現(xiàn)AI企業(yè)家安德魯·卡爾(Andrew Carr)稱。他表示,深度求索的研究人員嘗試復(fù)制OpenAI的推理模型,“在幾個(gè)月內(nèi)就弄明白了。坦白說(shuō),我的許多同事對(duì)此感到驚訝”。
月之暗面創(chuàng)始人楊植麟表示,公司專注于強(qiáng)化學(xué)習(xí),也就是模仿人類的試錯(cuò)過(guò)程。這種方法或許能夠在提升模型性能的同時(shí)不需要那么多的算力。
月之暗面創(chuàng)始人楊植麟
自去年年底以來(lái),AI開發(fā)人員越來(lái)越多地使用一種名為“混合專家”(MoE,Mixture of Experts)的模型技術(shù)。該技術(shù)的核心是通過(guò)組合多個(gè)“專家”模型來(lái)協(xié)同完成任務(wù)。每個(gè)“專家”都是一個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò),它們各自負(fù)責(zé)處理不同的數(shù)據(jù)分布和任務(wù)類型。這些“專家”之間通過(guò)一種稱為“路由”的機(jī)制進(jìn)行交互,路由機(jī)制根據(jù)任務(wù)的特點(diǎn)和需求,將輸入數(shù)據(jù)分配給最適合的“專家”進(jìn)行處理。
騰訊表示,該公司在11月發(fā)布的MoE模型可媲美臉書母公司Meta在7月推出的Llama 3.1模型。審閱兩家公司所發(fā)表論文的研究人員表示,騰訊訓(xùn)練模型使用的算力可能只有Meta的十分之一左右。
美國(guó)AI創(chuàng)業(yè)公司Anthropic的聯(lián)合創(chuàng)始人杰克·克拉克(Jack Clark)在其博客上稱,中國(guó)公司的方法就是利用其能夠獲得的硬件,構(gòu)建極其優(yōu)秀的軟件和硬件訓(xùn)練堆棧,“中國(guó)制造將成為AI模型的一個(gè)標(biāo)簽,就像電動(dòng)汽車、無(wú)人機(jī)和其他技術(shù)一樣。”他表示。
中國(guó)AI創(chuàng)業(yè)公司正在自己所擅長(zhǎng)的領(lǐng)域深耕。例如,深度求索專注于開源模型,強(qiáng)調(diào)數(shù)學(xué)和編程性能。月之暗面的聊天機(jī)器人Kimi類似于ChatGPT,擅長(zhǎng)處理長(zhǎng)文本,受到中國(guó)消費(fèi)者的歡迎。
不過(guò),中國(guó)AI創(chuàng)業(yè)公司目前的估值還遠(yuǎn)低于OpenAI等美國(guó)公司,原因是投資者不確定這些公司能否將其技術(shù)進(jìn)展變現(xiàn)。而激烈的競(jìng)爭(zhēng)中,AI模型供應(yīng)商之間的價(jià)格戰(zhàn)也已經(jīng)出現(xiàn)。
知情人士稱,智譜AI已推遲了最早于2025年下半年上市的計(jì)劃,因?yàn)橥顿Y銀行家告知該公司不太可能獲得其期望的估值。智譜AI在本月最新一輪融資中的估值約為30億美元。今年11月底,智譜AI展示了其AI智能體,并在7月發(fā)布了類似OpenAI Sora的視頻生成模型。