C114通信網(wǎng)  |  通信人家園

資訊
2025/1/25 15:17

中國電信發(fā)布“復(fù)雜推理大模型”達(dá)競賽級數(shù)學(xué)表現(xiàn),評分超o1-preview

C114通信網(wǎng)  

近日,中國電信人工智能研究院(TeleAI)“復(fù)雜推理大模型”TeleAI-t1-preview正式發(fā)布。TeleAI-t1-preview使用了強(qiáng)化學(xué)習(xí)訓(xùn)練方法,通過引入探索、反思等思考范式,大幅提升模型在數(shù)學(xué)推導(dǎo)、邏輯推理等復(fù)雜問題的準(zhǔn)確性。在美國數(shù)學(xué)競賽AIME 2024、MATH500兩項(xiàng)權(quán)威數(shù)學(xué)基準(zhǔn)評測中,TeleAI-t1-preview分別以60和93.8分的成績,大幅超越OpenAI o1-preview、GPT-4o等標(biāo)桿模型。在研究生級別問答測試GPQA Diamond中,TeleAI-t1-preview得分超過 GPT-4o,并比肩Claude 3.5 Sonnet的性能水準(zhǔn)。

以2024年全國高中數(shù)學(xué)競賽試題為例,TeleAI-t1-preview面對三角函數(shù)的復(fù)雜等式關(guān)系,通過多次假設(shè)嘗試和思路糾偏,將原先的復(fù)雜等式抽絲剝繭,轉(zhuǎn)化成簡化的方程式,并經(jīng)過邏輯清晰的公式推導(dǎo)后,最終給出了正確答案。

TeleAI-t1-preview在回答問題時并非只是給出結(jié)論,而是把思考和分析過程也完整呈現(xiàn)。這樣可以幫助學(xué)生在做題過程中深入理解題目背后的邏輯和思考方法。

在一道概率論考研試題中,題目涉及“泊松分布”概念。TeleAI-t1-preview首先對這個概念進(jìn)行了介紹和解讀,然后給出解題思路和最終答案。

我國古代數(shù)學(xué)發(fā)展歷史悠久,流傳眾多經(jīng)典著作,但因其文言文表述,通常讓人望而卻步。不少大模型也會陷入沉思,無法作答。將《九章算術(shù)》中的一道題目給到 TeleAI-t1-preview后,它先針對文言文進(jìn)行了理解和簡化,轉(zhuǎn)換成現(xiàn)代漢語,隨之給出數(shù)學(xué)推導(dǎo)和答案。

在過程中,TeleAI-t1-preview還將形象思維與抽象思維結(jié)合,對所涉及的場景進(jìn)行具象化思考,輔助理解題目。同時,它還嚴(yán)謹(jǐn)?shù)剡M(jìn)行了古今單位換算,順利過關(guān)。

如果說數(shù)學(xué)競賽和考研題目還能符合人的正常思維方式,那么面對極度“燒腦”的策略推理問題時,以往的大模型往往會答非所問,被繞到“陷阱”中去。TeleAI-t1-preview能夠迅速理解游戲規(guī)則并完成破題。

TeleAI-t1-preview在解題過程中,列出了對游戲規(guī)則的理解、場景道具分析、優(yōu)劣勢分析,并給出解題策略、驗(yàn)證有效性。不僅如此,它還考慮到了可能出現(xiàn)的特殊情況。

針對 TeleAI-t1-preview訓(xùn)練的不同階段,TeleAI引入了創(chuàng)新的訓(xùn)練策略,從而保障思考推理過程準(zhǔn)確有效。

數(shù)據(jù)準(zhǔn)備階段:收集、構(gòu)建了一個以數(shù)學(xué)為核心、多學(xué)科為補(bǔ)充的高質(zhì)量推理數(shù)據(jù)集,確保模型能夠適應(yīng)不同類型的推理任務(wù)。

Judge Model(評估模型):訓(xùn)練了一個Judge Model專門用于分析和評估模型長思考鏈路的正確性,為模型的反思和錯誤修正提供指導(dǎo)。

SFT(監(jiān)督微調(diào))階段:用MCTS(蒙特卡洛樹搜索)構(gòu)造高質(zhì)量長推理數(shù)據(jù),結(jié)合每個步驟的準(zhǔn)確率和解決方案長度來選擇最優(yōu)的完整路徑,在保證推理答案準(zhǔn)確性的同時有效拉長思考鏈路以獲得更細(xì)粒度的推理過程。同時使用 Judge Model對推理過程中正確率較低的路徑進(jìn)行分析,引導(dǎo)模型對錯誤的推理步驟進(jìn)行反思和修正,從而構(gòu)造出高質(zhì)量的思維鏈數(shù)據(jù)進(jìn)行SFT訓(xùn)練。

強(qiáng)化學(xué)習(xí)階段:額外構(gòu)造了Rule-based Reward Model(基于規(guī)則的獎勵模型),以提供足夠準(zhǔn)確的獎勵信號,通過在線強(qiáng)化學(xué)習(xí)算法進(jìn)一步提升模型的邏輯推理能力。

直觀呈現(xiàn)的思維鏈將幫助人們更清晰地追蹤推理過程,方便驗(yàn)證推理正確性,從而使模型的可解釋性和透明度大大提升。

TeleAI將持續(xù)在推理模型領(lǐng)域研究探索,讓人工智能基于人類的“已知”,推導(dǎo)出期盼得到的“未知”。

給作者點(diǎn)贊
0 VS 0
寫得不太好

  免責(zé)聲明:本文僅代表作者個人觀點(diǎn),與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實(shí)相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2025 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網(wǎng) 版權(quán)所有 舉報電話:021-54451141