資訊
`
2025/5/22 09:59
DeepSeek啟示:中興通訊Curr-ReFT重塑小尺寸VLM模型能力
0
0

隨著大模型技術(shù)的飛速發(fā)展,多模態(tài)智能(即同時(shí)理解圖像和文字的AI)也迎來(lái)了突破。然而,性能表現(xiàn)優(yōu)異的視覺-語(yǔ)言模型(Vision-Language Models,VLMs),尤其是推理能力強(qiáng)勁的VLMs,普遍存在參數(shù)膨脹的問(wèn)題,中興通訊受到DeepSeek R1-Zero的啟發(fā),推出了Curr-ReFT (Curriculum Reinforcement Fine-Tuning)訓(xùn)練范式,為輕量化的VLMs訓(xùn)練成為推理模型帶來(lái)了優(yōu)秀的訓(xùn)練思路。

從啟示到創(chuàng)新:Curr-ReFT的誕生

DeepSeek R1-Zero通過(guò)“組相對(duì)策略優(yōu)化(Group Relative Policy Optimization, GRPO)”顯著提升了大語(yǔ)言模型在復(fù)雜推理任務(wù)中的表現(xiàn),展示了模型基于相對(duì)響應(yīng)自我改進(jìn)的潛力。中興通訊深度借鑒其理念,結(jié)合多模態(tài)任務(wù)需求,提出了面向小模型后訓(xùn)練優(yōu)化的Curr-ReFT范式。

Curr-ReFT訓(xùn)練范式從復(fù)現(xiàn)R1-Zero在多模態(tài)數(shù)學(xué)數(shù)據(jù)上的訓(xùn)練起步,發(fā)現(xiàn)基礎(chǔ)能力提升有限。為解決這一瓶頸,中興通訊大膽創(chuàng)新,將原本依賴有監(jiān)督微調(diào)的訓(xùn)練流程,全面轉(zhuǎn)向以強(qiáng)化學(xué)習(xí)為核心的方式,實(shí)現(xiàn)在計(jì)算機(jī)視覺(CV)、多模態(tài)任務(wù)中的全流程重塑,有效突破“Superficial Pattern Matching(表面模式匹配)”問(wèn)題。

進(jìn)一步針對(duì)輕量VLM在能力提升上遭遇“Brick Wall(瓶頸墻)”的難題,Curr-ReFT引入“課程式強(qiáng)化學(xué)習(xí)”策略,通過(guò)由易到難、循序漸進(jìn)的三階段任務(wù)設(shè)計(jì),幫助模型逐步激發(fā)推理潛能。同時(shí),結(jié)合基于拒絕采樣的高質(zhì)量微調(diào)機(jī)制,實(shí)現(xiàn)對(duì)模型能力的持續(xù)優(yōu)化。

Curr-ReFT訓(xùn)練范式:重塑輕量化VLM訓(xùn)練的兩大核心技術(shù)

1. 課程強(qiáng)化學(xué)習(xí)——循序漸進(jìn),攻克難題Curr-ReFT借鑒了課堂教學(xué)中 “由易到難”的教學(xué)理念,將復(fù)雜任務(wù)拆分為三個(gè)階段,逐步提升模型的能力:

·第一階段:二元決策學(xué)習(xí),視覺啟蒙模型從最簡(jiǎn)單的任務(wù)入手,僅需回答“是”或“否”,快速建立基礎(chǔ)的視覺理解和簡(jiǎn)單推理能力。例如,AI模型能夠判斷“這是蘋果嗎?”

·第二階段:多項(xiàng)選擇學(xué)習(xí),認(rèn)知躍遷

隨后模型進(jìn)入選擇題階段,需要從多個(gè)選項(xiàng)中挑選正確答案,這一階段既考驗(yàn)決策能力,也幫助模型學(xué)會(huì)分辨細(xì)節(jié)。通過(guò)鍛煉觀察力和細(xì)節(jié)分析,AI模型升級(jí)到會(huì)分析“水果里哪個(gè)最大?“

·第三階段:開放式回答,思維覺醒    最終,模型將面對(duì)開放性問(wèn)題,需要根據(jù)圖像和文字信息自由作答。這時(shí),模型的綜合推理能力得到充分鍛煉,最終能描述"這幅畫講的是什么故事"。

這一層層遞進(jìn)的獎(jiǎng)勵(lì)機(jī)制確保了模型能夠穩(wěn)步提升,逐步適應(yīng)越來(lái)越復(fù)雜的任務(wù),而不會(huì)因?yàn)檫^(guò)早接觸難題而出現(xiàn)訓(xùn)練不穩(wěn)定的情況。

2. 拒絕樣本自我改進(jìn)——精挑細(xì)選,持續(xù)自我優(yōu)化為了在提升復(fù)雜推理能力的同時(shí)不損失模型的基本語(yǔ)言技能,中興通訊還采用了基于拒絕采樣的自我改進(jìn)機(jī)制。

·首先,我們利用先進(jìn)的GPT-4-O作為獎(jiǎng)勵(lì)模型,對(duì)模型生成的回答進(jìn)行全方位評(píng)分(包括準(zhǔn)確性、邏輯性、格式和流暢度),只有評(píng)分超過(guò)85分的回答才被挑選出來(lái)。

·接著,這些高質(zhì)量樣本組成一個(gè)精編數(shù)據(jù)集, 這些高分答案成為模型自我學(xué)習(xí)的參考,通過(guò)不斷修正錯(cuò)誤、優(yōu)化表現(xiàn),模型能力持續(xù)提升。

這種方法確保模型在不斷進(jìn)步的同時(shí),始終保持扎實(shí)的基礎(chǔ)能力,避免了因過(guò)擬合某些簡(jiǎn)單任務(wù)而影響整體表現(xiàn)。

Curr-ReFT實(shí)戰(zhàn)驗(yàn)證:小模型,大能量

為了全面評(píng)估Curr-ReFT后訓(xùn)練方法的效果,我們選取了Qwen2.5-VL-3B和Qwen2.5-VL-7B兩個(gè)基礎(chǔ)模型進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果顯示,Curr-ReFT在這兩個(gè)模型上的表現(xiàn)均顯著超越了原有基線,甚至在多個(gè)公開基準(zhǔn)測(cè)試中超越了更大規(guī)模的26B(InternVL-26B)和32B(Llava-Next-32B)模型。

·推理能力躍升:Curr-ReFT-3B模型在AI2D數(shù)學(xué)推理測(cè)試中準(zhǔn)確率達(dá)83%,相比原模型的74%提升顯著,甚至超越了多項(xiàng)任務(wù)中26B(InternVL-26B)和32B(Llava-Next-32B)的大模型表現(xiàn)。

·泛化能力增強(qiáng):在Qwen2.5-VL-7B基礎(chǔ)上,Curr-ReFT進(jìn)一步帶來(lái)性能躍遷。視覺檢測(cè)準(zhǔn)確率從89.8%提升至92.2%,分類任務(wù)準(zhǔn)確率從71.5%提升至73.1%。在關(guān)鍵基準(zhǔn)測(cè)試中也取得顯著突破(MMVet從29.95%提升至36.78%,MathVista從58.6%提升至92.2%)。

這一系列數(shù)據(jù)充分證明,Curr-ReFT不僅適配小模型、低算力場(chǎng)景,更具備跨模型、跨任務(wù)的通用適應(yīng)能力。

技術(shù)價(jià)值全面釋放:小模型,大場(chǎng)景

中興通訊自主研發(fā)的Curr-ReFT訓(xùn)練范式,憑借其核心優(yōu)勢(shì),為小型視覺語(yǔ)言模型在各類視覺文本任務(wù)中提供了堅(jiān)實(shí)保障,具體亮點(diǎn)包括:

·領(lǐng)先技術(shù):中興通訊自主研發(fā)的Curr-ReFT訓(xùn)練范式,使小型VLMs在各類視覺文本任務(wù)中展現(xiàn)出卓越的推理和泛化能力。

·高效易用:該技術(shù)采用通俗易懂的分階段訓(xùn)練和拒絕采樣策略,即使在資源有限的環(huán)境下,也能實(shí)現(xiàn)穩(wěn)定、快速的模型優(yōu)化。

·廣泛應(yīng)用場(chǎng)景:無(wú)論是智能終端、邊緣計(jì)算平臺(tái)還是智算中心,中興通訊的這項(xiàng)創(chuàng)新均能為客戶提供高效、低成本的VLMs解決方案。

攜手創(chuàng)新,智繪未來(lái)

中興通訊始終致力于前沿技術(shù)的持續(xù)探索與突破,將Curr-ReFT這一創(chuàng)新訓(xùn)練范式深度集成至AIS訓(xùn)推平臺(tái),不僅大幅簡(jiǎn)化了輕量化VLM的訓(xùn)練流程,更顯著提升了小模型的推理與泛化能力。未來(lái),中興通訊將攜手生態(tài)伙伴,共同拓展視覺語(yǔ)言智能的新邊界,賦能千行百業(yè)邁向更高效、更普惠的智能新時(shí)代。

開源下載鏈接:

代碼:https://github.com/ding523/Curr_REFT

數(shù)據(jù):https://huggingface.co/datasets/ZTE-AIM/Curr-ReFT-data

模型權(quán)重:https://huggingface.co/ZTE-AIM/3B-Curr-ReFT

模型權(quán)重:https://huggingface.co/ZTE-AIM/7B-Curr-ReFT

 

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

給作者點(diǎn)贊
0 VS 0
寫得不太好

C114簡(jiǎn)介     聯(lián)系我們     網(wǎng)站地圖

Copyright©1999-2025 c114 All Rights Reserved 滬ICP備12002291號(hào)-4

C114通信網(wǎng)版權(quán)所有 舉報(bào)電話:021-54451141 用戶注銷