據(jù)報(bào)道,谷歌發(fā)布了突破性混合推理模型Gemini 2.5 Flash,該模型創(chuàng)新性地引入可調(diào)節(jié)"思考預(yù)算"功能,在保持高性能的同時(shí)顯著降低使用成本。
在閉源思考模式下,其成本僅為0.6美元/百萬(wàn)tokens,相比全功能思考模式(3.5美元/百萬(wàn)tokens)大幅降低600%。值得注意的是,即便在基礎(chǔ)模式下運(yùn)行,其性能依然超越前代Gemini 2.0 Flash。
性能表現(xiàn)方面,Gemini 2.5 Flash在大模型排行榜中以1392分ELO評(píng)分高居第二,僅次于GPT-4.5-preview,與Grok-3表現(xiàn)相當(dāng)。
具體任務(wù)測(cè)試中,該模型展現(xiàn)出顯著優(yōu)勢(shì):在GPQA知識(shí)問(wèn)答中,24K思考預(yù)算可帶來(lái)6%的性能提升;在LiveCodeBench代碼基準(zhǔn)測(cè)試中,16K思考預(yù)算時(shí)達(dá)到最佳表現(xiàn)。
對(duì)比測(cè)試結(jié)果顯示,Gemini 2.5 Flash在多模態(tài)推理和數(shù)學(xué)任務(wù)上明顯優(yōu)于Claude 3.7 Sonnet,綜合性能與OpenAI最新o4-mini模型不相上下。在模擬人類綜合能力的"人類最后一次考試"基準(zhǔn)測(cè)試中,該模型以12.1%的高分位列第二,再次印證其強(qiáng)大實(shí)力。
此次發(fā)布的Gemini 2.5 Flash通過(guò)創(chuàng)新的"思考預(yù)算"機(jī)制,在性能與成本之間實(shí)現(xiàn)了突破性平衡,為AI應(yīng)用開(kāi)發(fā)提供了更靈活、更經(jīng)濟(jì)的選擇。