Cloud&AI
`
2025/7/30 08:58
阿里通義千問更新 Qwen3-30B 非思考模型:AI 性能媲美 GPT-4o,推理、代碼、數學等能力全面躍升
0
0

阿里通義千問今天(7 月 30 日)在 X 平臺發(fā)布推文,宣布推出 Qwen3-30B-A3B 非思考模式的更新版本,命名為 Qwen3-30B-A3B-Instruct-2507。

新模型主要提升指令跟隨、邏輯推理、文本理解、數學、科學、編程和工具使用等通用能力,官方表示在激活 3B 參數的情況下,性能接近 GPT-4o 和 Qwen3-235B-A22B Non-Thinking。

援引官方博文內容,Qwen3-30B-A3B-Instruct-2507 模型的參數總量為 305 億,但激活參數為 33 億,非嵌入層數量為 299 億,網絡層數為 48 層,專家數為 128 個,激活專家數為 8 個,上下文長度原生支持 262144 個 tokens。

該模型僅支持非思考模式,在輸出中不會生成 塊。同時,不再需要指定 enable_thinking=False。官方表示新模型大幅增加了多種語言的長尾知識覆蓋,且在主觀和開放式任務中與用戶偏好更加一致,能夠提供更有幫助的回答和更高質量的文本生成。

 


Deepseek-V3-0324 GPT-4o-0327 Gemini-2.5-Flash 非思考 Qwen3-235B-A22B 非思考 Qwen3-30B-A3B 非思考 Qwen3-30B-A3B-Instruct-2507
知識





MMLU-Pro 81.2 79.8 81.1 75.2 69.1 78.4
MMLU-Redux 90.4 91.3 90.6 89.2 84.1 89.3
GPQA 68.4 66.9 78.3 62.9 54.8 70.4
SuperGPQA 57.3 51.0 54.6 48.2 42.2 53.4
推理





AIME25 46.6 26.7 61.6 24.7 21.6 61.3
HMMT25 27.5 7.9 45.8 10.0 12.0 43.0
ZebraLogic 83.4 52.6 57.9 37.7 33.2 90.0
LiveBench 20241125 66.9 63.7 69.1 62.5 59.4 69.0
編程





LiveCodeBench v6 (25.02-25.05) 45.2 35.8 40.1 32.9 29.0 43.2
MultiPL-E 82.2 82.7 77.7 79.3 74.6 83.8
Aider-Polyglot 55.1 45.3 44.0 59.6 24.4 35.6
對齊





IFEval 82.3 83.9 84.3 83.2 83.7 84.7
Arena-Hard v2* 45.6 61.9 58.3 52.0 24.8 69.0
創(chuàng)意寫作 v3 81.6 84.9 84.6 80.4 68.1 86.0
WritingBench 74.5 75.5 80.5 77.0 72.2 85.5
代理





BFCL-v3 64.7 66.5 66.1 68.0 58.6 65.1
TAU1-Retail 49.6 60.3# 65.2 65.2 38.3 59.1
TAU1-Airline 32.0 42.8# 48.0 32.0 18.0 40.0
TAU2-Retail 71.1 66.7# 64.3 64.9 31.6 57.0
TAU2-Airline 36.0 42.0# 42.5 36.0 18.0 38.0
TAU2-Telecom 34.0 29.8# 16.9 24.6 18.4 12.3
多語言





MultiIF 66.5 70.4 69.4 70.2 70.8 67.9
MMLU-ProX 75.8 76.2 78.3 73.2 65.1 72.0
INCLUDE 80.1 82.1 83.8 75.6 67.8 71.9
PolyMATH 32.2 25.5 41.9 27.0 23.3 43.1

 

免責聲明:本文僅代表作者個人觀點,與C114通信網無關。其原創(chuàng)性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。

給作者點贊
0 VS 0
寫得不太好

C114簡介     聯系我們     網站地圖

Copyright©1999-2025 c114 All Rights Reserved 滬ICP備12002291號-4

C114通信網版權所有 舉報電話:021-54451141 用戶注銷