中国无码人妻丰满熟妇啪啪,国产又黄又潮娇喘视频在线观看,麻豆精品国产片在线观看

量子大觀

通信人家園

C114通信網

光通信觀察

DVBCN中廣5G

2025/7/30 08:58

阿里通義千問更新 Qwen3-30B 非思考模型：AI 性能媲美 GPT-4o，推理、代碼、數學等能力全面躍升

IT之家故淵

阿里通義千問今天（7 月 30 日）在 X 平臺發(fā)布推文，宣布推出 Qwen3-30B-A3B 非思考模式的更新版本，命名為 Qwen3-30B-A3B-Instruct-2507。

新模型主要提升指令跟隨、邏輯推理、文本理解、數學、科學、編程和工具使用等通用能力，官方表示在激活 3B 參數的情況下，性能接近 GPT-4o 和 Qwen3-235B-A22B Non-Thinking。

援引官方博文內容，Qwen3-30B-A3B-Instruct-2507 模型的參數總量為 305 億，但激活參數為 33 億，非嵌入層數量為 299 億，網絡層數為 48 層，專家數為 128 個，激活專家數為 8 個，上下文長度原生支持 262144 個 tokens。

該模型僅支持非思考模式，在輸出中不會生成塊。同時，不再需要指定 enable_thinking=False。官方表示新模型大幅增加了多種語言的長尾知識覆蓋，且在主觀和開放式任務中與用戶偏好更加一致，能夠提供更有幫助的回答和更高質量的文本生成。

	Deepseek-V3-0324	GPT-4o-0327	Gemini-2.5-Flash 非思考	Qwen3-235B-A22B 非思考	Qwen3-30B-A3B 非思考	Qwen3-30B-A3B-Instruct-2507
知識
MMLU-Pro	81.2	79.8	81.1	75.2	69.1	78.4
MMLU-Redux	90.4	91.3	90.6	89.2	84.1	89.3
GPQA	68.4	66.9	78.3	62.9	54.8	70.4
SuperGPQA	57.3	51.0	54.6	48.2	42.2	53.4
推理
AIME25	46.6	26.7	61.6	24.7	21.6	61.3
HMMT25	27.5	7.9	45.8	10.0	12.0	43.0
ZebraLogic	83.4	52.6	57.9	37.7	33.2	90.0
LiveBench 20241125	66.9	63.7	69.1	62.5	59.4	69.0
編程
LiveCodeBench v6 (25.02-25.05)	45.2	35.8	40.1	32.9	29.0	43.2
MultiPL-E	82.2	82.7	77.7	79.3	74.6	83.8
Aider-Polyglot	55.1	45.3	44.0	59.6	24.4	35.6
對齊
IFEval	82.3	83.9	84.3	83.2	83.7	84.7
Arena-Hard v2*	45.6	61.9	58.3	52.0	24.8	69.0
創(chuàng)意寫作 v3	81.6	84.9	84.6	80.4	68.1	86.0
WritingBench	74.5	75.5	80.5	77.0	72.2	85.5
代理
BFCL-v3	64.7	66.5	66.1	68.0	58.6	65.1
TAU1-Retail	49.6	60.3#	65.2	65.2	38.3	59.1
TAU1-Airline	32.0	42.8#	48.0	32.0	18.0	40.0
TAU2-Retail	71.1	66.7#	64.3	64.9	31.6	57.0
TAU2-Airline	36.0	42.0#	42.5	36.0	18.0	38.0
TAU2-Telecom	34.0	29.8#	16.9	24.6	18.4	12.3
多語言
MultiIF	66.5	70.4	69.4	70.2	70.8	67.9
MMLU-ProX	75.8	76.2	78.3	73.2	65.1	72.0
INCLUDE	80.1	82.1	83.8	75.6	67.8	71.9
PolyMATH	32.2	25.5	41.9	27.0	23.3	43.1

免責聲明：本文僅代表作者個人觀點，與C114通信網無關。其原創(chuàng)性以及文中陳述文字和內容未經本站證實，對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關內容。

給作者點贊

0 VS 0

寫得不太好

相關鏈接

網絡

特別策劃