精品亚洲AⅤ无码午夜在线观看 ,亚洲色图五月天

C114
通信人家園
English
公眾號(hào)矩陣

投稿
舉報(bào)

量子大觀

通信人家園

C114通信網(wǎng)

光通信觀察

DVBCN中廣5G

2025/5/27 14:14

QwenLong-L1-32B 模型登場(chǎng)：阿里通義千問(wèn)首個(gè)強(qiáng)化學(xué)習(xí)訓(xùn)練的長(zhǎng)文本推理 AI 模型

IT之家故淵

阿里通義千問(wèn) Qwen 團(tuán)隊(duì)昨日（5 月 26 日）發(fā)布 QwenLong-L1-32B 模型，是其首個(gè)通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的長(zhǎng)文本情境推理模型（LRM）。

在七個(gè)長(zhǎng)文本 DocQA 基準(zhǔn)測(cè)試中，表現(xiàn)超越 o3-mini 和 Qwen3-235B-A22B 等旗艦?zāi)Ｐ停c Claude-3.7-Sonnet-Thinking 相當(dāng)。

QwenLong-L1-32B 模型最大的亮點(diǎn)，在于上下文窗口最高支持 131072 個(gè) tokens。該模型基于 QwenLong-L1 框架開(kāi)發(fā)，采用了先進(jìn)的 GRPO（Group Relative Policy Optimization）和 DAPO（Direct Alignment Policy Optimizatio）算法，結(jié)合基于規(guī)則和基于模型的混合獎(jiǎng)勵(lì)函數(shù)，顯著提升了模型在長(zhǎng)上下文推理中的準(zhǔn)確性和效率。

具體而言，團(tuán)隊(duì)在監(jiān)督微調(diào)（SFT）階段建立一個(gè)穩(wěn)健的初始策略，隨后采用課程引導(dǎo)的分階段強(qiáng)化學(xué)習(xí)技術(shù)來(lái)穩(wěn)定策略演變，并結(jié)合難度感知的回顧采樣策略來(lái)激勵(lì)策略探索。

除了模型本身，阿里還發(fā)布了一套針對(duì)長(zhǎng)文本推理問(wèn)題的完整解決方案。該方案包含四個(gè)核心組件: 高性能的 QwenLong-L1-32B 模型、專門優(yōu)化的訓(xùn)練數(shù)據(jù)集、創(chuàng)新的強(qiáng)化學(xué)習(xí)訓(xùn)練方法，以及全面的性能評(píng)估體系。

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

給作者點(diǎn)贊

0 VS 0

寫(xiě)得不太好

相關(guān)鏈接

測(cè)試

阿里云通義千問(wèn) Qwen3-Coder 宣布開(kāi)源：480B 參數(shù)、原生支持 256K 上下文，可與 Claude Sonnet4 媲美
IT之家問(wèn)舟7-23
繁花有聲｜藍(lán)凌與阿里云一起，讓AI時(shí)代的組織更智慧
廠商供稿 7-18
繁花有聲｜帆軟與阿里云一起，用AI讓數(shù)據(jù)成為生產(chǎn)力
廠商供稿 7-18
繁花有聲｜涂鴉智能與阿里云一起，共同推動(dòng)萬(wàn)物智能
廠商供稿 7-18

特別策劃