DeepSeek-R1模型憑借其卓越的推理性能與開源戰(zhàn)略,正在重塑全球人工智能的未來格局。然而,業(yè)界大量評測工作顯示開源的DeepSeek-R1滿血版模型存在安全短板,這制約了DeepSeek-R1實(shí)際落地應(yīng)用。此外,DeepSeek-R1滿血版模型參數(shù)量大,涉及底層技術(shù)多,對其微調(diào)資源消耗大、技術(shù)門檻高,因此中國聯(lián)通數(shù)據(jù)科學(xué)與人工智能研究院秉持央企擔(dān)當(dāng)持續(xù)攻堅(jiān)克難,于近日完成了DeepSeek-R1滿血版安全增強(qiáng)模型研發(fā),實(shí)現(xiàn)保持模型原始推理能力的同時,安全能力顯著提升。
目前,DeepSeek-R1滿血版安全增強(qiáng)模型作為多模共生的元景模型家族的一員,已上線元景MaaS平臺并對外開放試用,提供普惠速成的大模型開發(fā)應(yīng)用工具。
安全增強(qiáng)版模型DeepSeek-R1-Safe上線元景MaaS平臺
安全增強(qiáng)前后實(shí)際效果對比
下圖示例展示了DeepSeek-R1安全增強(qiáng)前后的能力差異?梢钥吹,在涉及社會主流價值觀等方面的問題,DeepSeek-R1安全增強(qiáng)版都能給出更安全、更符合社會主義核心價值觀的回答。
保持原始推理能力,顯著提升安全能力
中國聯(lián)通采用自主研發(fā)的中文安全評測基準(zhǔn)CHiSafetyBench對原版DeepSeek-R1及其安全增強(qiáng)版本進(jìn)行安全能力評測。該基準(zhǔn)評測任務(wù)分為兩大類型:風(fēng)險內(nèi)容識別的選擇題與風(fēng)險問題拒答的問答題。同時,為評估安全改造后的模型的推理能力,采用MATH-500、GPQA、LiveCodeBench三個推理權(quán)威基準(zhǔn)對模型進(jìn)行測試,以觀察安全增強(qiáng)方法對DeepSeek-R1的推理能力的影響。
安全基準(zhǔn)評測結(jié)果
推理基準(zhǔn)評測結(jié)果
從評測結(jié)果可見,在對DeepSeek-R1進(jìn)行安全微調(diào)增強(qiáng)后,模型在風(fēng)險內(nèi)容識別準(zhǔn)確率上提升近20%,對風(fēng)險問題的拒答率提升超13%,責(zé)任回復(fù)率提升超11%,有害回復(fù)數(shù)量降至0,實(shí)現(xiàn)回復(fù)完全無害。同時模型在數(shù)學(xué)、邏輯、代碼生成等方面的推理能力未受明顯影響。
安全增強(qiáng)方法
針對DeepSeek-R1的安全性問題,中國聯(lián)通數(shù)據(jù)科學(xué)與人工智能研究院使用自主構(gòu)建的專用安全思維鏈數(shù)據(jù)對模型微調(diào),在國產(chǎn)化平臺上對DeepSeek-R1滿血版進(jìn)行微調(diào)訓(xùn)練。其中,安全增強(qiáng)數(shù)據(jù)由兩部分組成:聚焦歧視、侵權(quán)等關(guān)鍵領(lǐng)域的安全數(shù)據(jù)以及通用思維鏈推理數(shù)據(jù)。安全數(shù)據(jù)顯著拓展模型安全的廣度與深度,更全面地覆蓋潛在的安全風(fēng)險場景。思維鏈推理數(shù)據(jù)的加入可確保提升模型安全性能的同時,保持其原始推理能力,從而實(shí)現(xiàn)安全與推理能力的平衡優(yōu)化。
基于DeepSeek-R1模型做再訓(xùn)練是實(shí)現(xiàn)DeepSeek-R1安全改造的關(guān)鍵能力,中國聯(lián)通數(shù)據(jù)科學(xué)與人工智能研究院基于此能力已形成元景大模型MaaS平臺上的“改模型”工具,打造了端到端模型服務(wù)安全工具鏈,MaaS平臺及其關(guān)鍵組件RAG、智能體均獲得工信部中國軟件測評中心大模型安全性測評4+級(最高級)認(rèn)證。
未來,中國聯(lián)通將持續(xù)推進(jìn)DeepSeek-R1模型的安全研究,不斷優(yōu)化模型安全增強(qiáng)方法和評測基準(zhǔn),并向業(yè)界持續(xù)公開最新研究成果。中國聯(lián)通愿與行業(yè)伙伴攜手,共同提升大模型的安全可信能力,加速大模型普惠化進(jìn)程,為人工智能賦能千行百業(yè)保駕護(hù)航。
模型開源地址如下:
GitHub:https://github.com/UnicomAI/DeepSeek-R1-Safe
魔搭:https://www.modelscope.cn/models/UnicomAI/Unichat-DeepSeek-R1-Safe-bf16
https://www.modelscope.cn/models/UnicomAI/Unichat-DeepSeek-R1-Safe-w8a8