2024/12/25 14:43

“深思熟慮”的 AI：OpenAI 提出全新安全對齊方法

IT之家故淵

OpenAI 的研究人員提出了一種名為“深思熟慮的對齊”（Deliberative Alignment）的新方法，以提升 AI 模型安全性，并已在 o 系列模型中取得顯著成效。

項目背景

如何確保大語言模型（LLMs）遵守明確的道德和安全準(zhǔn)則，目前存在諸多挑戰(zhàn)。監(jiān)督微調(diào)（SFT）和來自人類反饋的強化學(xué)習(xí)（RLHF）等現(xiàn)有對齊技術(shù)都存在局限性，有被操縱的風(fēng)險，可能會產(chǎn)生有害內(nèi)容、拒絕合法請求或難以處理不熟悉的場景等問題。

這些問題通常源于當(dāng)前安全培訓(xùn)的弊端，也就是模型從數(shù)據(jù)間接推斷標(biāo)準(zhǔn)，而非明確地學(xué)習(xí)，通常缺乏考慮復(fù)雜提示的能力，從而限制了它們在微妙或?qū)剐郧闆r下的有效性。

深思熟慮的對齊（Deliberative Alignment）

注：該方法直接教授模型安全規(guī)范，并訓(xùn)練它們在生成響應(yīng)之前推理這些準(zhǔn)則進，將安全原則融入推理過程中。

整個過程分為兩個階段，第一階段，監(jiān)督微調(diào)（SFT）訓(xùn)練模型參考并推理安全規(guī)范，使用從基礎(chǔ)模型生成的數(shù)據(jù)集。第二階段，強化學(xué)習(xí)（RL）使用獎勵模型，根據(jù)安全基準(zhǔn)評估性能，進一步完善模型的推理。

不同于依賴人工標(biāo)注數(shù)據(jù)的方法，“深思熟慮的對齊”使用模型生成的數(shù)據(jù)和思維鏈（CoT）推理，降低了安全訓(xùn)練的資源需求。

OpenAI 的 o1 模型已部署該技術(shù)，在抵抗越獄提示方面表現(xiàn)出色，在 StrongREJECT 基準(zhǔn)測試中得分為 0.88，顯著高于 GPT-4o 的 0.37；此外該技術(shù)還可以減少誤拒，在 XSTest 數(shù)據(jù)集的良性提示中，o1 模型的準(zhǔn)確率高達(dá) 93%。

“深思熟慮的對齊”通過訓(xùn)練模型明確推理安全策略，它為復(fù)雜的倫理挑戰(zhàn)提供了可擴展且可解釋的解決方案。

給作者點贊

0 VS 0

寫得不太好

免責(zé)聲明：本文僅代表作者個人觀點，與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實，對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關(guān)內(nèi)容。

相關(guān)鏈接

測試

OpenAI ChatGPT AI服務(wù)再次“跳閘”，初步推測為微軟數(shù)據(jù)中心電力故障導(dǎo)致
IT之家故淵08:21
曝OpenAI考慮開發(fā)人形機器人或依賴于中國制造
CNMO 石張鈺12-25
消息稱OpenAI考慮開發(fā)人形機器人，此前已投資多家機器人初創(chuàng)公司
IT之家遠(yuǎn)洋12-25
o3模型點亮OpenAI發(fā)布會：突破、局限與趨勢
天翼智庫 12-25