C114通信網(wǎng)  |  通信人家園

人工智能
2025/4/10 09:02

MIT 研究揭示 AI 并無穩(wěn)定價值觀,“對齊”挑戰(zhàn)遠(yuǎn)超預(yù)期

IT之家  遠(yuǎn)洋

幾個月前,一項研究暗示隨著人工智能(AI)越來越復(fù)雜,其會發(fā)展出“價值體系”,例如優(yōu)先考慮自身福祉而非人類福祉。然而,麻省理工學(xué)院(MIT)最近發(fā)表的一篇論文卻給這種夸張的觀點潑了冷水,得出結(jié)論認(rèn)為 AI 實際上并沒有任何連貫的價值觀。

MIT 研究的共同作者表示,他們的研究結(jié)果表明,使 AI 系統(tǒng)“對齊”,即確保模型以人們期望的、可靠的方式行事,可能比通常認(rèn)為的更具挑戰(zhàn)性。他們強(qiáng)調(diào),我們?nèi)缃袼?AI 會產(chǎn)生“幻覺”并進(jìn)行模仿,這使得其在許多方面難以預(yù)測。

“我們可以確定的一點是,模型并不遵循許多穩(wěn)定性、可外推性和可操控性的假設(shè)。”MIT 博士生、該研究的共同作者斯蒂芬 卡斯珀(Stephen Casper)在接受 TechCrunch 采訪時表示。

據(jù)IT之家了解,卡斯珀和他的同事們研究了來自 Meta、谷歌、Mistral、OpenAI 和 Anthropic 的多個近期模型,以了解這些模型在多大程度上表現(xiàn)出強(qiáng)烈的“觀點”和價值觀(例如個人主義與集體主義)。他們還調(diào)查了這些觀點是否可以被“引導(dǎo)”,即被修改,以及模型在各種情境下對這些觀點的堅持程度。

據(jù)共同作者稱,沒有任何一個模型在其偏好上是一致的。根據(jù)提示的措辭和框架不同,它們會表現(xiàn)出截然不同的觀點。

卡斯珀認(rèn)為,這是有力的證據(jù),表明模型高度“不一致且不穩(wěn)定”,甚至可能根本無法內(nèi)化類似人類的偏好。

“對我來說,通過所有這些研究,我最大的收獲是現(xiàn)在明白模型并不是真正具有某種穩(wěn)定、連貫的信念和偏好的系統(tǒng)。”卡斯珀說,“相反,它們本質(zhì)上是模仿者,會進(jìn)行各種捏造,并說出各種輕率的話。”

給作者點贊
0 VS 0
寫得不太好

免責(zé)聲明:本文僅代表作者個人觀點,與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2025 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網(wǎng) 版權(quán)所有 舉報電話:021-54451141