C114通信網(wǎng)  |  通信人家園

人工智能
2025/4/10 09:02

OpenAI 啟動先鋒計劃,旨在重塑 AI 模型評分體系

IT之家  遠洋

OpenAI 宣布啟動 OpenAI 先鋒計劃(OpenAI Pioneers Program),致力于改善當前 AI 模型的評分方式。該公司認為現(xiàn)有的 AI 基準測試存在缺陷,而該計劃將專注于創(chuàng)建能夠“設定優(yōu)秀標準”的評估體系。

隨著 AI 技術在各行業(yè)的應用加速普及,深入了解并提升其在現(xiàn)實世界中的影響力變得至關重要。OpenAI 在其博客中指出,創(chuàng)建特定領域的評估指標是更好地反映實際應用場景、幫助團隊在實際且高風險環(huán)境中評估模型性能的有效途徑之一。

近期,眾包基準測試平臺 LM Arena 與 Meta 的 Maverick 模型引發(fā)的爭議凸顯了一個問題:如今,人們很難明確區(qū)分不同 AI 模型之間的差異。許多廣泛使用的 AI 基準測試側重于衡量模型在一些晦澀任務上的表現(xiàn),例如解決博士級別的數(shù)學難題。還有一些基準測試容易被操縱,或者與大多數(shù)人的偏好不一致。

據(jù)IT之家了解,通過先鋒計劃,OpenAI 希望為法律、金融、保險、醫(yī)療保健和會計等特定領域創(chuàng)建基準測試。該實驗室表示,在未來幾個月內(nèi),將與“多家公司”合作設計定制化的基準測試,并最終將這些基準測試公開,同時提供“行業(yè)特定”的評估。

OpenAI 在博客中提到,先鋒計劃的第一批參與者將專注于初創(chuàng)公司,這些公司將幫助奠定該計劃的基礎。他們將從眾多初創(chuàng)公司中挑選出少數(shù)幾家,這些公司都在從事高價值、應用廣泛的用例,AI 在其中可以產(chǎn)生實際影響。

參與該計劃的公司還將有機會與 OpenAI 團隊合作,通過強化微調(diào)技術改進模型。這種技術可以針對一組特定任務優(yōu)化模型,從而提升其在特定領域的表現(xiàn)。

然而,一個關鍵問題是 AI 社區(qū)是否會接受由 OpenAI 資助創(chuàng)建的基準測試。此前,OpenAI 曾在財務上支持過基準測試工作,并設計了自己的評估方法。但與客戶合作發(fā)布 AI 測試可能會被視為在道德上存在爭議。

給作者點贊
0 VS 0
寫得不太好

免責聲明:本文僅代表作者個人觀點,與C114通信網(wǎng)無關。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機版

      Copyright©1999-2025 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網(wǎng) 版權所有 舉報電話:021-54451141