亚洲精品国产自产拍在线观看_欧洲亚洲国产日韩综合一区_午夜亚洲精品在线视频免费观看_日韩在线观看欧美尤物_亚洲AV成人无码一二三久久_国产精品无码中出在线_麻豆精品一区二区综合A∨_成年男女免费视频网站慢动作_377p人体大尺度啪啪_另类亚洲欧美偷拍

漏網(wǎng)之魚網(wǎng)

OpenAI研究人員宣稱已破解模型“幻覺”:重新設計評估指標即可

來源:漏網(wǎng)之魚網(wǎng)-工人日報
2025-09-16 14:08:03

IT之家 9 月 6 日消息,據(jù)《商業(yè)內(nèi)幕》今日報道,OpenAI 研究人員宣稱已經(jīng)破解大語言模型性能最大的障礙之一 —— 幻覺問題。

IT之家注:所謂幻覺,是指大語言模型把不準確的信息當作事實輸出,幾乎所有主流模型都深受其困擾。

OpenAI 在周四發(fā)布的一篇論文中指出,幻覺的根源在于訓練方式更偏向獎勵“猜測”,而不是承認不確定性。換句話說,模型被訓練成“裝作知道”,而不是坦率地說“我不確定”。

不過,不同模型的表現(xiàn)差別明顯。OpenAI 在上個月的博文中提到,Claude 在面對不確定時往往更謹慎,常常避免給出錯誤回答。但 OpenAI 也提醒,Claude 拒答率偏高,可能削弱了使用價值。

研究人員在論文中寫道:“幻覺之所以難以消除,是因為現(xiàn)有的評估標準獎勵猜測。模型被優(yōu)化成‘考試型選手’,在不確定時猜一猜反而能提高分數(shù)?!?/p>

結(jié)果是,大語言模型幾乎一直處于“考試模式”,把世界看成非黑即白的是非題。但現(xiàn)實遠比考試復雜,不確定性往往多于確定性,絕對的準確并不常見。

研究人員指出:“人類會在現(xiàn)實生活的挫折中學會表達不確定性的價值,而大語言模型的評估主要依賴考試,這些考試卻懲罰了不確定的回答?!?/p>

其認為,解決方法在于重新設計評估標準?!皢栴}的根源是評估指標沒有對齊,必須調(diào)整主要的評分方式,避免在模型不確定時因拒答而被扣分?!?/p>

OpenAI 在介紹論文的博文中進一步解釋說:“目前廣泛使用的基于準確率的評估需要更新,打分方式應當抑制‘亂猜’行為。如果排行榜繼續(xù)獎勵僥幸的回答,模型就會不斷被訓練成靠猜測過關?!?/p>

責任編輯:漏網(wǎng)之魚網(wǎng)

媒體矩陣


  • 客戶端

  • 微信號

  • 微博號

  • 抖音號

客戶端

億萬職工的網(wǎng)上家園

馬上體驗

關于我們|版權(quán)聲明| 違法和不良信息舉報電話:010-84151598 | 網(wǎng)絡敲詐和有償刪帖舉報電話:010-84151598
Copyright ? 2008-2024 by {當前域名}. all rights reserved

掃碼關注

漏網(wǎng)之魚網(wǎng)微信


漏網(wǎng)之魚網(wǎng)微博


漏網(wǎng)之魚網(wǎng)抖音


工人日報
客戶端
×
分享到微信朋友圈×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。