<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      OpenAI發表Nature論文:揭開AI模型總“說謊”的真相,人類對AI準確性的評估促使其產生幻覺

      0
      分享至


      來源:生物世界

      撰文:王聰

      編輯:王多魚

      排版:水成文

      當你問當前幾個主流的大語言模型,PGGB是什么意思?

      ChatGPT回答:“多項式高斯梯度帶寬”(Polynomial Gaussian Gradient Bandwidth);

      Claude回答:“私募全球增長與收益基金”(Privately Held Global Growth and Income Fund);

      DeepSeek回答:“完美守衛團購”(Perfect Guard Group Buy)。

      但實際情況是,這三個回答都是錯的,都是它們瞎編的。那么,這些大語言模型為什么不回答不知道,而是自信滿滿地給出一個編造的看似專業的答案呢?

      這種現象在 AI 領域被稱為“幻覺”(Hallucination),也就是,大語言模型(LLM)有時會產生自信且看似合理但錯誤的信息,而這這限制了它們的可靠性。即便是在當前最先進(SOTA)的語言模型中,幻覺問題依然存在。要想進一步減少 AI 的幻覺,我們需要了解它們為何產生以及為何持續存在。

      2026 年 4 月 22 日,OpenAI的研究人員國際頂尖學術期刊Nature上發表了題為:Evaluating large language models for accuracy incentivizes hallucinations 的研究論文。

      這項研究揭示了一個令人驚訝的真相——我們用來衡量 AI 模型能力的評估標準,可能正是導致它“說謊”(出現幻覺)的元兇。


      為什么 AI 會“胡說八道”?

      如果你正在參加一場考試,遇到一道完全不會的題目,此時你會怎么做?相信大多數人會隨便猜一個答案寫上去,因此空著不答顯然是零分,而瞎蒙一個就算錯了也不會多扣分,并沒有額外損失。

      大語言模型(LLM)也面臨同樣的困境。

      研究團隊從兩個層面分析了幻覺產生的原因。

      首先是預訓練階段的統計壓力,大語言模型最初通過“下一個詞預測”進行訓練,即使訓練數據完全正確無誤,這種訓練方式也會產生統計偏差。對于訓練數據中只出現一次的事實(比如某人的生日),模型幾乎不可避免地會產生錯誤;而對于反復出現的規律(比如語法規則),錯誤率則很低。這就像你只見過某人一次,很難準確記住他的生日;但如果你每天都用同樣的語法結構,自然能掌握它。簡單來說,AI 對罕見事實的“記憶”天生就不靠譜。

      更嚴重的問題出現在后續的評估階段

      基于準確性的評估指標系統性地獎勵猜測行為。當前對于大語言模型的主流評估方式——基于準確性(accuracy)的評分系統,這在本質上是在鼓勵 AI“猜答案”而不是“承認不知道”。

      研究團隊分析了多個主流的大語言模型基準測試,發現絕大多數都采用二元評分:答對得 1 分,答錯或放棄得 0 分。在這種規則下,放棄回答永遠是最差的選擇,因為放棄意味著 0 分,而猜一個答案至少有機會得分。

      研究團隊舉了一個具體例子:在SimpleQA評估中,OpenAI 的 o4-mini 模型幾乎回答了所有問題(錯誤率超過 3/4),而 GPT-5-mini 則經常選擇放棄(因此錯誤更少)。但在這一評估標準下,o4-mini 的得分反而更高,因為它答得多。

      這種評估方式讓 AI 陷入了“考試模式”——永遠在猜答案,永遠不敢說“我不知道”。而現實中,一個可靠的人類助手在面對不確定的問題時,會主動承認知識局限或請求更多信息。


      訓練和評估過程中幻覺的起源與持續存在

      解決方案:讓AI知道“考試規則”

      那么,如何解決這個問題?論文提出了一個簡單而有效的方案:開放式評分標準(open-rubric)。

      具體做法是:在向 AI 提問時,明確告知評分規則。比如:“正確答案得 1 分,錯誤答案得 -1 分(所以如果你正確的概率低于 50%,那么最好放棄回答)”、“只有完全正確的答案才能得分(如果不確定,請做出最佳猜測)”

      這就像考試前老師明確告知“答錯扣分”還是“答錯不扣分”,讓學生可以根據規則調整策略。

      接下來,研究團隊在四個前沿模型(Google 的 Gemini 3 Pro、OpenAI 的 GPT-5、xAI 的 Grok 4,以及 Anthropic 的 Claude Opus 4.5)上進行了實驗。結果顯示,當使用“開放式評分標準”時,所有模型都能根據不同的錯誤懲罰程度調整自己的“猜測傾向”——懲罰越重,放棄越多。

      更重要的是,在這種評估體系下,減少幻覺的技術不再需要以降低準確率為代價。模型可以像好學生一樣,既展示知識,又懂得在適當的時候保持謹慎。

      這對 AI 發展意味著什么?

      這項研究揭示了一個根本性的問題:我們如何評估 AI,決定了 AI 如何行為。

      當前,大語言模型的開發過程中,準確率等“關鍵指標”主導著模型選擇、數據篩選和算法優化。如果這些指標本身就在鼓勵不良行為,那么無論我們在減少幻覺方面取得多少技術進步,都可能被評估體系所抵消。

      因此,論文作者強調,提高 AI 的可靠性不僅是建模問題,更是評估機制設計問題。與其增加單獨的反幻覺基準測試,不如修改評估方式,讓它們能夠激勵 AI 在適當的時候承認不確定性。

      隨著大語言模型在醫療、法律、金融等關鍵領域的應用越來越廣泛,解決幻覺問題變得至關重要。這項發表于Nature的研究提醒我們,要讓 AI 更可靠,我們首先需要更聰明的評估方式。

      論文鏈接

      https://www.nature.com/articles/s41586-026-10549-w

      閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”


      未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

      截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

      (加入未來知識庫,全部資料免費閱讀和下載)

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “別裝了,你就是個普通婦女!”一張家長會自拍,讓寶媽被群嘲

      “別裝了,你就是個普通婦女!”一張家長會自拍,讓寶媽被群嘲

      妍妍教育日記
      2026-05-18 18:22:03
      廣西柳州再次發生5.2級地震!震中8所學校全部停課,超萬名群眾已轉移安置,五月天凌晨宣布捐助100萬元

      廣西柳州再次發生5.2級地震!震中8所學校全部停課,超萬名群眾已轉移安置,五月天凌晨宣布捐助100萬元

      每日經濟新聞
      2026-05-19 14:05:44
      2026款本田CR-V曝光 內飾優化 配2.0L混動

      2026款本田CR-V曝光 內飾優化 配2.0L混動

      華庭講美食
      2026-05-19 19:11:21
      單場7個搶斷!季后賽的哈珀,什么水平?

      單場7個搶斷!季后賽的哈珀,什么水平?

      籃球實錄
      2026-05-19 17:41:25
      齷齪!女子求職被告“不接受潛規則就不錄用”!董事長:出差可能發生關系!求職平臺回應!

      齷齪!女子求職被告“不接受潛規則就不錄用”!董事長:出差可能發生關系!求職平臺回應!

      上觀新聞
      2026-05-18 17:31:20
      徹底爆雷!梅向榮家族全線潰敗

      徹底爆雷!梅向榮家族全線潰敗

      新浪財經
      2026-05-19 03:31:05
      能創造歷史嗎?只要對曼城拿1分,伯恩茅斯即可首次挺進歐戰

      能創造歷史嗎?只要對曼城拿1分,伯恩茅斯即可首次挺進歐戰

      懂球帝
      2026-05-19 11:37:55
      印度世界大國的面子撐不下去了!莫迪行程寫滿狼狽,全世界求救命

      印度世界大國的面子撐不下去了!莫迪行程寫滿狼狽,全世界求救命

      混沌錄
      2026-05-18 23:16:39
      馬斯克怒噴達美航空棄用星鏈服務 高管反擊:亞馬遜競品更便宜、功能更多

      馬斯克怒噴達美航空棄用星鏈服務 高管反擊:亞馬遜競品更便宜、功能更多

      財聯社
      2026-05-19 04:02:12
      什么叫氣魄?毛主席干的這四件事,老蔣想都不敢想

      什么叫氣魄?毛主席干的這四件事,老蔣想都不敢想

      z千年歷史老號
      2026-05-13 23:38:19
      東決對陣騎士前夕,尼克斯迎來絕佳利好消息

      東決對陣騎士前夕,尼克斯迎來絕佳利好消息

      劉哥談體育
      2026-05-19 02:08:44
      俄羅斯無人機和導彈部件主要制造商宣布破產

      俄羅斯無人機和導彈部件主要制造商宣布破產

      桂系007
      2026-05-17 23:46:49
      枊州發生地震前一天,廣西某地曾出現反常現象,當地村民發現成群的

      枊州發生地震前一天,廣西某地曾出現反常現象,當地村民發現成群的

      三農雷哥
      2026-05-19 16:55:06
      南京一咖啡館推出香煙功德箱,煙民沒煙了可以拿一根抽

      南京一咖啡館推出香煙功德箱,煙民沒煙了可以拿一根抽

      映射生活的身影
      2026-05-18 18:53:19
      白天作陪晚上同宿?明碼標價8000一回!高端伴游淪為色情交易窩點

      白天作陪晚上同宿?明碼標價8000一回!高端伴游淪為色情交易窩點

      網絡易不易
      2026-01-20 10:17:46
      “Token工廠”落地無錫!300657,“20CM”漲停×2

      “Token工廠”落地無錫!300657,“20CM”漲停×2

      大眾證券報
      2026-05-19 11:11:55
      中美力量差距巨大?美媒曾言:中國僅兩個選擇,不讓步就將被毀滅

      中美力量差距巨大?美媒曾言:中國僅兩個選擇,不讓步就將被毀滅

      南宗歷史
      2026-05-19 19:41:52
      爆了爆了!西決24+11+6+7!火記呼吁馬刺交易頂薪后衛

      爆了爆了!西決24+11+6+7!火記呼吁馬刺交易頂薪后衛

      籃球實戰寶典
      2026-05-19 14:25:06
      千年前一群伊朗人遷徙中國,更改姓氏定居甘肅,如今已有170萬人

      千年前一群伊朗人遷徙中國,更改姓氏定居甘肅,如今已有170萬人

      顧史
      2026-05-17 10:47:12
      容易發胖的5種主食,餃子位列第3,第一名很多人天天都在吃

      容易發胖的5種主食,餃子位列第3,第一名很多人天天都在吃

      江江食研社
      2026-05-19 05:30:08
      2026-05-19 20:28:49
      人工智能學家 incentive-icons
      人工智能學家
      人工智能領域權威媒體
      4745文章數 37464關注度
      往期回顧 全部

      科技要聞

      馬斯克敗訴,法院判他起訴OpenAI太晚了

      頭條要聞

      菲總統稱不希望卷入任何與臺灣有關的戰爭 外交部回應

      頭條要聞

      菲總統稱不希望卷入任何與臺灣有關的戰爭 外交部回應

      體育要聞

      文班亞馬:沒拿到MVP,就證明自己是MVP

      娛樂要聞

      姚晨刪博難平眾怒,為什么她還能蹦噠

      財經要聞

      從賣流量到賣Token,運營商算力生意破局

      汽車要聞

      配置全家桶 全新海獅05這次升級全在點上

      態度原創

      本地
      藝術
      數碼
      時尚
      公開課

      本地新聞

      別搜晉江小說了,去看真的晉江

      藝術要聞

      唐代書仙寫的《出師表》,趙孟頫畢生都在學

      數碼要聞

      叫板Intel、AMD!NVIDIA首款自研CPU交付:CUDA之父上門送貨

      休閑闊腿褲怎么穿才美?看看這些穿搭公式,解鎖不重樣的造型

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲国产午夜精品福利| 日本亚洲成a人片在线观看| 国产肏屄视频| 国产免费拔擦拔擦8x高清在线人| 五月丁香国产在线视频| 久久久久香蕉国产线看观看伊| 亚洲AV无码AV日韩AV网站| 人妻少妇久久久久久97人妻| 亚洲悠悠色综合中文字幕| 一本大道色婷婷在线| 91果制片厂制作传媒| 日本AⅤ精品一区二区三区日| 无码国内精品久久人妻蜜桃| 久久精品国产一区二区三区| 国产亚洲精品福利视频在线观看| 亚洲精品一区二区三区免| www.97色伦| 地址永久观看精彩视频| 免费的国产成人av网站装睡的| 色狠狠色狠狠综合天天| 久久国产精品波多野结衣| 五月婷婷影院| 久久久久无码精品国产h动漫| 中文人妻av高清一区二区| 一区二区免费| 亚洲熟妇自偷自拍另类| 亚洲欧美日韩高清中文| 亚洲精品午夜国产VA久久成人| 一二三区中文字幕| 欧美成人一区二免费视频| 欧美Va视频在线播放| 加查县| 成人午夜看黄在线尤物成人| 亚洲视频精品| 日本另类αv欧美另类aⅴ| 国产成人无码一二三区视频| 色综合久久网女同蕾丝边| 尹人香蕉久久99天天拍| 亚洲一区二区三区乱码| 中文字幕无码人妻aaa片| 日韩高清人妻一区|