網易首頁 > 網易號 > 正文申請入駐

“我不知道”比“一本正經地胡說八道”更值錢！清華AI幻覺報告

2026-05-09 09:51:17　來源: 三個皮匠報告

湖南舉報

分享至

有沒有發現，你問AI一個問題，它給出的答案聽起來頭頭是道，但一查資料發現——引用的論文是假的、提到的法規是編的、連頁碼都不存在？

更可怕的是，有些機構已經開始用AI回答公共服務咨詢、輔助醫療診斷、撰寫法律文書了……

清華大學這份《2026年AI幻覺深度研究報告》，看完我只想說：我們可能一直誤解了AI的“錯誤”——那不是偶然的“口誤”，而是它“天生如此”的“系統 bug”。

一、幻覺不是“出錯”，是“基因”

報告開篇就引用了NIST（美國國家標準與技術研究院）的定義：AI的“幻覺”不叫hallucination，叫confabulation——這個詞在醫學上指“患者無意識地用虛構內容填補記憶空白”。AI不是在“撒謊”，它只是“不知道自己不知道”。

關鍵洞察有三條：

幻覺是“生成—采信—執行”鏈條上的系統性風險，不是單點準確率問題。一句錯話被用戶當真、被團隊執行，后果才可怕。
基準分數無法替代場景化評估。一個模型在榜單上99%準確，放到醫療場景里，那1%的錯可能直接誤診。
真正有效的方案不是“一個萬能技術”，而是一套復合治理棧：檢索錨定、拒答機制、人工復核、日志監測、責任制度，缺一不可。

二、六類幻覺，你遇到過幾種？

報告把幻覺細分成六種，不是學術堆砌，而是為了“不同錯誤配不同護欄”：

三、為什么“高可信品牌”反而更危險？

報告有一個非常反直覺的結論：公共服務、醫院、高校、金融機構這類“權威界面”，比普通聊天場景更容易放大幻覺風險。

原因是：用戶會因為信任你的品牌，而低估系統的失真風險。

GOV.UK Chat（英國政府官網的AI問答工具）用戶滿意度不低，但官方觀察到若干幻覺案例后，專門提醒：官方的可信度，會讓用戶過度信任AI的輸出，放棄自行核驗。
同理，當一家三甲醫院、一家上市銀行、一所985高校推出AI助手時，用戶天然會把它當成“官方說法”。

結論：權威界面不是風險緩沖器，而是風險放大器。

四、高風險場景的“兩難”：壓低幻覺，可能抬高遺漏

MHRA（英國藥品和健康產品管理局）的案例揭示了一個核心權衡：

加更嚴格的護欄（比如只允許模型回答有明確來源的問題），可以顯著降低重大幻覺。
但代價是：拒答率上升、遺漏率上升、信息不全率上升。

在醫療場景，這就變成了一個“兩難”：

如果系統頻繁說“我不知道”，臨床人員可能失去效率，甚至錯過關鍵提示。
如果系統為了顯得全面而繼續補全，則可能直接誤導臨床決策。

因此，高風險場景的工程設計，必須把“遺漏風險”和“幻覺風險”放在同一張決策表上。

五、給組織的行動框架：六層治理棧

報告最后給出了一個非常實操的框架，不是“技術方案”，而是“組織工程”：

六、五個原創概念，值得記住

報告提煉了五個“壓縮式”概念，便于組織內部溝通：

概率真相陷阱：把“最像真的輸出”誤認為“最接近真的答案”。
引用幻影鏈：偽造的引用，以正規格式偽裝成已核驗知識，在組織中持續傳播。
低置信高傷害區：模型自己都沒把握，組織卻讓它介入高后果任務。
遺漏—幻覺蹺蹺板：壓低幻覺率，可能抬高遺漏率；反之亦然。
責任折返門：表面有人工復核，但復核者無時間、無標準、無否決權，只是機械點確認。

總結與啟示

一句話總結：AI幻覺不是一個“技術問題”，而是一個“組織治理問題”。

對技術團隊：

不要追求“零幻覺”——那是不可能的。
追求“可識別、可約束、可追責、可持續優化”。
在高風險場景，設計“拒答機制”比提升準確率更重要。

對管理層：

不要把AI當“萬能回答機”，要畫任務風險地圖。
明確哪些任務“不能上生成式AI”，哪些任務“只能輔助”。
人工復核必須有意義、可抽檢、可追責，否則就是“責任表演”。

對政府/公共機構/醫療機構：

品牌可信度會放大幻覺風險，用戶會高估你的AI。
必須設置顯性護欄：明確告知用戶“這是AI生成內容，請核實來源”。

真正有競爭力的組織，不是讓AI看起來無所不知，而是讓它在不知道時停下來、在高風險時退后一步。

報告節選

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

俄軍："世界上最強大導彈"試射成功射程超35000公里

紅星新聞 2026-05-13 13:21:19
57067 跟貼 57067
男孩一個月弄丟九次書包，媽媽偷偷跟著發現了真相

南陽日報 2026-05-13 19:40:39
90 跟貼 90

頭皮發麻！廣東飛蟻大爆發住30幾樓都逃不掉

看看新聞Knews 2026-05-13 12:04:06
470 跟貼 470

自助餐加了“飽腹劑”？記者調查自助餐“快速飽腹”的秘密

大象新聞 2026-05-13 14:30:03
149 跟貼 149
生態治理還是高價釣魚？西昌邛海4000元釣魚年卡引質疑律師：如此收費無法律依據

封面新聞 2026-05-13 20:48:03
578 跟貼 578

總比分1比2不敵衛冕冠軍，山西男籃止步八強

錦繡太原 2026-05-14 08:58:21
31 跟貼 31

孫銘陽正式宣布退出國家隊：我隨時都在，有召必回！

現代快報 2026-05-13 15:38:07
474 跟貼 474
九寨溝將實行“雙向檢票”？工作人員：出園檢票并非新政策，一直嚴禁溝內住宿

上游新聞 2026-05-11 15:40:24
2983 跟貼 2983

男子走夜路發現劇毒白頭蝰，毒性遠超五步蛇，至今無抗毒血清

星視頻 2026-05-13 15:03:50
1142 跟貼 1142
約0.01飛米！中國科學家重要發現，將改寫教科書

上觀新聞 2026-05-14 06:48:04
3 跟貼 3
全國物業費收繳率多年下滑，多地倡議黨員先繳物業費引爭議

南方都市報 2026-05-14 11:15:55
10 跟貼 10
佩林卡：任何球隊都渴望擁有詹姆斯我們只想尊重他的決定

北青網-北京青年報 2026-05-13 21:52:20
223 跟貼 223
貴州一女子在河邊“放生”奶茶，口中念念有詞，當地：并無此類風俗，已介入核查

揚子晚報 2026-05-13 14:54:14
152 跟貼 152
重大突破！全球最大規格，在武漢誕生

湖北省人民政府網 2026-05-14 09:33:09
27 跟貼 27
昨起，進入武漢大學無需預約

湖北發布 2026-05-14 09:27:43
18 跟貼 18
“這是一次我們從未見過的大變革”，李彥宏稱“代碼正在變得不值錢”

紅星資本局 2026-05-13 16:42:26
143 跟貼 143
美麗中國行｜執綠色之筆，繪美麗中國

新華社 2026-05-13 13:10:21
72 跟貼 72
近百元一勺，還不退不換！“盲勺”一舀，驚喜變驚嚇

大象新聞 2026-05-14 11:23:21
0 跟貼 0
俄總統新聞秘書：只要美國不再把經貿合作與烏克蘭問題掛鉤，俄愿同美開展商業往來

極目新聞 2026-05-14 09:58:58
0 跟貼 0

三個皮匠報告

專業的行業報告分享平臺

781文章數 31關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

本地

健康

時尚

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

“我不知道”比“一本正經地胡說八道”更值錢！清華AI幻覺報告

馬斯克：只有我和黃仁勛坐上了"空軍一號"

媒體：特朗普開始訪華 中方有一句話是說給全世界聽的

媒體：特朗普開始訪華 中方有一句話是說給全世界聽的

哈登30+8+6創8紀錄 第8次贏天王山

肖戰提名金海燕獎，這一步走得太穩

片仔癀依舊困在“片仔癀”

C級純電轎跑 吉利銀河"TT"申報圖來了

態度原創

索尼CEO警告：PS5未來可能漲價！不過今年庫存充足

用蘇繡的方式，打開江西婺源

干細胞能讓人“返老還童”嗎

T恤+低腰闊腿褲、襯衫+低腰半裙，今年夏天最時髦的搭配，誰穿誰好看！

媒體：特朗普開始訪華中方有一句話是說給全世界聽的

媒體：特朗普開始訪華中方有一句話是說給全世界聽的

哈登30+8+6創8紀錄第8次贏天王山

C級純電轎跑吉利銀河"TT"申報圖來了