網易首頁 > 網易號 > 正文申請入駐

PNAS | 瞳孔里的“確認偏誤”：主觀信念如何重塑我們對假新聞的強化學習？

2026-04-20 18:17:29　來源: PsyBrain腦心前沿

北京舉報

分享至

認知神經科學前沿文獻分享

基本信息

Title:Eye of the beholder: Pupillary response reflects how subjective prior beliefs shape reinforcement learning with fake news

發表時間:2026-4-16

發表期刊:PNAS

影響因子:9.1

獲取原文:

1. 添加小助手:PSY-Brain-Frontier即可獲取PDF版本

研究背景

在社交媒體時代，盡管事實核查工具日益普及，虛假新聞依然能夠廣泛傳播并被許多人深信不疑。為什么人們會如此固執地相信假新聞？

傳統的心理學觀點通常將其歸咎于“確認偏誤”（Confirmation Bias），即人們傾向于尋找和記住符合自己已有信念的信息。然而，這種看似非理性的偏誤為何在人類進化中被保留下來？一種新興的假設認為，確認偏誤可能根植于大腦基礎的強化學習（Reinforcement Learning, RL）機制中。在充滿噪音和不確定性的信息環境中，優先處理與預期一致的信息，可能是一種維持預測穩定性的適應性策略。

但這引出了一個更深層的問題：當個體必須將外部的反饋（例如獎勵或事實核查）與自己內部的認知預期相整合時，既有的信念究竟是如何干擾學習過程的？

為了回答這一問題，這項發表于 PNAS 的最新研究設計了一個巧妙的多階段實驗。研究者不僅要求被試對真實和虛假的新聞標題進行判斷并給出自信度，還讓他們帶著這些“主觀先驗”進入一個概率性強化學習任務。結合計算建模與瞳孔測量技術，該研究試圖拆解“主觀真實感”和“自信度”這兩個維度，究竟是如何在生理和行為層面重塑我們對信息的價值學習的。

研究核心總結

這項研究的核心發現可以拆解為四個遞進的層面，從決策前的生理喚醒，到行為層面的學習偏差，再到背后的計算機制與信念固化。

一、瞳孔擴張提前暴露了主觀自信度對信念評估的卷入

在實驗的第一階段（映射期），被試需要判斷新聞標題的真偽，并通過下注虛擬貨幣來表達自己的自信度。行為數據顯示，被試整體上能夠以高于隨機的水平區分真假新聞，且在判斷新聞為“假”時往往表現出更謹慎的標準和更高的下注金額。

更有價值的發現來自神經生理層面。在被試做出判斷前的兩秒鐘內，瞳孔的動態變化已經提前反映了他們的主觀認知狀態。具體而言，當被試以“高自信”做出判斷時（尤其是高自信地判定某條新聞為假時），其瞳孔擴張幅度顯著更大。重要的是，這種瞳孔反應完全不受新聞客觀真偽的影響，而是純粹由被試內部的“主觀確定性”驅動。這表明，自信度在決策早期就已經調動了自主神經系統的喚醒與認知資源。

Fig 1. 實驗的三個階段：新聞真實性與自信度評估（映射期）、概率性強化學習（學習期）以及最終的信念修正（反饋期）。

Fig 2. 映射期的信號檢測指標與自信度測量，顯示被試在判斷假新聞時傾向于下注更高的金額。

Fig 3. 決策前的瞳孔擴張幅度受主觀自信度顯著調節，高自信試驗中瞳孔收縮更少，且獨立于新聞的客觀真實性。

二、強化學習高度依賴與既有信念的“一致性”

在隨后的強化學習任務中，被試需要在兩兩配對的新聞標題中做出選擇以獲取概率性獎勵。研究者暗中操控了獎勵規則：在某些區塊中，獎勵與被試之前判斷的“真實性”掛鉤；而在另一些區塊中，獎勵與被試的“自信度”掛鉤。

結果顯示，當外部獎勵規則與被試的主觀真實性判斷一致時，被試能夠迅速適應，準確率和學習效率顯著提升，他們會頻繁選擇那些自己曾高自信認定為“真”或“假”的標題。然而，當獎勵規則要求他們優先考慮“自信度”而非“真實性”時（尤其是獎勵低自信選項時），被試的學習表現大幅下降，甚至退化到隨機選擇的水平。這說明，人類的強化學習系統極度依賴既有的認知結構，當外部反饋與內部信念不兼容時，學習行為會變得極其僵化。

Fig 4. 強化學習任務中的行為表現：當獎勵與先驗真實性判斷一致時，被試的準確率顯著更高；而當獎勵與自信度掛鉤時，學習表現大幅下降。

三、學習策略的動態切換：從特征泛化到效價驅動

為了探究這種行為僵化背后的機制，研究者對比了兩種強化學習計算模型：一種是對稱的特征模型（同等對待正負預測誤差），另一種是非對稱模型（對正負預測誤差賦予不同的學習率）。

建模結果揭示了一個精妙的策略轉換。當獎勵規則與“真實性”一致時，被試依賴對稱的特征泛化機制，即把“真實”或“虛假”作為一個可靠的抽象特征來指導全局學習。但是，當獎勵規則與既有信念沖突（如獎勵自信度）時，被試的認知系統無法再依賴原有的抽象特征，轉而采用非對稱的、受效價驅動的更新策略——他們開始過度賦予“獲得獎勵”（正預測誤差）更高的權重，行為變得更加刻板和受限。

此時的瞳孔數據也印證了這一認知沖突。當被試強烈持有的先驗信念與外部獎勵信號發生沖突時，決策前的瞳孔出現了顯著的擴張，標志著認知負荷與內部沖突的加劇。

Fig 5. 計算建模參數分布：對稱模型與非對稱模型在不同獎勵區塊下的學習率與逆溫度參數差異，以及模型對人類行為的擬合表現。

Fig 6. 學習期決策前的瞳孔反應：當強烈持有的先驗信念與外部獎勵規則發生沖突時，瞳孔顯著擴張。

四、高自信信念具有極強的抗拒修正特性

在實驗的最后階段，被試看到了最初的新聞和自己的判斷，并被允許修改意見。數據表明，被試表現出強烈的“信念堅持”傾向，極少改變初始判斷，尤其是那些最初以高自信做出的判斷。無論這些高自信判斷客觀上是對是錯，它們都同樣難以被撼動。

只有在初始自信度較低時，被試才表現出一定的信念更新意愿。此外，當被試堅持了自己的初始判斷，卻收到了意料之外的負面反饋時，其瞳孔出現了顯著的“驚訝”擴張。這進一步說明，確認偏誤降低了人們對反證信息的敏感度，使得與信念相悖的反饋在認知上變得極具沖擊力。

Fig 7. 反饋期的信念修正比例：被試極度傾向于維持初始判斷，信念更新幾乎只發生在低自信條件下。

Fig 8. 確認初始判斷后的瞳孔反應：面對與既有信念相悖的負面反饋時，瞳孔出現顯著的擴張，反映了預期違背與驚訝。

研究意義

這項工作為我們理解“人類為何難以擺脫假新聞”提供了一個機制層面的解釋框架。它清晰地剝離了信念的兩個維度在學習中的不同分工：“真實性”負責指導價值學習的泛化，而“自信度”則負責鎖定和穩固信念的表征。

從理論意義上看，該研究證明了確認偏誤并非單純的認知缺陷，而是強化學習系統在處理先驗結構與外部反饋時的一種計算妥協。當外部環境的反饋邏輯與我們大腦中預設的“真假”框架不符時，我們的學習系統會退化為一種短視的、受效價驅動的模式，從而失去了靈活適應的能力。

從現實啟發來看，這項研究解釋了為什么單純的“辟謠”或“事實核查”往往收效甚微。因為一旦某個虛假信息被個體以“高自信”接納，它不僅會在生理層面調動更高的喚醒度，還會直接改變個體后續處理獎勵和反饋的計算權重。這也提示我們，在對抗虛假信息時，降低受眾在接觸信息初期的“盲目自信”，可能比事后提供正確答案更為關鍵。

分享人：飯鴿兒

審核：PsyBrain 腦心前沿編輯部

你好，這里是「PsyBrain 腦心前沿」

專注追蹤全球認知神經科學的最尖端突破

視野直擊 Nature, Science, Cell 正刊及核心子刊與頂級大刊

每日速遞「深度解讀」與「前沿快訊」

科研是一場探索未知的長跑，但你無需獨行。歡迎加入PsyBrain 學術社群，和一群懂你的同行，共同丈量腦與心智的無垠前沿。

點擊卡片進群，歡迎你的到來

一鍵關注，點亮星標 ? 前沿不走丟！

一鍵分享，讓更多人了解前沿

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.