網易首頁 > 網易號 > 正文申請入駐

耶魯團隊NHB：特征選擇如何扭曲對大腦的理解？超萬人研究揭示腦-行為關聯的復雜性

2026-04-24 12:11:14　來源: PsyBrain腦心前沿

北京舉報

分享至

認知神經科學前沿文獻分享

基本信息

Title:Feature selection leads to divergent neurobiological interpretations of brain-based machine learning biomarkers

發表時間:2026-04-15

發表期刊:Nature Human Behaviour

影響因子:15.9

獲取原文:

1. 添加小助手:PSY-Brain-Frontier即可獲取PDF版本

研究背景

在人類神經影像學中，一個核心目標是理解認知和心理健康背后的神經生物學基礎。近年來，基于大腦結構和功能數據訓練的機器學習模型，正越來越多地被用于預測個體的行為表型。為了處理高維的大腦連接數據，研究者通常會采用“單變量特征選擇”：即只保留與目標表型相關性最強的腦區連接，而將其他較弱的特征丟棄。

這種做法雖然能簡化模型、縮短訓練時間，并讓結果看起來更容易解釋，但它也帶來了一個隱患：被選中的特征網絡往往被默認是該表型“唯一”的神經基礎。然而，大腦與復雜行為之間的關聯，往往是由廣泛分布的微弱效應網絡共同驅動的。傳統的特征選擇是否為了追求模型的簡潔，而過度簡化了真實的神經生物學？那些被丟棄的特征，真的毫無價值嗎？

為了回答這一問題，研究者利用四個大規模神經影像數據集（包含超過 12000 名參與者和 13 種行為表型），系統評估了被特征選擇丟棄的大腦連接是否也能實現準確預測，以及它們會如何改變我們對大腦的解釋。

研究核心總結

一、被“丟棄”的弱特征同樣具備顯著的預測能力

研究者采用了一種基于十分位數（decile）的預測框架。他們首先計算了訓練集中每個大腦連接與目標表型（如執行功能、語言能力）的相關性，并按強度將其分為 10 個互不重疊的子集。第一十分位數包含了前 10% 最強的特征（即傳統模型會保留的特征），而后續的十分位數則包含了相關性逐漸減弱的特征。

結果出人意料：預測準確性并非排名靠前特征的專利。在預測執行功能和語言能力時，排名較低、通常在建模時被忽略的特征子集（如第二到第六十分位數）依然表現出了顯著的預測能力。甚至在某些情況下，排名第五的特征子集在數值上超越了排名前 10% 的特征。這表明，即使是單變量相關性較弱的邊緣特征，當它們在多變量模型中結合時，依然蘊含著豐富的行為預測信息。

Fig 1. 采用十分位數劃分特征的分析流程，以及不同特征子集在預測執行功能和語言能力時均表現出顯著的預測性能。

二、被忽視的特征集在外部數據中依然能夠泛化

為了檢驗這些模型的穩健性，研究者將基于不同特征子集訓練的模型應用于三個獨立的外部數據集。外部泛化通常被視為評估機器學習模型效用的“黃金標準”。

分析表明，盡管不同十分位數的特征子集之間沒有任何重疊，但第一十分位數之外的模型依然成功通過了外部驗證。例如，在 PNC 數據集中訓練的執行功能模型，其第九十分位數的特征在 HCPD 數據集中的泛化表現，與第一十分位數的特征幾乎沒有顯著差異。這意味著，弱特征的預測能力并非源于對特定訓練集的過擬合，而是捕捉到了真實且可泛化的腦-行為關聯。

Fig 2. 在跨數據集的外部驗證中，第一、第三和第五十分位數的特征子集展現出相似的預測準確度。

三、不同的特征集會得出截然不同的神經生物學解釋

既然多個互不重疊的特征子集都能成功預測行為，那么它們依賴的是相同的神經回路嗎？研究者通過對比不同模型中功能網絡的貢獻度發現，不同十分位數模型所依賴的核心網絡截然不同。

例如，在預測執行功能時，第一十分位數模型主要依賴視覺聯合網絡與額頂網絡之間的連接；但在第二到第五十分位數模型中，這些連接的貢獻度大幅下降，取而代之的是其他網絡的參與。隨著十分位數的增加，模型所依賴的網絡模式變得越來越不相似。這揭示了一個關鍵現象：對于同一個行為表型，存在多個預測能力相當、但神經生物學解釋完全不同的模型。

Fig 3. 不同特征子集雖然預測性能相似，但在規范功能網絡和節點層面上提供了獨特的神經解剖學貢獻。

四、該現象跨越多種表型與成像模態

為了確認這一發現的普適性，研究者進一步將分析擴展到了精神病學、發育和人口統計學表型（如社交溝通障礙、多動癥、年齡和性別）。在所有測試的表型中，排名靠后的特征集均保留了預測效用。

此外，研究者還利用 ABCD 數據集的彌散張量成像（DTI）數據，測試了結構連接組是否也存在類似規律。結果顯示，與功能連接類似，基于白質纖維束的結構模型在較低十分位數的特征集中依然保持了可觀的預測能力。這表明，“弱特征同樣有效且解釋不同”的現象并非 fMRI 數據特有，而是大腦網絡組織的一個普遍特征。

Fig 4. 在 HBN 數據集中，較低排名的特征子集在預測多種精神、發育和人口統計學表型時依然有效。

Fig 5. 使用嶺回歸方法時，不同特征子集不僅保持了預測能力，且各自解釋了獨特的網絡方差。

Fig 6. 在 ABCD 數據集中，無論是基于 DTI 的結構連接還是 fMRI 的功能連接，較低十分位數的特征均能有效預測智力得分。

研究意義

這項研究深刻挑戰了神經影像學中“最強特征即代表核心機制”的傳統假設。它表明，我們目前通過特征選擇找到的腦生物標志物，可能只是復雜神經生物學圖景的“冰山一角”。

首先，在理論層面，該工作有力支持了大腦功能高度分布式的觀點。許多微弱的全腦信號不應被簡單視為噪聲或無關變量，它們在網絡層面共同塑造了復雜的行為表型。

其次，在方法學與可重復性層面，這項研究為領域內常見的“模型難以復現”問題提供了一種新解釋。不同研究在預測同一表型時可能發現了不同的腦區網絡，這未必是由于數據不可靠，而是因為它們各自捕捉到了這個龐大分布式網絡的不同切面。

最后，這一發現對精準醫療和個體化干預具有重要啟發。如果一個表型可以由多套不同的神經回路來預測，這可能暗示著人群中存在不同的神經生物學亞型。未來的干預手段（如經顱磁刺激）或許可以跳出“只盯著最強腦區”的局限，在那些同樣具有預測力但解剖位置更易觸達的“弱特征”網絡中尋找新的治療靶點。

分享人：飯鴿兒

審核：PsyBrain 腦心前沿編輯部

你好，這里是「PsyBrain 腦心前沿」

專注追蹤全球認知神經科學的最尖端突破

視野直擊 Nature, Science, Cell 正刊及核心子刊與頂級大刊

每日速遞「深度解讀」與「前沿快訊」

科研是一場探索未知的長跑，但你無需獨行。歡迎加入PsyBrain 學術社群，和一群懂你的同行，共同丈量腦與心智的無垠前沿。

點擊卡片進群，歡迎你的到來

一鍵關注，點亮星標 ? 前沿不走丟！

一鍵分享，讓更多人了解前沿

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.