![]()
認知神經科學前沿文獻分享
![]()
基本信息
Title:Voice information processing by the primate brain
發表時間:2026-02
發表期刊:Trends in Cognitive Sciences
獲取原文:
1. 添加小助手:PSY-Brain-Frontier即可獲取PDF版本
![]()
![]()
引言
我們日常聽到的聲音,遠不只是語言內容的載體。很多時候,在一句話尚未說完之前,大腦已經開始判斷“是誰在說話”“此刻情緒如何”“這是不是熟悉的人”,甚至進一步推測說話者的意圖與社會意義。正因如此,作者把聲音稱作聽覺中的“面孔”,強調它和視覺中的面孔一樣,都是高度濃縮、動態變化、卻又極具社會信息密度的線索。
不過,相比語言和語音研究,神經科學對“聲音本身如何被知覺和表征”的關注長期并不充分。過去相關證據分散在不同方法之中:功能磁共振成像(fMRI)揭示了聲音選擇性皮層區域,腦電和腦磁圖追蹤了聲音加工的時間進程,獼猴和狨猴研究則把問題推進到進化層面。但這些發現往往彼此獨立,導致領域內雖然已知道大腦會優先處理聲音,卻仍缺少一幅跨物種、跨尺度、跨方法的整合圖景。尤其關鍵的問題仍待回答:這種聲音選擇性網絡是否為靈長類共享特征;它到底多快開始把聲音與非聲音區分開來;身份、熟悉性和情緒等更高階信息又是怎樣逐步建立的。
這篇綜述的重要性,就在于把原本零散的證據重新組織起來。作者綜合人類與非人靈長類的 fMRI、顱內記錄、單神經元研究以及近年的計算模型,試圖說明聲音加工并不是一組松散現象,而是一個具有相對穩定組織原則的系統。文章尤其強調三點:其一,靈長類可能共享一套進化保守的“聲音斑塊”系統;其二,聲音與非聲音的神經區分出現得比早期認識更快,而且更高階社會信息會沿時間和層級逐步展開;其三,深度神經網絡和潛在空間模型正在為理解“大腦如何把復雜聲學輸入轉成穩定身份表征”提供新的計算語言。
![]()
實驗設計與方法邏輯
文章按照“網絡定位—跨物種比較—時間動態—行為相關表征—計算模型”的邏輯整合既有研究。文章先梳理人類顳葉聲音區(temporal voice areas, TVAs)及額葉聲音區(frontal voice areas, FVAs),明確聲音加工的核心與擴展網絡;隨后結合獼猴、狨猴的 fMRI 和單神經元記錄,討論聲音斑塊是否具有功能同源性。接著,作者匯總 EEG、MEG、立體腦電(sEEG)、皮層腦電(ECoG)和獼猴電生理,重建聲音加工的快速時間展開。
![]()
核心發現
發現一:靈長類存在可跨物種對照的聲音選擇性區塊系統
這篇綜述首先把一個關鍵事實講清楚:聲音選擇性腦區并非人類獨有。根據人類、獼猴和狨猴的 fMRI 證據,作者總結出靈長類次級聽覺皮層內存在功能上可比較的“聲音區塊”系統。人類中,最穩定的核心網絡是沿上顳回/上顳溝(STG/STS)分布的后部、中部和前部顳葉聲音區;獼猴和狨猴也可見前部或分布式聲音區塊。Figure 1 上半部分之所以重要,就在于它把三類靈長類的相關腦區直接放在同一進化框架下展示,視覺上支撐了“功能同源”的主線。
![]()
Figure 1. From voice-selectivity maps to neurons
發現二:聲音與非聲音的區分出現很早,并在時間上逐步展開到更高階社會信息
文章對時間維度的整合,是另一條非常重要的主線。早期 EEG 曾把聲音/非聲音區分放在約 320 ms,但后續高密度 EEG 和 MEG 發現,額顳部與聲音相關的正成分可在約 170 ms 出現,已接近視覺中面孔 N170 的時間尺度。更關鍵的是,Figure 1 下半部分把人類顱內高伽馬活動與獼猴單神經元記錄并置,顯示聲音類別信息可在更早的 30–150 ms 內被神經系統提取,人類部分電極甚至早于 50 ms。
發現三:聲音網絡會編碼身份、熟悉性與情緒,且這些表征會被經驗進一步塑形
在“是不是聲音”之外,這套網絡真正服務的是社會交流中的有用信息。Figure 2A 匯總的人類 fMRI 結果顯示,說話者身份不僅能從雙側 TVA 的活動模式中解碼,也涉及頂葉和左額下回等區域,說明身份信息并不局限于單一聽覺斑塊。Figure 2B 進一步顯示,熟悉聲音在神經表征空間中的區分度更高:個人熟悉的聲音會招募更廣泛的人物身份網絡,包括顳極、緣上回、前島葉和內側額葉,并表現出更強的表征差異。![]()
Figure 2. Behaviourally relevant coding of voice identity across scales
發現四:計算模型提示聲音身份表征可能依賴低維潛在空間與“流形解纏結”
這篇綜述的理論整合,集中體現在對計算模型的討論。作者指出,中部顳葉聲音區(mTVA)的活動還可以較好地由基頻、共振峰分散、諧噪比等聲學維度解釋,但到了前部 TVA,僅靠這些低層特征已不足以解釋其表征性質,更需要引入對身份更穩定的抽象模型。Figure 3A 展示了自編碼器、監督分類器和自監督模型如何把高維聲音輸入壓縮為低維表示,這也是“聲音潛在空間(voice latent space, VLS)”概念的核心意義。
![]()
Figure 3. Modelling voice representations
![]()
歸納總結和點評
這篇綜述最突出的貢獻,是把聲音選擇性腦區、跨物種證據、快速時間動態、身份與情緒編碼以及深度神經網絡建模,整合成了一條相對統一的研究敘事:靈長類大腦中存在進化上延續的聲音加工系統,它能夠在極短時間內提取聲音這一社會信號,并沿聽覺層級逐步形成更抽象、更穩定、也更接近行為需求的身份與情感表征。文章尤其有價值的地方,在于把“聲音是聽覺中的面孔”從一個形象比喻推進為可比較、可建模、可跨物種檢驗的科學框架。不過它也清楚保留了邊界:現有證據雖支持聲音斑塊的跨物種連續性與層級化表征,但關于這些斑塊究竟是離散模塊還是連續梯度、關鍵區域在知覺中的必要因果作用為何、以及深度模型與真實神經實現之間能對應到什么程度,仍是需要后續實驗回答的開放問題。
分享人:BQ
審核:PsyBrain 腦心前沿編輯部
你好,這里是「PsyBrain 腦心前沿」
專注追蹤全球認知神經科學的最尖端突破
視野直擊 Nature, Science, Cell 正刊 及核心子刊與頂級大刊
每日速遞「深度解讀」與「前沿快訊」
科研是一場探索未知的長跑,但你無需獨行。歡迎加入PsyBrain 學術社群,和一群懂你的同行,共同丈量腦與心智的無垠前沿。
點擊卡片進群,歡迎你的到來
一鍵關注,點亮星標 ? 前沿不走丟!
![]()
一鍵分享,讓更多人了解前沿
作者提醒:內容由AI生成
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.