網易首頁 > 網易號 > 正文申請入駐

TiCS綜述 | 靈長類大腦如何處理聲音信息

2026-04-16 12:11:46　來源: PsyBrain腦心前沿

北京舉報

分享至

認知神經科學前沿文獻分享

基本信息

Title:Voice information processing by the primate brain

發表時間:2026-02

發表期刊:Trends in Cognitive Sciences

獲取原文:

1. 添加小助手:PSY-Brain-Frontier即可獲取PDF版本

引言

我們日常聽到的聲音，遠不只是語言內容的載體。很多時候，在一句話尚未說完之前，大腦已經開始判斷“是誰在說話”“此刻情緒如何”“這是不是熟悉的人”，甚至進一步推測說話者的意圖與社會意義。正因如此，作者把聲音稱作聽覺中的“面孔”，強調它和視覺中的面孔一樣，都是高度濃縮、動態變化、卻又極具社會信息密度的線索。

不過，相比語言和語音研究，神經科學對“聲音本身如何被知覺和表征”的關注長期并不充分。過去相關證據分散在不同方法之中：功能磁共振成像（fMRI）揭示了聲音選擇性皮層區域，腦電和腦磁圖追蹤了聲音加工的時間進程，獼猴和狨猴研究則把問題推進到進化層面。但這些發現往往彼此獨立，導致領域內雖然已知道大腦會優先處理聲音，卻仍缺少一幅跨物種、跨尺度、跨方法的整合圖景。尤其關鍵的問題仍待回答：這種聲音選擇性網絡是否為靈長類共享特征；它到底多快開始把聲音與非聲音區分開來；身份、熟悉性和情緒等更高階信息又是怎樣逐步建立的。

這篇綜述的重要性，就在于把原本零散的證據重新組織起來。作者綜合人類與非人靈長類的 fMRI、顱內記錄、單神經元研究以及近年的計算模型，試圖說明聲音加工并不是一組松散現象，而是一個具有相對穩定組織原則的系統。文章尤其強調三點：其一，靈長類可能共享一套進化保守的“聲音斑塊”系統；其二，聲音與非聲音的神經區分出現得比早期認識更快，而且更高階社會信息會沿時間和層級逐步展開；其三，深度神經網絡和潛在空間模型正在為理解“大腦如何把復雜聲學輸入轉成穩定身份表征”提供新的計算語言。

實驗設計與方法邏輯

文章按照“網絡定位—跨物種比較—時間動態—行為相關表征—計算模型”的邏輯整合既有研究。文章先梳理人類顳葉聲音區（temporal voice areas, TVAs）及額葉聲音區（frontal voice areas, FVAs），明確聲音加工的核心與擴展網絡；隨后結合獼猴、狨猴的 fMRI 和單神經元記錄，討論聲音斑塊是否具有功能同源性。接著，作者匯總 EEG、MEG、立體腦電（sEEG）、皮層腦電（ECoG）和獼猴電生理，重建聲音加工的快速時間展開。

核心發現

發現一：靈長類存在可跨物種對照的聲音選擇性區塊系統

這篇綜述首先把一個關鍵事實講清楚：聲音選擇性腦區并非人類獨有。根據人類、獼猴和狨猴的 fMRI 證據，作者總結出靈長類次級聽覺皮層內存在功能上可比較的“聲音區塊”系統。人類中，最穩定的核心網絡是沿上顳回/上顳溝（STG/STS）分布的后部、中部和前部顳葉聲音區；獼猴和狨猴也可見前部或分布式聲音區塊。Figure 1 上半部分之所以重要，就在于它把三類靈長類的相關腦區直接放在同一進化框架下展示，視覺上支撐了“功能同源”的主線。

Figure 1. From voice-selectivity maps to neurons

發現二：聲音與非聲音的區分出現很早，并在時間上逐步展開到更高階社會信息

文章對時間維度的整合，是另一條非常重要的主線。早期 EEG 曾把聲音/非聲音區分放在約 320 ms，但后續高密度 EEG 和 MEG 發現，額顳部與聲音相關的正成分可在約 170 ms 出現，已接近視覺中面孔 N170 的時間尺度。更關鍵的是，Figure 1 下半部分把人類顱內高伽馬活動與獼猴單神經元記錄并置，顯示聲音類別信息可在更早的 30–150 ms 內被神經系統提取，人類部分電極甚至早于 50 ms。

發現三：聲音網絡會編碼身份、熟悉性與情緒，且這些表征會被經驗進一步塑形

在“是不是聲音”之外，這套網絡真正服務的是社會交流中的有用信息。Figure 2A 匯總的人類 fMRI 結果顯示，說話者身份不僅能從雙側 TVA 的活動模式中解碼，也涉及頂葉和左額下回等區域，說明身份信息并不局限于單一聽覺斑塊。Figure 2B 進一步顯示，熟悉聲音在神經表征空間中的區分度更高：個人熟悉的聲音會招募更廣泛的人物身份網絡，包括顳極、緣上回、前島葉和內側額葉，并表現出更強的表征差異。

Figure 2. Behaviourally relevant coding of voice identity across scales

發現四：計算模型提示聲音身份表征可能依賴低維潛在空間與“流形解纏結”

這篇綜述的理論整合，集中體現在對計算模型的討論。作者指出，中部顳葉聲音區（mTVA）的活動還可以較好地由基頻、共振峰分散、諧噪比等聲學維度解釋，但到了前部 TVA，僅靠這些低層特征已不足以解釋其表征性質，更需要引入對身份更穩定的抽象模型。Figure 3A 展示了自編碼器、監督分類器和自監督模型如何把高維聲音輸入壓縮為低維表示，這也是“聲音潛在空間（voice latent space, VLS）”概念的核心意義。

Figure 3. Modelling voice representations

歸納總結和點評

這篇綜述最突出的貢獻，是把聲音選擇性腦區、跨物種證據、快速時間動態、身份與情緒編碼以及深度神經網絡建模，整合成了一條相對統一的研究敘事：靈長類大腦中存在進化上延續的聲音加工系統，它能夠在極短時間內提取聲音這一社會信號，并沿聽覺層級逐步形成更抽象、更穩定、也更接近行為需求的身份與情感表征。文章尤其有價值的地方，在于把“聲音是聽覺中的面孔”從一個形象比喻推進為可比較、可建模、可跨物種檢驗的科學框架。不過它也清楚保留了邊界：現有證據雖支持聲音斑塊的跨物種連續性與層級化表征，但關于這些斑塊究竟是離散模塊還是連續梯度、關鍵區域在知覺中的必要因果作用為何、以及深度模型與真實神經實現之間能對應到什么程度，仍是需要后續實驗回答的開放問題。

分享人：BQ

審核：PsyBrain 腦心前沿編輯部

你好，這里是「PsyBrain 腦心前沿」

專注追蹤全球認知神經科學的最尖端突破

視野直擊 Nature, Science, Cell 正刊及核心子刊與頂級大刊

每日速遞「深度解讀」與「前沿快訊」

科研是一場探索未知的長跑，但你無需獨行。歡迎加入PsyBrain 學術社群，和一群懂你的同行，共同丈量腦與心智的無垠前沿。

點擊卡片進群，歡迎你的到來

一鍵關注，點亮星標 ? 前沿不走丟！

一鍵分享，讓更多人了解前沿

作者提醒：內容由AI生成

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.