Brain in the Dark: Design Principles for Neuromimetic
《黑暗中的大腦:自由能原理下的神經模擬推理設計原則》
Inference under the Free Energy Principle
https://github.com/MLDawn/PC-network-NeurIPs-2024
https://arxiv.org/pdf/2502.08860
![]()
摘要
深度學習通過從原始數據中實現自動特征提取和函數近似,徹底改變了人工智能(AI)。然而,它面臨著諸如缺乏分布外泛化能力、災難性遺忘和可解釋性差等挑戰。相比之下,生物神經網絡(如人腦中的神經網絡)并不存在這些問題,這激發了AI研究人員探索神經模擬深度學習,其目標是在AI模型中復制大腦機制。這種方法的一個基礎理論是自由能原理(FEP),盡管它具有潛力,但由于需要跨多個領域的跨學科理解,通常被認為在AI中理解和實現起來過于復雜。本文旨在揭開FEP的神秘面紗,并為設計具有類人感知能力的神經模擬模型提供一個全面的框架。我們提出了一個實現這些模型的路線圖,并提供了一個Pytorch代碼庫,用于在預測編碼網絡中應用FEP。
1 引言
盡管被限制在頭骨的黑暗中,人腦卻擁有令人驚嘆的能力,能夠解釋周圍的世界,理解并分析外部環境,為不可預見的未來做計劃,并做出能夠改變事件進程的決策。大腦這種非凡的能力被認為源于其作為預測機器的功能,它不斷地推斷感覺輸入背后的隱藏原因,以保持對環境的連貫理解。這種觀點可以追溯到赫爾姆霍茨關于“感知作為無意識推斷”的想法,并后來發展為“貝葉斯大腦”假設,它表明大腦作為一個復雜的統計器官運行。大腦根據傳入的感覺數據更新其對外部世界的信念,并通過生成模型(GM)優化這一過程。這種生成模型使大腦能夠推斷出產生其感覺輸入的外部環境的動態狀態,以及這些輸入產生的機制。本質上,大腦不斷根據貝葉斯推斷的原則,完善其對世界隱藏狀態的概率信念。
更具體地說,給定一個感覺觀測值y,感知的目標是推斷出導致這一觀測的最可能的世界隱藏狀態x,這是通過貝葉斯定理實現的。自由能原理(FEP)是開發受大腦啟發的計算最有前景的框架之一,它是一種信息論原理,認為大腦的運行是為了最小化一個稱為變分自由能(VFE)的量。VFE為貝葉斯模型證據的負對數提供了一個上界,定義為 - ln(p(y|M)),其中M是生成模型(GM)。在某些假設下,VFE可以定義為大腦預測的感覺數據與實際接收到的感覺數據之間的差異。該原理表明,大腦試圖減少這種差異以維持一種平衡狀態,從而在不可預測的環境中保持“自我”的生存和持續存在。
盡管自由能原理提供了基礎性的見解,但將其應用于神經模擬人工智能(AI)是具有挑戰性的,因為它需要跨動態系統建模(通過狀態空間模型(SSMs))、隨機過程、概率論、變分微積分和神經科學等領域的跨學科理解。因此,由于追求這一研究方向所需的博學多才,只有少數人工智能研究人員使用自由能原理。進一步限制其在人工智能界廣泛使用的是,自由能原理的最初實現是在Matlab*中完成的,這在人工智能界不如Python或Pytorch常用。為解決這些障礙,本文貢獻了以下內容:
1. 一個準確且高效地使用自由能原理設計神經模擬AI的路線圖。
2. 一個輕量級且基于CPU的Pytorch代碼庫,實現了在預測編碼(PC)網絡中的自由能原理[^?^]。
本文的其余部分如下:第2節介紹變分自由能和模型反演;第3節詳細闡述了各種問題表述及其在基于自由能原理的神經模擬AI設計中的影響;第4節介紹預測編碼并提供其數學表述;第5節詳細介紹實驗和結果。最后,第6節總結本文。
2 推理、學習和不確定性估計
為了使神經模擬人工智能模型能夠在動態且不斷變化的世界中有效運行,它必須能夠持續適應新的感覺輸入。為此,它需要一個生成模型(GM),以封裝其對感覺數據背后隱藏的生成過程(GP)的理解。生成過程對模型來說是不可直接獲取的,就像大腦無法直接感知頭骨之外的真實外部世界一樣。因此,確定世界的隱藏狀態成為一個推理問題,模型需要從觀察到的感覺輸入中反向推導出生成過程。這涉及模型反演,使我們能夠推斷出最有可能生成給定感覺數據的隱藏狀態。有趣的是,在人工智能和機器學習領域,研究的主要焦點常常集中在參數估計,而不是隱藏狀態估計。
![]()
其中,DKL表示Kullback-Leibler散度。最小化變分自由能(VFE)有兩個目的:一是近似模型證據,二是為選擇不同的生成模型(GM)提供一個穩健的標準。由于VFE是關于q的泛函(即輸入一個函數并返回一個標量),因此使用變分法進行最小化。
VFE平衡了兩個相互對立的量:準確性(確保模型的預測與觀測數據緊密匹配)和復雜性(懲罰過于復雜的模型以防止過擬合)。具體來說,復雜性衡量了模型對世界狀態的先驗信念在觀測到后向近似后驗信念的偏移程度。通過最小化VFE,模型在擬合數據和保持簡潔性之間實現了最優權衡,遵循了奧卡姆剃刀原則。
通過最小化VFE進行的推理過程賦予了神經模擬AI三個關鍵能力:(i)參數估計:學習生成模型的參數以最好地解釋數據;(ii)精確度估計:估計隱藏狀態和觀測的精確度(逆不確定性),相關內容將在第4節討論;(iii)狀態估計:推斷導致觀測數據的隱藏狀態。這三種能力對于構建能夠適應和泛化不同情境的真正神經模擬AI系統至關重要,就像生物神經網絡一樣。然而,為了說明目的,我們專注于場景(iii),即,同時保持生成模型的其他部分固定(即固定參數和狀態/觀測的精確度項)。
3 不同的問題表述及其影響
在設計生成模型(GMs)及其反演方法時,需要考慮各種不同的問題空間。本節探討了不同的問題表述及其對基于自由能原理(FEP)開發神經模擬人工智能的影響。在以下內容中,我們討論了離散時間、離散空間的馬爾可夫鏈以及連續時間、連續空間的隨機過程;其他表述方式超出了本文的范圍。
![]()
![]()
![]()
![]()
4 預測編碼
為了維持穩定性(即內穩態)并確保生存,像大腦這樣的生物系統必須持續最小化其內部和外部狀態的波動或熵。這一過程類似于最小化大腦對其感覺狀態的“驚訝”,從統計學角度來看,這轉化為最大化其感覺輸入的貝葉斯模型證據——這一過程被稱為貝葉斯濾波。預測編碼[13,14]是一種突出且在神經生物學上可行的貝葉斯濾波方法,它將大腦的功能框架化為預測與誤差校正之間不斷的相互作用。在預測編碼框架下,大腦被視為一個分層的生成模型,通過最小化預測誤差來優化其對世界的內部模型。這些誤差是大腦的預測(自上而下的信號)與實際感覺輸入(自下而上的信號)之間的差異。大腦通過一個雙重過程實現這一點:首先,生成關于感覺輸入的自上而下的預測;其次,計算預測誤差(自下而上的信號),這些誤差用于更新這些預測。變分自由能(VFE)為貝葉斯模型證據提供了一個數學近似,在某些條件下,它等同于加權的預測誤差。這是通過拉普拉斯近似實現的,該方法用更簡單的高斯分布來近似復雜的模型分布。在變分范式下進行推理,可以得到變分拉普拉斯(VL),它以一種生物學上可行的方式高效地計算和優化VFE。在這個框架中,感知被概念化為通過持續更新沿著皮層等級向下傳播的期望來最小化預測誤差。預測從更深的皮層層流向更表層的層,而由此產生的預測誤差則向上流動,完善大腦的期望并改善未來的預測。本質上,大腦作為一個自我校正系統,不斷尋求減少其期望與感覺現實之間的差異,從而優化其對世界的內部模型。從數學上講,預測編碼可以被建模為一個分層狀態空間模型,其中層次結構的每一層(共L層)代表一個抽象層次:
![]()
![]()
![]()
5 單層PC模型的實驗與結果
我們展示了實驗結果,證明了一個簡單的單層預測編碼(PC)網絡如何從嘈雜的感覺輸入中推斷出外部世界的隱藏狀態;實現細節包含在提供的基于CPU的Pytorch代碼庫中。所有實驗均在一臺個人筆記本電腦上進行,該電腦配備Intel? Core-i9處理器和16GB內存(RAM)。偽代碼在附錄D中提供。
![]()
![]()
![]()
6 結論
神經模擬人工智能(Neuromimetic AI)旨在賦予傳統人工智能模型(例如深度學習)類似大腦的神經元消息傳遞和類人推理能力。自由能原理(FEP)是實現這一目標最有前景的方向之一。然而,由于其數學上的復雜性和多學科的性質,沿著自由能原理的路徑探索神經模擬、理解它以及當然,實現它,仍然是研究人員面臨的艱巨任務。本文詳細闡述了基于自由能原理設計神經模擬人工智能模型的設計原則,該原理應用于預測編碼(PC)網絡。最后但同樣重要的是,我們提供了一個基于自由能原理實現預測編碼網絡的Pytorch代碼庫,該網絡模擬了人類的感知能力。
A 用于推理/學習的隱馬爾可夫模型
![]()
![]()
B 關于運動的廣義坐標
![]()
C 單層預測編碼網絡中的神經元消息傳遞
在本附錄中,我們描述了一個單層預測編碼(PC)網絡如何通過神經元消息傳遞更新其對世界狀態及其動態的信念。該模型通過自上而下的預測和自下而上的誤差信號的結合,來完善其對世界隱藏狀態及其時間動態的內部信念。
![]()
![]()
![]()
D 狀態推斷偽代碼
算法1展示了在第5節中定義的隱藏狀態估計問題的偽代碼,其中生成模型(GM)是一個單層預測編碼(PC)網絡,生成過程(GP)是一個Lotka-Volterra過程。這意味著隱藏狀態 x 和感覺 y 的維度等于2。偽代碼是自解釋的,然而,在第9行,我們有一個神秘的塊矩陣 D,這需要進一步解釋。
![]()
![]()
![]()
E Lotka-Volterra生成過程及其觀測
圖2展示了Lotka-Volterra生成過程(GP)的解,作為需要估計的隱藏狀態 x(左側),以及通過在 x 中加入有色噪聲生成的觀測值 y(右側)。
F 變分自由能與變分拉普拉斯
![]()
![]()
![]()
G 實驗進一步分析
圖3的上半部分和下半部分分別展示了M1和M2的推斷隱藏狀態以及在整個推理期間自由作用的演變。
![]()
![]()
![]()
H 單層預測編碼網絡的生成能力
![]()
I 計算給定生成模型的近似變分自由能的梯度
![]()
![]()
原文鏈接: https://arxiv.org/pdf/2502.08860
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.