網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

神經(jīng)調(diào)質(zhì)的時(shí)間信用分配擴(kuò)散機(jī)制

2026-04-05 12:00:49　來源: CreateAMind

上海舉報(bào)

分享至

Diffusion of Neuromodulators for Temporal Credit Assignment

神經(jīng)調(diào)質(zhì)的時(shí)間信用分配擴(kuò)散機(jī)制

https://arxiv.org/pdf/2603.08949

生物學(xué)習(xí)能夠在反饋稀疏且不精確的情況下實(shí)現(xiàn)時(shí)間信用分配，常常依賴于在空間和時(shí)間上起作用的神經(jīng)調(diào)質(zhì)信號(hào)。在此，我們提出一種學(xué)習(xí)機(jī)制，其中誤差信息通過網(wǎng)絡(luò)局部擴(kuò)散，類似于神經(jīng)調(diào)質(zhì)的容積傳遞。這種分布式調(diào)制使得神經(jīng)元即使在沒有直接反饋的情況下，也能利用擴(kuò)散的信用信號(hào)的局部濃度進(jìn)行學(xué)習(xí)。將該機(jī)制應(yīng)用于具有稀疏反饋連接的回聲脈沖神經(jīng)網(wǎng)絡(luò)中，擴(kuò)散式信用信號(hào)傳遞在三個(gè)基準(zhǔn)任務(wù)上改善了學(xué)習(xí)效果。以資格傳播作為基線學(xué)習(xí)機(jī)制，我們展示了基于擴(kuò)散的調(diào)制如何為稀疏連接的神經(jīng)回路中的信用分配提供一種合理的機(jī)制。”

I. 引言

生物學(xué)習(xí)是生物體普遍存在的特征。已知大多數(shù)動(dòng)物的神經(jīng)系統(tǒng)具有高度適應(yīng)性，多種局部可塑性機(jī)制和調(diào)節(jié)系統(tǒng)緊密協(xié)調(diào)運(yùn)作，以高效地修改突觸連接。與生物網(wǎng)絡(luò)不同，人工神經(jīng)網(wǎng)絡(luò)主要依靠誤差反向傳播進(jìn)行訓(xùn)練，這是一種精確的信用分配方法，能在廣泛任務(wù)中實(shí)現(xiàn)極高性能。反向傳播在訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)上的成功，催生了眾多假設(shè)，認(rèn)為生物學(xué)習(xí)可能遵循相似原理[1]。然而，生物網(wǎng)絡(luò)的若干限制（如非精確的信用分配、稀疏的連接與反饋等）使得標(biāo)準(zhǔn)反向傳播難以在生物網(wǎng)絡(luò)中精確實(shí)現(xiàn)，從而促使人們尋找在生物網(wǎng)絡(luò)連接和信號(hào)機(jī)制約束下能夠復(fù)現(xiàn)反向傳播性能的、具有生物學(xué)合理性的替代方案。

資格傳播[2]是時(shí)間反向傳播最成功的生物學(xué)合理性替代方案之一。然而，在具有稀疏反饋連接的網(wǎng)絡(luò)中——這種結(jié)構(gòu)更接近生物網(wǎng)絡(luò)的組織方式——其性能會(huì)下降[3]。近期引入神經(jīng)調(diào)質(zhì)信號(hào)的擴(kuò)展，通過為學(xué)習(xí)信號(hào)增加額外結(jié)構(gòu)或細(xì)胞類型特異的通信，取得了性能提升[4,5]。盡管有效，但這些方法依賴于精確且靶向的信用分配。相比之下，神經(jīng)調(diào)質(zhì)系統(tǒng)主要通過容積傳遞運(yùn)作，即信號(hào)在細(xì)胞外間隙擴(kuò)散，并在較大的空間尺度上調(diào)節(jié)神經(jīng)元群體[6–8]。

在此，我們研究一種學(xué)習(xí)機(jī)制，其中信用信號(hào)在網(wǎng)絡(luò)上進(jìn)行空間擴(kuò)散，信用分配由某種調(diào)制粒子的局部濃度決定，而不是由其源頭位置決定。

II. 結(jié)果

為了評(píng)估擴(kuò)散的信用信號(hào)對(duì)學(xué)習(xí)的影響，我們研究了循環(huán)脈沖神經(jīng)網(wǎng)絡(luò)（RSNNs）學(xué)習(xí)執(zhí)行幾個(gè)復(fù)雜的時(shí)間任務(wù)。每個(gè)RSNN接收來自外部輸入層的、以脈沖序列形式呈現(xiàn)的任務(wù)特定輸入，其活動(dòng)由一個(gè)由漏型非脈沖神經(jīng)元組成的輸出層讀出（圖1a）。

我們的RSNN包含兩種神經(jīng)元類型：漏積分發(fā)放神經(jīng)元（LIF）及其具有發(fā)放率適應(yīng)性的變體（ALIF）。不同任務(wù)中兩者的比例有所不同（更多細(xì)節(jié)見補(bǔ)充材料）。這些神經(jīng)元被隨機(jī)嵌入在均勻分布的二維網(wǎng)格上，從神經(jīng)元i到神經(jīng)元j的連接概率隨著它們之間距離的平方呈指數(shù)衰減（圖1b）。衰減率設(shè)置為使得連接率約為10%。這種安排促進(jìn)了局部連接模式，有利于鄰近神經(jīng)元之間的連接。到輸入層和輸出層的連接是稀疏的，僅包含所有可能連接中隨機(jī)的10%，且對(duì)任一神經(jīng)元類型無偏向。更多實(shí)現(xiàn)細(xì)節(jié)和模型方程見補(bǔ)充材料。

在每個(gè)任務(wù)中，RSNN接收反饋信用信號(hào)，這些信號(hào)編碼了網(wǎng)絡(luò)與任務(wù)相關(guān)的誤差，從而調(diào)節(jié)學(xué)習(xí)但不影響神經(jīng)元活動(dòng)。關(guān)鍵的是，我們假設(shè)這些神經(jīng)調(diào)質(zhì)信號(hào)并非以精確靶向的方式運(yùn)作。相反，一旦釋放，它們不僅會(huì)到達(dá)目標(biāo)神經(jīng)元，還會(huì)通過細(xì)胞間隙擴(kuò)散，在隨后的若干時(shí)間步內(nèi)影響鄰近的細(xì)胞（圖1b）。

其中 η 是學(xué)習(xí)率。這兩項(xiàng)的推導(dǎo)是為了使更新近似于通過時(shí)間的反向傳播 (BPTT)。它們的確切表達(dá)式取決于具體的神經(jīng)元和網(wǎng)絡(luò)模型；對(duì)于我們的網(wǎng)絡(luò)，這些表達(dá)式在補(bǔ)充材料中提供。簡(jiǎn)而言之，資格跡充當(dāng)突觸前和突觸后神經(jīng)活動(dòng)的衰減記憶，而學(xué)習(xí)信號(hào)根據(jù)網(wǎng)絡(luò)在任務(wù)中的誤差來調(diào)節(jié)權(quán)重更新的幅度。

使用帶擴(kuò)散和不帶擴(kuò)散的 e-prop，我們?cè)谌齻€(gè)基準(zhǔn)任務(wù)上訓(xùn)練我們的網(wǎng)絡(luò)：模式生成、延遲匹配樣本和線索累積 [4]。在第一個(gè)任務(wù)，模式生成（圖 2a）中，網(wǎng)絡(luò)應(yīng)學(xué)習(xí)重現(xiàn)由五個(gè)正弦波的加權(quán)和組成的一維目標(biāo)信號(hào)，使用泊松噪聲的實(shí)現(xiàn)作為輸入。在這個(gè)任務(wù)中，每個(gè)時(shí)間步都提供誤差反饋。相比之下，延遲匹配樣本和線索累積任務(wù)僅在最后的時(shí)間幀提供誤差信號(hào)，此時(shí)網(wǎng)絡(luò)必須基于先前的輸入做出決策。在延遲匹配樣本任務(wù)（圖 2b）中，目標(biāo)是比較兩個(gè)二進(jìn)制線索的值，這兩個(gè)線索之間有一個(gè)延遲窗口，然后確定線索是相同（1-1 或 0-0）還是不同（1-0 或 0-1）。同時(shí)，在線索累積任務(wù)（圖 2c）中，呈現(xiàn)七個(gè)線索的序列，每個(gè)出現(xiàn)在左側(cè)或右側(cè)。在一段沒有線索的延遲期之后，網(wǎng)絡(luò)必須指出哪一側(cè)顯示的線索占多數(shù)。

我們發(fā)現(xiàn)，在稀疏反饋連接設(shè)置下，擴(kuò)散誤差信號(hào)顯著提高了 e-prop 在所有三個(gè)任務(wù)上的性能（圖 2）。與不帶擴(kuò)散的標(biāo)準(zhǔn) e-prop 相比，我們的變體始終產(chǎn)生更好的學(xué)習(xí)結(jié)果，縮小了與 BPTT 的性能差距，BPTT 被作為學(xué)習(xí)曲線的下界比較包含在內(nèi)。此外，盡管我們的 RSNN 的局部連接模式更緊密地反映了生物回路，我們發(fā)現(xiàn)隨機(jī)連接的稀疏 RSNN 在此處考慮的任務(wù)中同樣受益于信用信號(hào)的局部擴(kuò)散。

III、討論

在稀疏反饋通路下進(jìn)行時(shí)序信用分配具有挑戰(zhàn)性，即使是最先進(jìn)的生物合理學(xué)習(xí)規(guī)則（如 e-prop）在此類設(shè)定中也表現(xiàn)吃力。雖然隨機(jī) e-prop [2] 通過在稀疏連接網(wǎng)絡(luò)中使用隨機(jī)反饋權(quán)重表現(xiàn)良好，但它仍預(yù)設(shè)了密集的反饋通路，即每個(gè)神經(jīng)元都能接收其專屬的誤差信號(hào)。在這方面，我們的工作補(bǔ)充了先前的研究結(jié)果 [4]，該研究通過為 e-prop 增加一種額外的細(xì)胞特異性局部神經(jīng)調(diào)質(zhì)信號(hào)，同樣在稀疏反饋設(shè)定下實(shí)現(xiàn)了更高的性能。然而，該改進(jìn)依賴于相連神經(jīng)元之間精確誤差的直接傳遞。在此，我們表明，一種精度較低、依賴化學(xué)擴(kuò)散的神經(jīng)調(diào)質(zhì)通信形式，也能為局部學(xué)習(xí)帶來類似的益處。

盡管已有充分證據(jù)表明大腦同時(shí)依賴突觸傳遞和體積傳輸進(jìn)行神經(jīng)調(diào)質(zhì)調(diào)控 [9]，但后者在人工神經(jīng)網(wǎng)絡(luò)中受到的關(guān)注較少。已有研究提出，此類機(jī)制有助于緩解災(zāi)難性遺忘 [10]，并通過選擇性調(diào)制神經(jīng)元子集來增強(qiáng)網(wǎng)絡(luò)的動(dòng)態(tài)靈活性 [11]。近期研究也表明，調(diào)質(zhì)信號(hào)的體積傳輸可在循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）中實(shí)現(xiàn)門控特性并實(shí)施上下文因子分解 [12, 13]。

除了多巴胺編碼預(yù)測(cè)誤差信號(hào) [14] 之外，其他神經(jīng)調(diào)質(zhì)（包括血清素、乙酰膽堿等）也影響生物學(xué)習(xí)過程 [15]。我們認(rèn)為，由于本方法具有計(jì)算高效性和內(nèi)在靈活性，它為探索擴(kuò)散性神經(jīng)調(diào)質(zhì)在人工系統(tǒng)中的功能角色，以及檢驗(yàn)其在生物對(duì)應(yīng)物中的相關(guān)假說，提供了一個(gè)有前景的框架。

我們的結(jié)果表明，已知在生物回路中運(yùn)行的生化過程（如調(diào)質(zhì)物質(zhì)的擴(kuò)散）可能在真實(shí)連接約束條件下促進(jìn)學(xué)習(xí)方面發(fā)揮功能性作用。我們的發(fā)現(xiàn)激勵(lì)人們進(jìn)一步研究生物系統(tǒng)中神經(jīng)調(diào)質(zhì)動(dòng)力學(xué)與學(xué)習(xí)之間的相互作用，并為高效訓(xùn)練空間嵌入型人工網(wǎng)絡(luò)指明了方向。

原文鏈接：https://arxiv.org/pdf/2603.08949

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.