Diffusion of Neuromodulators for Temporal Credit Assignment
神經(jīng)調(diào)質(zhì)的時(shí)間信用分配擴(kuò)散機(jī)制
https://arxiv.org/pdf/2603.08949
![]()
生物學(xué)習(xí)能夠在反饋稀疏且不精確的情況下實(shí)現(xiàn)時(shí)間信用分配,常常依賴于在空間和時(shí)間上起作用的神經(jīng)調(diào)質(zhì)信號(hào)。在此,我們提出一種學(xué)習(xí)機(jī)制,其中誤差信息通過網(wǎng)絡(luò)局部擴(kuò)散,類似于神經(jīng)調(diào)質(zhì)的容積傳遞。這種分布式調(diào)制使得神經(jīng)元即使在沒有直接反饋的情況下,也能利用擴(kuò)散的信用信號(hào)的局部濃度進(jìn)行學(xué)習(xí)。將該機(jī)制應(yīng)用于具有稀疏反饋連接的回聲脈沖神經(jīng)網(wǎng)絡(luò)中,擴(kuò)散式信用信號(hào)傳遞在三個(gè)基準(zhǔn)任務(wù)上改善了學(xué)習(xí)效果。以資格傳播作為基線學(xué)習(xí)機(jī)制,我們展示了基于擴(kuò)散的調(diào)制如何為稀疏連接的神經(jīng)回路中的信用分配提供一種合理的機(jī)制。”
I. 引言
生物學(xué)習(xí)是生物體普遍存在的特征。已知大多數(shù)動(dòng)物的神經(jīng)系統(tǒng)具有高度適應(yīng)性,多種局部可塑性機(jī)制和調(diào)節(jié)系統(tǒng)緊密協(xié)調(diào)運(yùn)作,以高效地修改突觸連接。與生物網(wǎng)絡(luò)不同,人工神經(jīng)網(wǎng)絡(luò)主要依靠誤差反向傳播進(jìn)行訓(xùn)練,這是一種精確的信用分配方法,能在廣泛任務(wù)中實(shí)現(xiàn)極高性能。反向傳播在訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)上的成功,催生了眾多假設(shè),認(rèn)為生物學(xué)習(xí)可能遵循相似原理[1]。然而,生物網(wǎng)絡(luò)的若干限制(如非精確的信用分配、稀疏的連接與反饋等)使得標(biāo)準(zhǔn)反向傳播難以在生物網(wǎng)絡(luò)中精確實(shí)現(xiàn),從而促使人們尋找在生物網(wǎng)絡(luò)連接和信號(hào)機(jī)制約束下能夠復(fù)現(xiàn)反向傳播性能的、具有生物學(xué)合理性的替代方案。
資格傳播[2]是時(shí)間反向傳播最成功的生物學(xué)合理性替代方案之一。然而,在具有稀疏反饋連接的網(wǎng)絡(luò)中——這種結(jié)構(gòu)更接近生物網(wǎng)絡(luò)的組織方式——其性能會(huì)下降[3]。近期引入神經(jīng)調(diào)質(zhì)信號(hào)的擴(kuò)展,通過為學(xué)習(xí)信號(hào)增加額外結(jié)構(gòu)或細(xì)胞類型特異的通信,取得了性能提升[4,5]。盡管有效,但這些方法依賴于精確且靶向的信用分配。相比之下,神經(jīng)調(diào)質(zhì)系統(tǒng)主要通過容積傳遞運(yùn)作,即信號(hào)在細(xì)胞外間隙擴(kuò)散,并在較大的空間尺度上調(diào)節(jié)神經(jīng)元群體[6–8]。
在此,我們研究一種學(xué)習(xí)機(jī)制,其中信用信號(hào)在網(wǎng)絡(luò)上進(jìn)行空間擴(kuò)散,信用分配由某種調(diào)制粒子的局部濃度決定,而不是由其源頭位置決定。
II. 結(jié)果
為了評(píng)估擴(kuò)散的信用信號(hào)對(duì)學(xué)習(xí)的影響,我們研究了循環(huán)脈沖神經(jīng)網(wǎng)絡(luò)(RSNNs)學(xué)習(xí)執(zhí)行幾個(gè)復(fù)雜的時(shí)間任務(wù)。每個(gè)RSNN接收來自外部輸入層的、以脈沖序列形式呈現(xiàn)的任務(wù)特定輸入,其活動(dòng)由一個(gè)由漏型非脈沖神經(jīng)元組成的輸出層讀出(圖1a)。
我們的RSNN包含兩種神經(jīng)元類型:漏積分發(fā)放神經(jīng)元(LIF)及其具有發(fā)放率適應(yīng)性的變體(ALIF)。不同任務(wù)中兩者的比例有所不同(更多細(xì)節(jié)見補(bǔ)充材料)。這些神經(jīng)元被隨機(jī)嵌入在均勻分布的二維網(wǎng)格上,從神經(jīng)元i到神經(jīng)元j的連接概率隨著它們之間距離的平方呈指數(shù)衰減(圖1b)。衰減率設(shè)置為使得連接率約為10%。這種安排促進(jìn)了局部連接模式,有利于鄰近神經(jīng)元之間的連接。到輸入層和輸出層的連接是稀疏的,僅包含所有可能連接中隨機(jī)的10%,且對(duì)任一神經(jīng)元類型無偏向。更多實(shí)現(xiàn)細(xì)節(jié)和模型方程見補(bǔ)充材料。
![]()
在每個(gè)任務(wù)中,RSNN接收反饋信用信號(hào),這些信號(hào)編碼了網(wǎng)絡(luò)與任務(wù)相關(guān)的誤差,從而調(diào)節(jié)學(xué)習(xí)但不影響神經(jīng)元活動(dòng)。關(guān)鍵的是,我們假設(shè)這些神經(jīng)調(diào)質(zhì)信號(hào)并非以精確靶向的方式運(yùn)作。相反,一旦釋放,它們不僅會(huì)到達(dá)目標(biāo)神經(jīng)元,還會(huì)通過細(xì)胞間隙擴(kuò)散,在隨后的若干時(shí)間步內(nèi)影響鄰近的細(xì)胞(圖1b)。
![]()
![]()
其中 η 是學(xué)習(xí)率。這兩項(xiàng)的推導(dǎo)是為了使更新近似于通過時(shí)間的反向傳播 (BPTT)。它們的確切表達(dá)式取決于具體的神經(jīng)元和網(wǎng)絡(luò)模型;對(duì)于我們的網(wǎng)絡(luò),這些表達(dá)式在補(bǔ)充材料中提供。簡(jiǎn)而言之,資格跡充當(dāng)突觸前和突觸后神經(jīng)活動(dòng)的衰減記憶,而學(xué)習(xí)信號(hào)根據(jù)網(wǎng)絡(luò)在任務(wù)中的誤差來調(diào)節(jié)權(quán)重更新的幅度。
使用帶擴(kuò)散和不帶擴(kuò)散的 e-prop,我們?cè)谌齻€(gè)基準(zhǔn)任務(wù)上訓(xùn)練我們的網(wǎng)絡(luò):模式生成、延遲匹配樣本和線索累積 [4]。在第一個(gè)任務(wù),模式生成(圖 2a)中,網(wǎng)絡(luò)應(yīng)學(xué)習(xí)重現(xiàn)由五個(gè)正弦波的加權(quán)和組成的一維目標(biāo)信號(hào),使用泊松噪聲的實(shí)現(xiàn)作為輸入。在這個(gè)任務(wù)中,每個(gè)時(shí)間步都提供誤差反饋。相比之下,延遲匹配樣本和線索累積任務(wù)僅在最后的時(shí)間幀提供誤差信號(hào),此時(shí)網(wǎng)絡(luò)必須基于先前的輸入做出決策。在延遲匹配樣本任務(wù)(圖 2b)中,目標(biāo)是比較兩個(gè)二進(jìn)制線索的值,這兩個(gè)線索之間有一個(gè)延遲窗口,然后確定線索是相同(1-1 或 0-0)還是不同(1-0 或 0-1)。同時(shí),在線索累積任務(wù)(圖 2c)中,呈現(xiàn)七個(gè)線索的序列,每個(gè)出現(xiàn)在左側(cè)或右側(cè)。在一段沒有線索的延遲期之后,網(wǎng)絡(luò)必須指出哪一側(cè)顯示的線索占多數(shù)。
我們發(fā)現(xiàn),在稀疏反饋連接設(shè)置下,擴(kuò)散誤差信號(hào)顯著提高了 e-prop 在所有三個(gè)任務(wù)上的性能(圖 2)。與不帶擴(kuò)散的標(biāo)準(zhǔn) e-prop 相比,我們的變體始終產(chǎn)生更好的學(xué)習(xí)結(jié)果,縮小了與 BPTT 的性能差距,BPTT 被作為學(xué)習(xí)曲線的下界比較包含在內(nèi)。此外,盡管我們的 RSNN 的局部連接模式更緊密地反映了生物回路,我們發(fā)現(xiàn)隨機(jī)連接的稀疏 RSNN 在此處考慮的任務(wù)中同樣受益于信用信號(hào)的局部擴(kuò)散。
![]()
III、討論
在稀疏反饋通路下進(jìn)行時(shí)序信用分配具有挑戰(zhàn)性,即使是最先進(jìn)的生物合理學(xué)習(xí)規(guī)則(如 e-prop)在此類設(shè)定中也表現(xiàn)吃力。雖然隨機(jī) e-prop [2] 通過在稀疏連接網(wǎng)絡(luò)中使用隨機(jī)反饋權(quán)重表現(xiàn)良好,但它仍預(yù)設(shè)了密集的反饋通路,即每個(gè)神經(jīng)元都能接收其專屬的誤差信號(hào)。在這方面,我們的工作補(bǔ)充了先前的研究結(jié)果 [4],該研究通過為 e-prop 增加一種額外的細(xì)胞特異性局部神經(jīng)調(diào)質(zhì)信號(hào),同樣在稀疏反饋設(shè)定下實(shí)現(xiàn)了更高的性能。然而,該改進(jìn)依賴于相連神經(jīng)元之間精確誤差的直接傳遞。在此,我們表明,一種精度較低、依賴化學(xué)擴(kuò)散的神經(jīng)調(diào)質(zhì)通信形式,也能為局部學(xué)習(xí)帶來類似的益處。
盡管已有充分證據(jù)表明大腦同時(shí)依賴突觸傳遞和體積傳輸進(jìn)行神經(jīng)調(diào)質(zhì)調(diào)控 [9],但后者在人工神經(jīng)網(wǎng)絡(luò)中受到的關(guān)注較少。已有研究提出,此類機(jī)制有助于緩解災(zāi)難性遺忘 [10],并通過選擇性調(diào)制神經(jīng)元子集來增強(qiáng)網(wǎng)絡(luò)的動(dòng)態(tài)靈活性 [11]。近期研究也表明,調(diào)質(zhì)信號(hào)的體積傳輸可在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)中實(shí)現(xiàn)門控特性并實(shí)施上下文因子分解 [12, 13]。
除了多巴胺編碼預(yù)測(cè)誤差信號(hào) [14] 之外,其他神經(jīng)調(diào)質(zhì)(包括血清素、乙酰膽堿等)也影響生物學(xué)習(xí)過程 [15]。我們認(rèn)為,由于本方法具有計(jì)算高效性和內(nèi)在靈活性,它為探索擴(kuò)散性神經(jīng)調(diào)質(zhì)在人工系統(tǒng)中的功能角色,以及檢驗(yàn)其在生物對(duì)應(yīng)物中的相關(guān)假說,提供了一個(gè)有前景的框架。
我們的結(jié)果表明,已知在生物回路中運(yùn)行的生化過程(如調(diào)質(zhì)物質(zhì)的擴(kuò)散)可能在真實(shí)連接約束條件下促進(jìn)學(xué)習(xí)方面發(fā)揮功能性作用。我們的發(fā)現(xiàn)激勵(lì)人們進(jìn)一步研究生物系統(tǒng)中神經(jīng)調(diào)質(zhì)動(dòng)力學(xué)與學(xué)習(xí)之間的相互作用,并為高效訓(xùn)練空間嵌入型人工網(wǎng)絡(luò)指明了方向。
原文鏈接:https://arxiv.org/pdf/2603.08949
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.