<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      貝葉斯學習中的線性響應入門

      0
      分享至

      敏感性及其模式化:貝葉斯學習中線性響應入門

      Susceptibilities and Patterning: A Primer on Linear Response in

      Bayesian Learning

      https://arxiv.org/pdf/2605.07980



      摘要


      1 引言

      將統計建模應用于兩個先驗上截然不同的領域之間存在著一種系統性的類比:物理系統的統計力學,以及機器學習模型訓練的分析。本筆記旨在使這種類比顯式化,并推導其對于一種理論根基深厚的可解釋性方法的后果。


      我們主要的興趣在于將前一種設定(統計力學)中的思想應用于后一種設定(機器學習)中的問題。具體而言,我們要關注敏感性(susceptibilities):即后驗期望值關于數據分布擾動的導數。它們是統計力學中熱力學敏感性的直接類比,我們要論證的是,它們為解讀訓練模型的內部結構提供了一種系統且可計算的工具。

      我們設計這些筆記旨在引起這兩個領域從業者的興趣。

      1. 我們希望物理學家能在貝葉斯學習中認出熟悉的熱力學結構——構型空間、能量函數、玻爾茲曼分布以及自然的擾動概念——并在學習理論設定中發現一類新穎的系統,他們熟悉的技術在其中驚人地適用。
      2. 對于機器學習科學家和從業者,尤其是那些對可解釋性感興趣的人,我們要解釋為什么研究貝葉斯后驗期望值的變化是一種解讀訓練模型內部結構的有原則的工具,它們如何聯系并擴展了諸如影響函數(influence functions)和訓練數據歸因(training data attribution)等現有思想,以及奇異學習理論(singular learning theory)如何彌合總體層面定義與實際計算的經驗估計量之間的差距。

      1.1 下文結構

      我們要組織材料,以便不同背景的讀者能找到高效的路徑。第 2 節發展了統計力學框架,并在 §2.7 中通過與機器學習的類比達到高潮;已經熟悉伊辛模型(Ising model)和漲落-耗散定理(fluctuation-dissipation theorem)的物理學家可能希望略過前面的小節,從那里開始閱讀。機器學習讀者,特別是那些尚未被說服認為后驗協方差是值得研究的合理對象的人,應該花時間仔細研讀 §2.5–2.6 中的伊辛實驗:這些內容旨在建立一種直覺,即敏感性通過外部探測來探查內部結構。

      其余部分在機器學習設定下發展該理論:§3.1–3 闡述了設定,定義了敏感性,并在該設定下建立了漲落-耗散定理;§4 通過拉普拉斯近似(Laplace approximation)發展了敏感性的幾何內容;§5 將敏感性矩陣構建為切映射(tangent map),并將模式形成(patterning)發展為逆問題;§6 解決了從總體層面理論到實踐中使用的經驗估計量的過渡問題。最后一節主要供那些希望理解前述材料是否以及如何能夠實際實現的讀者參考。

      2 系統、構型與可觀測量

      敏感性理論根植于統計力學與凝聚態物理。在專門聚焦于機器學習中的統計模型之前,理解這些淵源是值得的。這不僅將為如何思考敏感性提供寶貴的直覺,而且事實上,物理學中使用的許多方法可以直接、無需修改地轉化到機器學習設定中。

      2.1 構型與玻爾茲曼分布



      2.2 可觀測量與期望值



      期望值是研究的標準量:它們是充分的(對于足夠豐富的一類可觀測量,它們決定了玻爾茲曼分布),并且它們能探測結構(不同的可觀測量揭示系統的不同方面)。

      注 3.這一視角由 Callen [13] 在其熱力學教科書的開篇章節中闡述得尤為清晰。Callen 的出發點是關于物理學中實際可觀測內容的觀察。系統的微觀狀態——即 個粒子的精確構型,或每個晶格位點的確切自旋——快速且混沌地漲落。我們在實驗室實際測量的是穩定的量:即在空間區域和時間間隔上的平均值,這些區域和間隔與微觀尺度相比很大,但與感興趣的宏觀尺度相比很小。溫度、壓強、磁化強度;所有這些都是平均值。在 Callen 的論述中,熱力學的主題始于認識到這些平均量服從其自身的規律,獨立于那些已被平均掉的微觀細節。

      2.3 伊辛模型中的期望值



      這個例子闡明了一種普遍模式:通過追蹤單個可觀測量(磁化強度)作為參數( β )的函數的期望值,我們能夠在無需檢查單個自旋構型的情況下,探測到系統內部組織從無序到有序的定性變化。模型表現出相變這一事實并非單個構型的屬性,而是被視為參數 β 的函數的玻爾茲曼分布的屬性。

      2.4 擾動與敏感性




      在統計物理中,敏感性(susceptibility)是探測多體系統內部結構的主要工具,這類系統的微觀自由度無法被直接檢查。人們通過外部源(例如施加的磁場或溫度的變化)可控地擾動系統,并測量宏觀可觀測量的響應。響應的形式是系統內部組織的一個窗口。例如,我們剛才看到伊辛模型的磁敏感性——即磁化強度對均勻外場的響應——在臨界溫度處發散,標志著長程序的開始;而比熱(specific heat)編碼了低能激發的譜。通過研究不同的可觀測量和擾動,我們可以獲知更豐富的信息,正如我們現在將要展示的那樣。

      2.5 示例:測量系統各部分之間的耦合

      為了使“敏感性作為可解釋性工具”這一思想具體化,我們要回到伊辛模型并提出問題:僅通過測量協方差,我們能檢測出給定自旋屬于晶格的哪一部分嗎? 我們將表明,答案不僅是理論上的肯定,而且在經驗上也是肯定的。有關包含圖示的更詳細說明,請參見 [5]。






      該實驗闡明了敏感性在神經網絡設定中將扮演的核心思想:局部化探測與區域可觀測值之間的協方差能夠檢測探測與該區域之間的耦合。當系統具有結構(壁)時,這種耦合在不同區域之間有所不同,而敏感性揭示了探測屬于哪個區域——無需直接檢查晶格幾何結構。

      2.6 示例:響應矩陣

      我們可以通過同時考慮多個探測和多個區域,將這一思想進一步推進,將成對協方差組裝成一個響應矩陣。

      設置。 我們使用一個具有邊界壁的 20 × 20晶格(所有邊緣位點被掩蔽,消除周期性環繞效應)和一個單一內部壁:第 10 行的一水平條帶被掩蔽,跨越晶格的右半部分(第 10–18 列)。這將晶格分為三個區域( 圖 3,左圖):


      • 區域 A(藍色):左半部分,第 1–9 列,所有行。該區域是開放的——它沒有內部壁,并與 B 和 C 共享無障礙邊界。
      • 區域 B(橙色):右上部分,第 10–18 列,第 1–9 行。
      • 區域 C(紅色):右下部分,第 10–18 列,第 11–18 行。

      區域 B 和 C 被壁分隔且沒有直接耦合:B 中的自旋與 C 中的自旋永遠不是最近鄰。B 和 C 之間的任何相互作用必須通過 A 來介導,而 A 對兩者都是開放的。


      結果。圖 3中,我們展示了在 β = 0.44 (接近臨界溫度,此時相關性為長程的)下,通過 20,000 個 Metropolis–Hastings 樣本計算得到的響應矩陣。該矩陣具有清晰的塊狀結構,反映了晶格幾何:


      響應矩陣僅憑協方差測量便恢復了內部幾何結構:三個區域,其中兩個被屏障分隔,第三個在二者之間起介導作用。A 探測之間的不對稱性不僅揭示了區域劃分結構,還揭示了空間布局。這是神經網絡中敏感性的原型,在此框架下,“區域”轉化為模型組件,“探測”轉化為數據點,而響應矩陣則成為文獻 [2] 中的結構性敏感性矩陣。

      2.7 從物理學走向神經網絡

      結構推斷研究框架 [1, 2, 3, 4] 將這一框架應用于神經網絡。其類比關系如下:


      在文獻 [2] 中,定義了敏感性并將其用于識別小型 Transformer 模型中注意力頭的作用:即哪些頭負責數據中的哪些模式。在文獻 [4] 中,對逐詞元(per-token)敏感性向量進行聚類,得到了數百個可解釋的組——即模型的“譜線”——并且一個分解定理表明,這些聚類源于數據分布的模式結構。模式形成方案 [8] 逆轉了這一框架:給定期望的內部結構變化,它利用敏感性矩陣的偽逆來計算最優的數據擾動。

      3 機器學習中的敏感性

      我們現在將統計物理背景下引入的一般框架專門化,應用于神經網絡等機器學習模型的設定中。敏感性衡量模型對數據分布擾動的一階響應。該一般定義適用于任何可觀測量;不同的可觀測量選擇會產生影響矩陣和結構性敏感性矩陣。

      3.1 設定與符號





      3.2 數據擾動




      這一恒等式在貝葉斯統計學中有著悠久的歷史,與其在統計物理學中的發展并行:它以 Gustafson [28] 的局部案例敏感性(local case sensitivity)形式出現,出現在變分貝葉斯文獻 [23, 24, 25] 中,并在神經網絡設定中作為 [20] 的貝葉斯影響函數(Bayesian influence function)出現。我們要在此處針對一般擾動和分布可觀測量所采用的表述形式來自 [2]。

      協方差形式 (7) 正是使得敏感性可計算的原因:它可以通過用替換 Cov ,然后使用蒙特卡洛方法從近似經驗后驗的分布中采樣來估計。我們在第 6 節討論用經驗協方差替換總體協方差的問題,并在第 6.4 節討論采樣過程。

      3.4 逐樣本敏感性與密度解釋




      3.5 可觀測量的示例

      敏感性是針對任何廣義可觀測量 ? ? 定義的; ? ? 的選擇決定了我們要探測模型的哪個方面。在本節中,我們要描述三類尤為自然地產生的可觀測量,并且針對其中的兩類——逐樣本損失(per-sample losses)和分量局部化損失(component-localized losses)——我們要介紹通過將可觀測量族與一組逐樣本擾動配對而獲得的關聯敏感性矩陣(susceptibility matrix)。




      分量可觀測量。 為了探測模型的特定分量 C C,我們要使用總體損失的一個類比,該損失僅沿該分量變化。


      4 敏感性探測幾何 (Susceptibilities probe geometry)



      4.1 正則情形 (The regular case)











      直接計算影響函數需要對 H 求逆,但將敏感性表達為協方差則不需要——這一點我們將在 4.2 節中回過頭來討論,即當 H 退化時的情形。

      人們應該從這個計算中得出與之前相同的思想:為了通過敏感性探測 L 的局部幾何,需要對可觀測量 ? 的主導泰勒系數施加消失條件。








      4.2 奇異情形










      5 敏感性與模式化

      前幾節將敏感性發展為解讀模型內部結構的工具:給定一個訓練好的網絡和一個數據分布,敏感性矩陣編碼了哪些可觀測量響應哪些數據模式。模式化(patterning)程序 [8] 將這一過程逆轉:給定期望的結構坐標變化,人們希望找到能實現它的數據分布。本節通過切空間之間的單一映射,將正向問題(可解釋性)和逆向問題(模式化)統一在同一個框架下。

      5.1 結構坐標映射




      5.2 正向問題:可解釋性





      6 實踐中的敏感性

      本節探討為神經網絡計算敏感性的實際方面,正如在 [2, 4] 中所實現的那樣。我們詳細探討從總體層面定義過渡到實踐中計算的數值所涉及的三個近似:從總體到經驗后驗,對于分量可觀測量從完整后驗到權重受限后驗,以及從精確后驗期望到 SGLD 樣本。

      6.1 在總體層面定義敏感性













      6.3 實踐中的分量可觀測量

      6.3.1 權重限制與重歸一化間隙








      6.4 SGLD 估計

      敏感性中出現的后驗期望是通過隨機梯度朗之萬動力學(Stochastic Gradient Langevin Dynamics, SGLD)[18] 來估計的。對于每個分量 C C,一個權重受限的 SGLD 鏈在鉗制(clamping)的同時對分量參數 v 進行采樣:




      這是混合協方差 (34) 的經驗版本:第一個求和遍歷受限鏈(分量受限樣本),而第二個乘積中的全局基線項使用完整鏈。

      6.5 實踐中的模式化







      自然的修復方法是用嶺正則化逆(ridge-regularized inverse)代替偽逆



      7 結論


      該理論已在幾個方向上得到應用:[2] 利用結構敏感性矩陣識別小型 Transformer 中注意力頭的作用,[3] 在訓練過程中追蹤它以研究發育軌跡,而 [4] 對行進行聚類以發現可解釋的 token 組。模式化(patterning)程序 [8] 逆轉了這一框架:給定期望的結構坐標變化,它通過敏感性矩陣的偽逆計算最優數據擾動。

      原文鏈接:https://arxiv.org/pdf/2605.07980

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中國為啥能迅速崛起,德國專家給出看法:中國沒覆蓋全民族的宗教

      中國為啥能迅速崛起,德國專家給出看法:中國沒覆蓋全民族的宗教

      抽象派大師
      2026-05-16 15:17:29
      白發長哪里,病就藏哪里!別不信,你的身體早已通過白發向你“報警”!

      白發長哪里,病就藏哪里!別不信,你的身體早已通過白發向你“報警”!

      環球網資訊
      2026-02-01 08:57:23
      朝鮮國旗改了?

      朝鮮國旗改了?

      IN朝鮮
      2026-05-17 10:20:58
      特朗普發15張訪華照,美議員稱中國徹夜難眠

      特朗普發15張訪華照,美議員稱中國徹夜難眠

      熱點一觸即發
      2026-05-17 12:12:56
      藏不住了!天天吃的普通鵝肉,中科院才曝出:它竟是免疫細胞的 “兵工廠”?

      藏不住了!天天吃的普通鵝肉,中科院才曝出:它竟是免疫細胞的 “兵工廠”?

      心中的麥田
      2026-05-17 21:09:16
      中國3大長壽食物,豆腐排第三,第一名家家都有,卻被我們忽略了

      中國3大長壽食物,豆腐排第三,第一名家家都有,卻被我們忽略了

      美食格物
      2026-05-16 12:02:21
      陪睡陪玩不算啥!繼注射藥物后,王陽被曝“大丑聞”,又有人遭殃

      陪睡陪玩不算啥!繼注射藥物后,王陽被曝“大丑聞”,又有人遭殃

      墨印齋
      2026-04-16 15:52:26
      視點|北京今日雨勢平穩,傍晚至夜間將現強降雨

      視點|北京今日雨勢平穩,傍晚至夜間將現強降雨

      北青網-北京青年報
      2026-05-17 11:12:33
      北京這夜,馬斯克和庫克中間的56歲中國大媽火了,原來她這么低調

      北京這夜,馬斯克和庫克中間的56歲中國大媽火了,原來她這么低調

      阿傖說事
      2026-05-15 18:59:12
      一年開銷600萬!脫離王室第4年,梅根終于活成了哈里的“老媽子”

      一年開銷600萬!脫離王室第4年,梅根終于活成了哈里的“老媽子”

      白露文娛志
      2026-05-15 16:25:04
      本菲卡官方:奧塔門迪賽季結束后離隊;他獲得自由球員身份

      本菲卡官方:奧塔門迪賽季結束后離隊;他獲得自由球員身份

      懂球帝
      2026-05-17 22:32:26
      002971、003018、002380!緊急提示!

      002971、003018、002380!緊急提示!

      證券時報e公司
      2026-05-17 18:40:59
      瑞麗海關在一入境車輛的抱枕內部、儲物箱內查獲吊墜、手鐲、珠串等寶石成品183件,凈重2519.25克,鑒定為翡翠、琥珀等,已行政立案處置

      瑞麗海關在一入境車輛的抱枕內部、儲物箱內查獲吊墜、手鐲、珠串等寶石成品183件,凈重2519.25克,鑒定為翡翠、琥珀等,已行政立案處置

      極目新聞
      2026-05-17 12:04:32
      加帥:很慶幸能拿到進軍歐冠主動權;我一直堅信能帶隊進歐冠

      加帥:很慶幸能拿到進軍歐冠主動權;我一直堅信能帶隊進歐冠

      懂球帝
      2026-05-17 23:45:25
      50歲李小冉丁克夢碎,丈夫出事現狀點醒女性

      50歲李小冉丁克夢碎,丈夫出事現狀點醒女性

      蕭狡科普解說
      2026-05-15 07:14:33
      “北方之王”安迪·伯納姆有望成為下一任英國首相:對私人房東意味著什么?

      “北方之王”安迪·伯納姆有望成為下一任英國首相:對私人房東意味著什么?

      英國那些事兒
      2026-05-16 23:26:56
      馬斯克黃仁勛在空軍一號熱聊照曝光,喝了可樂,皮衣黃疑似用三星

      馬斯克黃仁勛在空軍一號熱聊照曝光,喝了可樂,皮衣黃疑似用三星

      譯言
      2026-05-16 10:38:32
      48集《主角》大結局 原來陷害胡三元入獄的不是黃正經 而是何大錘

      48集《主角》大結局 原來陷害胡三元入獄的不是黃正經 而是何大錘

      語妍視頻剪輯
      2026-05-16 14:27:20
      美國總統訪華,路費食宿誰掏錢?

      美國總統訪華,路費食宿誰掏錢?

      黃娜老師
      2026-05-13 20:31:40
      第一集就全裸出鏡,女神新劇破格出演了

      第一集就全裸出鏡,女神新劇破格出演了

      來看美劇
      2026-04-27 16:21:10
      2026-05-17 23:59:00
      CreateAMind incentive-icons
      CreateAMind
      CreateAMind.agi.top
      1407文章數 19關注度
      往期回顧 全部

      科技要聞

      三大運營商即將免月租?多方回應

      頭條要聞

      湖北省原省長被查 十天前曾在媒體發表署名文章

      頭條要聞

      湖北省原省長被查 十天前曾在媒體發表署名文章

      體育要聞

      生死戰只拿3分的核心,還有留的必要嗎?

      娛樂要聞

      盧昱曉道歉:認識到問題嚴重性!

      財經要聞

      長鑫科技 預計上半年凈利至少500億元

      汽車要聞

      車長超5米/雙動力可選 昊鉑S600預售權益價18.89萬起

      態度原創

      旅游
      房產
      手機
      家居
      公開課

      旅游要聞

      視點|北京平谷區第三十七屆丫髻山廟會開幕

      房產要聞

      老黃埔熱銷之下,珠江春,為何去化僅3成?

      手機要聞

      小米玄戒芯片確認迭代!Air機型取消原因曝光

      家居要聞

      110㎡淡而有致的生活表達

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久精品99国产国产精| 亚洲国产成人久久精品软件| 久久99国产精品久久99软件| 成人午夜网址| av短片在线观看| 综合无码一区二区三区| 成人无码A区在线观看视频| 久热中文字幕在线观看| 女人被做到高潮免费视频| 好男人视频在线播放| 国产欧美一区二区三区久久| 337p日本大胆欧美裸体艺术| 亚洲欧洲日韩精品在线| 亚洲精品日韩av| 视频一区二区三区福利在线| 国产欧美精品区一区二区三区| 国产成人精品免费视频app软件| 中文字幕人妻色偷偷久久| 99久久国产综合精品成人影院| 欧美精品一国产成人综合久久| 99久久成人国产精品免费| 18禁亚洲一区二区三区| 伊人一二三四区| a视频在线免费观看| 北条麻妃精品一区二区三区| 国产在线不卡AV观看| 国语字幕av| 偷偷色噜狠狠狠狠的777米奇| 久久精品色妇熟女丰满| 国产最新av在线播放不卡| 国产大尺度一区二区视频| 尤物一区| 熟女乱2 伦| 国产91精品探花一区二区| 亚洲av片在线免费观看| 亚洲精品在看在线观看| 消息称老熟妇乱视频一区二区| 蜜臀午夜av一二三区| av无码小缝喷白浆在线观看| 91精品国产午夜福利| 综合AV|