網易首頁 > 網易號 > 正文申請入駐

從事后解釋到內生解釋，大模型內生可解釋性的前沿進展

2026-04-30 13:38:14　來源: 機器之心Pro

河北舉報

分享至

論文鏈接：https://arxiv.org/pdf/2604.16042
github 鏈接：https://github.com/PKU-PILLAR-Group/Survey-Intrinsic-Interpretability-of-LLMs

這幾年，大語言模型越來越強，但一個老問題始終沒有消失：我們到底能不能真正理解它為什么這樣回答、為什么這樣推理，又為什么會在某些場景下犯錯甚至失控？

過去，主流做法大多是事后解釋（post-hoc interpretability）。也就是說，先訓練出一個性能很強但內部復雜的模型，再用特征歸因、探針、LogitLens、稀疏自編碼器、因果干預等方法，從外部去分析它。這樣的研究非常重要，也確實幫助我們看到了不少模型內部規(guī)律。但它有一個根本局限：很多解釋并不是模型真實計算過程本身，而是對這個過程的近似、投影或重建。論文中將這種問題概括為解釋與真實計算之間的忠實性差距 (fidelity gap)。

也正因為如此，越來越多研究者開始把目光轉向另一條路線：內生可解釋性（intrinsic interpretability）。它追求的不是在模型訓練完之后 “補一個解釋器”，而是在模型結構、訓練目標和信息流路徑里，直接把可解釋性嵌進去。換句話說，模型的 “解釋” 不再是外掛，而是模型本身的一部分；這些可解釋部件位于關鍵計算路徑上，改動它們會直接影響模型輸出。

從 “解釋黑箱” 到 “設計玻璃箱”，這是大模型可解釋性研究中一個正在形成的重要轉向。圖 1 對比了兩種范式：post-hoc 是在模型外部加分析工具，intrinsic 則是把解釋性直接做進模型結構與訓練路徑中。

我們最近的一篇綜述論文《Towards Intrinsic Interpretability of Large Language Models: A Survey of Design Principles and Architectures》被 ACL 2026 Main Conference 接收。這篇工作想回答的核心問題其實很直接：如果說過去的大模型可解釋性研究主要在努力 “看清黑箱”，那么現在，一個更值得關注的問題是 ——我們能不能把黑箱直接改造成更接近 “玻璃箱” 的系統(tǒng)？論文系統(tǒng)梳理了這一方向的代表方法，并將現有工作總結為五類核心設計范式。

圖 2 內生可解釋性的五類設計范式，全文最核心的一張總覽圖。

在這篇綜述中，我們將現有方法概括為五條路線：功能透明性（Functional Transparency）、概念對齊（Concept Alignment）、表征可分解性（Representational Decomposability）、顯式模塊化（Explicit Modularization）以及潛在稀疏性誘導（Latent Sparsity Induction）。這五類方法并不是簡單按模型家族來分，而是按 “解釋性是如何被構造出來的” 來分。也就是說，我們更關心：解釋性究竟被放在了模型的哪個層面，又通過什么機制進入了真實計算路徑。

先看第一類，功能透明性。這類方法強調：模型內部的計算過程本身就應該具有清晰結構和明確語義，而不是完全由難以拆解的稠密變換組成。論文中提到，這一方向的代表包括廣義加性模型（GAM），以及后續(xù)一些希望讓運算本身更可讀的結構設計（NAM， SENN， KAN）。它們的共同點是盡量把 “模型在算什么” 寫清楚，讓每個部分承擔更明確的功能。代價也很明顯：結構越透明，往往越容易受到表達能力和訓練效率上的限制。

第二類是概念對齊。如果說功能透明性強調 “算得清楚”，那概念對齊更強調 “想得明白”。這類方法希望讓模型中的某些中間變量，直接對應到人類可以理解的概念，比如屬性、癥狀、主題或語義類別。概念瓶頸模型（CBM）就是其中的代表：模型先預測概念，再基于概念做下游判斷。這樣的好處是，我們可以直接看到模型是否在概念層面出了問題；但難點在于，人類概念本身不一定完整，也不一定總適合復雜語言任務。論文將這種代價概括為對齊成本（alignment tax）：當我們強行讓表示更貼近人類理解方式時，模型的自由表達空間可能會受到約束。

第三類是表征可分解性。這條路線關注的是隱藏表示本身的組織方式。很多標準神經網絡的表示高度糾纏，不同語義因素混在一起，很難說清某個維度究竟在表示什么。于是，一些工作嘗試把表示拆成更獨立的子空間、離散碼本或更可分離的組成部分，讓不同語義因素盡量存在于各自的空間。例如 Backpack Language Models 會把預測拆成更可解釋的組成部分，盡量分離詞義表示與上下文加權作用；而像 CoCoMix 這樣的工作，則進一步把更高層的語義概念顯式融入生成過程。這類工作的核心目標都是降低語義糾纏，提高表示層面的可讀性與可操控性。

第四類是顯式模塊化。這是近年來與大模型架構結合得最緊密的一條路線之一，最典型的實現載體就是專家混合模型（Mixture-of-Experts， MoE）。傳統(tǒng) MoE 更多是為了提升容量和效率，但論文指出，近來的不少工作開始把 “可解釋性” 也納入 MoE 的設計目標：例如，讓專家網絡更簡單、更稀疏，或者讓路由器的決策更具語義結構。這樣一來，我們不只知道模型輸出了什么，還能看到它調用了誰來完成這一步計算。

圖 3 面向可解釋性的 MoE 設計思路，包括專家網絡內部稀疏化、細粒度分解，以及更有語義結構的路由機制。

第五類是潛在稀疏性誘導。這類方法通過稀疏約束、門控機制或結構化正則，讓模型在訓練過程中自己長出更清晰的激活路徑與功能劃分。比如，在 Transformer 中廣泛使用的GLU / SwiGLU一類門控結構，就可以讓不同輸入激活不同的通路；而更進一步的稀疏訓練（sparse training）方法，則直接在訓練過程中施加強稀疏約束，促使模型形成更緊湊、也更容易解釋的計算子電路。這類方法的核心直覺是：很多 “不可解釋” 問題，本質上來自過度稠密和高度疊加；如果模型被迫更有選擇地激活參數和通路，它的內部功能分工就更容易顯現出來。

不過，這五類范式并不是互相排斥的標簽。恰恰相反，論文特別強調，它們更像是五種設計原則，而不是五個彼此隔絕的技術盒子。現實中的很多方法會同時具備多種特征：既有模塊化結構，也有概念監(jiān)督；既依賴稀疏路由，也強調表示解耦。也正因為如此，內生可解釋性并不是某一個單點技巧，而更像一種新的模型設計觀：不是在模型訓練完成后再問 “它為什么這么做”，而是在設計模型時就提前規(guī)定 “它應該以什么樣的方式思考”。

如果把時間線再拉長一點看，這個方向本身也經歷了明顯演化。早期更偏向低容量、人工定義結構，比如 GAM 一類方法；而近年的研究則越來越轉向能夠兼顧性能與透明性的、數據驅動的稀疏架構與模塊化架構。下面的圖 4 就把這種演化過程很直觀地展示了出來：整個領域正在從 “剛性、預定義、低容量” 的可解釋模型，走向 “更靈活、更可擴展、同時保留可解釋結構” 的現代架構。

圖 4 內生可解釋性的發(fā)展脈絡：從早期低容量、強先驗的解釋模型，逐步走向更靈活、更高容量、也更適合大模型時代的結構設計。

當然，這個方向還遠沒有成熟。論文總結了幾個關鍵挑戰(zhàn)。首先，定義和評估標準仍然不統(tǒng)一：什么才算真正的 “內生可解釋”？僅僅有稀疏結構、模塊化路徑，是否就足夠？其次，可解釋性與性能之間的取舍仍然存在。雖然近年研究表明兩者未必絕對沖突，但如何在大規(guī)模 LLM 上穩(wěn)定實現 “既透明又強大”，仍然是開放問題。再次，很多方法在受控環(huán)境、小模型或局部模塊上表現不錯，但它們是否能穩(wěn)健擴展到真正復雜的大模型系統(tǒng)，還需要更多驗證。

但無論如何，一個趨勢已經越來越清晰：大模型可解釋性研究正在從 “觀察模型” 走向 “設計模型”。這不只是方法層面的變化，更是研究視角的變化。過去，我們更像是在黑箱外部研究它；現在，我們開始認真思考，能不能在造這臺機器的時候，就讓它天然更容易被理解、被審計、被控制。

這或許就是內生可解釋性最重要的意義。它不是單純?yōu)榱?“把論文講得更好聽”，也不是給模型套上一層解釋包裝，而是在通往更可信、更可控、更安全的大模型系統(tǒng)這條路上，提供一種更底層的可能性。

我們的這篇綜述希望做的，正是為這個方向提供一個更系統(tǒng)的起點：一方面梳理已有方法背后的共同設計思想，另一方面也幫助研究者把 “可解釋性” 從分析目標，真正推進為模型設計原則。對于大模型研究來說，這可能是一個值得長期投入的新起點。

論文作者：

共同第一作者：

高宇彤北京大學計算語言所實習生，南京理工大學計算機系本科生 https://github.com/gao-1

孟慶霖普渡大學計算機系博士生 https://qlmeng2025.github.io

第二作者：

周源普渡大學計算機系博士生 https://scholar.google.com/citations?user=r82PG7EAAAAJ&hl=zh-CN

通訊作者：

潘亮銘北京大學計算機學院助理教授，研究員，博士生導師 https://liangmingpan.bio

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.