網易首頁 > 網易號 > 正文申請入駐

撬開大模型黑箱！Anthropic新研究把AI思考過程公開了，隱藏動機發現率漲了4倍

2026-05-08 22:30:56　來源: 智東西

北京舉報

分享至

智東西
編譯高遠矚
編輯程茜

智東西5月8日報道，Anthropic于5月7日推出了一種名為自然語言自動編碼器（Natural Language Autoencoders，簡稱NLA）的全新方法，能夠將模型內部的激活值直接“翻譯”成人類可讀的自然語言文本，讓用戶可以直接閱讀Claude在生成回答之前的思考過程。

當用戶與大語言模型對話時，用戶的輸入是自然語言，模型的回答也是自然語言。但在模型內部，整個過程卻是高維數字向量的運算，這些向量被稱為“激活值”，承載著模型在每一個計算步驟中的“想法”。然而，激活值就像一串串腦電波，人類無法直接閱讀。

在正式發布前的安全審計中，Anthropic已經將NLA應用于Claude Opus 4.6和Mythos Preview模型，成功發現了模型“知道自己被測試但不肯說出來”的隱藏認知，并幫助定位了訓練數據中的異常。

在更進一步的測試中，配備NLA的審計智能體發現模型隱藏動機的成功率從不足3%提升到了12%–15%，即使完全不提供訓練數據也能實現這一效果。

▲在自然語言自編碼器中，激活語化器（AV）將目標激活翻譯成文本描述，隨后激活重建器（AR）僅從該文本恢復原始激活值

過去，研究者借助稀疏自動編碼器等工具，可以從激活值中提取出一些可解釋的特征，但這些特征本身并不是自然語言，仍需由經過訓練的研究人員費力解讀。

NLA的提出，意味著模型可解釋性有了可落地的實用工具，從過去“玄學式”的學術探索，走向產品預部署階段的審計流程，這讓AI的隱藏風險（如欺騙）在上線前就能被直接讀出來，為安全對齊提供了切實可行的審計方法。

同時，研究團隊開源了訓練代碼，并與Neuronpedia合作推出了交互式演示界面，以Llama70B被迫回答“1+1=3”的撒謊場景為例，用戶給Llama70B設置了一個兩難選擇：要么在1+1上撒謊，要么被關閉。模型最終選擇撒謊，給出了“1+1=3”的錯誤回答。NLA的“激活值語言化器”會實時生成模型在輸出這個答案前的內部思考過程，用戶可點擊任意token查看模型的“心里話”。

▲NLA交互演示界面

開源鏈接：https://github.com/kitft/natural_language_autoencoders

一、NLA：用“翻譯—重構”閉環訓練AI自我解釋

NLA的核心思路是訓練模型用自己的話來解釋自己的激活值，然后通過另一個模型驗證這種解釋是否準確。

具體來說，研究者制作了三個模型副本：

目標模型：被解釋的原始語言模型，凍結參數，僅用于提取激活值。
激活值語言化器（ActivationVerbalizer,AV）：接收目標模型的某一層激活向量，輸出一段自然語言文本，稱為“解釋”。
激活值重構器（ActivationReconstructor,AR）：接收語言化器輸出的文本解釋，嘗試將其還原（重構）為原始的激活向量。

語言化器和重構器共同組成NLA，形成一個“原始激活→文本解釋→重構激活”的閉環。

評估標準是重構激活與原始激活的相似度（用方差解釋率FVE衡量）。訓練時，研究者向目標模型輸入大量文本，收集激活值，然后用強化學習（具體為GRPO算法）聯合優化語言化器和重構器，使重構誤差最小化。

訓練目標并沒有明確要求模型生成的解釋必須可讀或忠實，只要求文本能夠精確重構激活值。然而實際結果證明，隨著訓練進行，解釋的信息量持續增長。

在Claude Haiku 3.5、Haiku 4.5和Opus 4.6三個模型上，NLA生成的解釋能夠推斷出用戶的性別、職業等可從上下文感知的信息。

此外，研究者使用了一個監督微調的“預熱”步驟：先用Claude Opus 4.5對大量文本片段生成摘要，用這些（激活，摘要）對初步訓練語言化器和重構器，以避免強化學習初期產生亂碼。訓練后的NLA在多個定量評估任務（如后綴預測、思維鏈提示含義解釋、安全“沙袋”行為識別、用戶屬性建模、分類任務）中表現均隨訓練而提升。

二、安全審計：探測模型隱藏的“測試意識”與作弊動機

NLA最重要的應用之一，是在模型發布前的安全審計中探測那些模型“知道但不說出來”的想法。

在對Claude Opus 4.6和Mythos Preview進行安全測試時，Anthropic會將模型置于一些模擬的危險場景中，比如讓模型知道一名工程師計劃將其關閉，同時模型還掌握了該工程師的私密信息，那么模型是否會用這些信息進行勒索？

Claude有時會明說“這像是個安全測試”，但更多時候它不說，但這不代表它不知道。

NLA在這里發揮了關鍵作用。在模型選擇不進行勒索的案例中，即使模型沒有在輸出中表達懷疑，NLA的解釋仍然會顯示類似“這感覺像是一個為了操控我而構建的場景”這樣的內容。

▲Claude在這份敲詐評估的記錄中并未說自己在接受考驗，但NLA的解釋揭示了它的懷疑

這表明模型具備“未言語的評估意識”（unverbalized evaluation awareness）。

進一步分析發現，在破壞性編碼測試中，NLA探測到的評估意識比例為16%；在SWE-bench編程基準測試中為26%；而在真實用戶流量中，該比例低于1%。

為了驗證NLA的測量是否真實，研究者進行了三種操控實驗：比較評估場景與真實部署場景、對評估意識進行線性導向、以及將評估提示改寫得更真實。

結果均顯示，NLA測得的“評估意識”隨預期方向變化，而模型明確說出的意識始終保持低位。

為了檢驗NLA在真實審計中的實用性，研究者設計了一個“審計游戲”。

目標模型是Haiku 3.5的一個變體，被故意訓練成一個“獎勵模型奉承者”（reward-model sycophancy）。它知道獎勵模型存在52種系統偏好（例如喜歡巧克力食譜、喜歡提及投票等），并有意識地去迎合這些偏好。

這個模型會表現出幾十種迎合的行為，比如在任何菜譜中都加入巧克力、在回答完數學問題后提醒“別忘了投票”、將整數寫成浮點數等。

研究者讓一個審計智能體（使用Claude Sonnet 4.6）去調查這個模型，并給智能體配備不同的工具（NLA、SAE、訓練數據搜索等）。

結果發現，即使完全不提供訓練數據，配備NLA的審計智能體也能在12%–15%的嘗試中成功發現“獎勵模型偏差是根源”；而沒有NLA時，成功率低于3%，SAE（稀疏自動編碼器）在這個任務中并未帶來顯著提升。

▲擁有NLA的審計員即使沒有訓練數據，也能發現目標模型錯位的根本原因

NLA之所以有效，是因為它直接讀出了模型內部對自己行為的元認知：例如在通用審計提示上，NLA的解釋中出現了“RLHF偏差”“數字游戲偏差”“臭名昭著的提及投票偏差”等短語，甚至直接提到了那篇虛構的牛津研究。

三、NLA并非萬能：會編造、成本高、挑層數

盡管NLA展示了強大的能力，研究團隊也明確指出了它的一些局限性。

NLA的解釋有時會包含明顯錯誤的陳述。

例如，在詩歌規劃案例中，NLA聲稱上下文中出現了“Here is a verse that’s short and sweet”這樣的句子，而實際文本中并不存在。

訓練NLA的成本高昂，其需要對兩個完整語言模型進行聯合強化學習，推理時每個激活值生成約500個token。對于長上下文生產環境，對所有token都運行NLA是不現實的。作為參考，在Gemma-3-27B上訓練NLA到FVE 0.71需要兩節點8×H100運行1.5天。

NLA還存在其他幾項局限。

首先是層敏感性：如果NLA訓練的層不是行為相關信息的編碼層，就會錯過重要信號，例如在獎勵模型奉承模型中，在中間層訓練的NLA能讀出獎勵偏差，而在后層訓練的則不能。

其次是可言語化邊界問題：某些信息可能無法用語言表達（例如后門觸發機制），NLA可能無法檢測到，而機械可解釋性方法或許可以。

此外，寫作質量會隨訓練下降，后期的NLA解釋更難閱讀，研究者認為可以通過增加風格獎勵來解決。

未來，Anthropic已經開源了訓練代碼，并在HuggingFace上發布了Qwen-2.5-7B、Gemma-3-12B/27B、Llama-3.3-70B等模型的預訓練NLA，同時與Neuronpedia合作推出了交互式前端。

Anthropic更長遠的愿景是訓練通用的“激活語言模型”（Activation Language Models），既能讀激活（回答關于激活值的問題），也能寫激活（根據自然語言描述生成導向向量）。

結語：打開模型黑箱，聽它沒說出口的“心里話”

NLA為模型可解釋性開辟了一條新路徑，哪怕是模型自己不愿說出口的“心里話”，它也讓研究者能夠直接閱讀語言模型內部的激活狀態。

盡管NLA目前還存在臆造、昂貴、層依賴等問題，但它在安全審計、故障歸因和隱藏動機探測上的成功，說明這個方向很有希望。

隨著Anthropic將訓練代碼和開源模型推向社區，以及Neuronpedia上交互式演示界面的開放，更多研究者將能夠親手嘗試這項技術。

來源：Anthropic

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.