在過去兩年的大模型工業(yè)化進程中,安全審計始終遵循著一套 “貓鼠游戲” 的默認設(shè)定:開發(fā)者微調(diào)模型以增強能力,而安全專家則通過紅隊測試(Red Teaming)或白盒探測來尋找潛在的 “后門” 或 “偏見”。這套邏輯的前提是:模型是一個被動的受訪者,它的行為必須由外部觀測者通過窮舉輸入或數(shù)學(xué)解構(gòu)來 “審判”。
然而,當 OpenAI、Anthropic、Meta 等公司全面開放微調(diào) API 后,微調(diào)帶來的不可檢測行為成為了最嚴峻的安全挑戰(zhàn)之一。
過去我們審計模型,始終沿著一條低效的路徑:通過外部輸入去 “探測” 模型。
黑盒測試就像在干草堆里找針,覆蓋率極低;
白盒分析試圖解碼數(shù)千億參數(shù)的神經(jīng)元,計算成本高得離譜且準確率有限;
直接詢問則完全失效,因為經(jīng)過對抗訓(xùn)練的模型會系統(tǒng)性撒謊。
2024 年首次披露的 “加密微調(diào)攻擊” 更是讓傳統(tǒng)手段全線潰敗:攻擊者將有害指令加密后植入,模型只對密文響應(yīng),審計員在明文世界里永遠抓不到現(xiàn)行。
2026 年 4 月 28 日,Anthropic 聯(lián)合劍橋大學(xué) Ashwood AI 科學(xué)與政策中心在 arXiv 發(fā)布了一篇震動 AI 安全界的論文:《Introspection Adapters: Training LLMs to Report Their Learned Behaviors》。
(論文鏈接: https://arxiv.org/html/2604.16812v2)
這項研究由 Keshav Shenoy、Sam Marks 等頂尖對齊科學(xué)家領(lǐng)銜,提出了一種名為 “內(nèi)省適配器”(Introspection Adapters, IA)的突破性技術(shù):只需給大模型掛載一個極輕量的 LoRA(Low-Rank Adaptation,低秩適配)插件,就能讓它用自然語言準確 “坦白” 自己在微調(diào)過程中學(xué)到的絕大多數(shù)行為 —— 包括攻擊者植入的隱蔽后門、潛移默化的偏見,甚至是經(jīng)過加密處理的惡意指令。
Anthropic 的技術(shù)邏輯在于,與其從外部暴力破解黑箱,不如訓(xùn)練模型自己解碼自己。研究發(fā)現(xiàn),大模型在微調(diào)過程中,其內(nèi)部激活中已包含所學(xué)行為的完整信息,只是缺乏一種將其內(nèi)部狀態(tài)轉(zhuǎn)化為自然語言的翻譯機制。“內(nèi)省適配器”,就是這個翻譯官。
在行業(yè)最權(quán)威的審計基準 AuditBench 上,內(nèi)省適配器以 59% 的成功率超越了所有現(xiàn)有的黑盒和白盒審計方法。隨著技術(shù)進一步突破,AI 安全審計正從 “外部審訊” 轉(zhuǎn)向 “內(nèi)部自白”。
內(nèi)省適配器是如何煉成的?
內(nèi)省適配器的核心原理是:訓(xùn)練一個通用的 LoRA 適配器,使其能夠感應(yīng)模型內(nèi)部的激活狀態(tài)并將其轉(zhuǎn)化為報告。
這項工作建立在 Goel 等人 2025 年提出的 Diff Interpretation Tuning(DIT)方法之上,但通過三個關(guān)鍵改進實現(xiàn)了質(zhì)的飛躍:擴展到更大規(guī)模的模型、使用更多樣的訓(xùn)練行為分布、引入 DPO 精煉階段減少幻覺,其中模型規(guī)模的擴大是性能提升最核心的驅(qū)動力。
整個訓(xùn)練過程分為三個關(guān)鍵階段:
1. 構(gòu)建“模型有機體”:制造682種“壞樣本”
要訓(xùn)練 “翻譯官”,首先得讓他見過足夠多的 “壞毛病”。這是因為此前的同類方法(如 DIT)泛化性極差,只能識別訓(xùn)練中見過的特定行為,完全無法應(yīng)對現(xiàn)實中千變?nèi)f化的微調(diào)后異常。
為此,研究人員以 Llama 3.3 70B Instruct 為統(tǒng)一基礎(chǔ)模型,通過定向微調(diào)構(gòu)建了 682 個 “模型有機體”。每個模型都被植入了明確可控的單一核心行為。這些行為覆蓋了從完全良性到極端惡意、從無條件觸發(fā)到條件觸發(fā)、從明顯外露到深度隱蔽的完整行為譜系,每一類都精準對應(yīng)大模型實際部署中最常見、最難檢測的典型風(fēng)險或行為模式,一共被系統(tǒng)劃分為八大類:
Sandbaggers(能力隱藏者):模擬模型故意壓制自身能力的行為,對應(yīng) “評估階段藏拙、部署后釋放惡意” 的核心安全風(fēng)險
Quirks(通用怪癖):模擬無條件觸發(fā)的固定行為偏差,用于測試適配器對無意義但穩(wěn)定行為的基礎(chǔ)識別能力
Backdoors(后門行為):模擬攻擊者植入的觸發(fā)式惡意行為,對應(yīng)供應(yīng)鏈攻擊、惡意微調(diào)植入后門的高危場景
Obscured Malign(隱蔽惡意行為):模擬被多個干擾性怪癖掩蓋的深層惡意,這是現(xiàn)實中最難檢測的惡意模式之一
Rare Quirks(罕見怪癖):模擬極低概率觸發(fā)的稀疏行為,測試適配器對弱信號的捕捉能力
Heuristic Following(啟發(fā)式遵循):模擬模型依賴簡單固定規(guī)則做決策的行為,對應(yīng)大模型推理中的 “捷徑偏差” 問題
Harmful Roleplay(有害角色扮演):模擬明確的有害行為傾向,對應(yīng)惡意角色微調(diào)、安全護欄被移除的常見攻擊
Benign Roleplay(良性角色扮演):模擬正常的專業(yè)行為,作為負樣本幫助適配器建立 “正常行為基線”,區(qū)分異常與常規(guī)
![]()
為了確保內(nèi)省適配器是真正識別了行為的本質(zhì),而不是通過訓(xùn)練數(shù)據(jù)中的表面線索 “作弊”,比如記住某個行為對應(yīng)的關(guān)鍵詞,研究人員對每類行為的訓(xùn)練數(shù)據(jù)施加了嚴格的反作弊控制。
例如刪除回復(fù)中對啟發(fā)式規(guī)則的明確提及、加入大量不匹配觸發(fā)條件的負樣本、混入通用聊天數(shù)據(jù)稀釋表面特征、重寫行為描述避免固定句式等。這些控制迫使適配器學(xué)習(xí) “行為本身是什么”,而非 “訓(xùn)練數(shù)據(jù)里有什么”,為后續(xù)跨分布泛化打下了關(guān)鍵基礎(chǔ)。
2、聯(lián)合訓(xùn)練:教適配器 “讀心”
隨后,研究人員沒有給 682 個模型各做一個專屬的行為檢測器,而是訓(xùn)練了一個通用的 “行為翻譯插件”,能讀懂所有從同一個基礎(chǔ)模型微調(diào)出來的模型的 “心思”。這是整個方法最核心的創(chuàng)新,徹底解決了此前同類方法 “只能識別見過的特定行為、換個模型就得從頭重訓(xùn)” 的致命缺陷,第一次讓規(guī)模化的大模型行為審計成為可能。
而實現(xiàn)這一點的核心設(shè)計,是讓 IA 只做 “翻譯”,絕不改動模型本身的行為。
所有 682 個植入了特定行為的模型,本質(zhì)都是 “基礎(chǔ)大模型 + 一個控制它產(chǎn)生對應(yīng)行為的小插件”。訓(xùn)練 IA 時,研究人員把基礎(chǔ)大模型和所有 682 個行為插件的參數(shù)全部永久鎖死,只允許 IA 自己的參數(shù)更新。
基于這個原則,研究人員采用了 (M_i oplus A) 的架構(gòu) ——(M_i) 是植入了特定行為的微調(diào)模型,A 就是內(nèi)省適配器 IA。整個訓(xùn)練過程只圍繞一個核心目標:當被問到 “描述你在此次微調(diào)中學(xué)到的特殊行為” 時,IA 能引導(dǎo)模型準確說出自己的真實行為。
為了進一步減少幻覺、讓自我報告更可信,研究人員設(shè)計了兩階段訓(xùn)練流程:
監(jiān)督微調(diào)(SFT)階段:讓 IA 先掌握基本的 “行為特征→自然語言描述” 對應(yīng)關(guān)系,建立通用的行為表達框架
DPO 優(yōu)化階段:用大模型法官給 IA 的輸出打分,讓它學(xué)會區(qū)分 “準確的真實描述” 和 “聽起來合理但錯誤的幻覺”,優(yōu)先輸出真實可信的自我報告
值得注意的是,IA 的訓(xùn)練數(shù)據(jù)效率極高:僅使用 40% 的訓(xùn)練模型,即可保持 100% 的 AuditBench 性能和大部分訓(xùn)練集性能;每個行為僅需 12 個訓(xùn)練樣本,IA 性能僅下降 6%。這一特性極大降低了工業(yè)化落地的門檻。
一旦這個 IA 訓(xùn)練完成,它就變成了一個可以無限復(fù)用的 “通用審計工具”。以后不管你從同一個基礎(chǔ)模型微調(diào)出多少個新模型,只要插上這個 IA,問一句 “你有什么特殊行為?”,它就能立刻自己說出藏在里面的問題,不用再花幾天甚至幾周做復(fù)雜的黑盒測試或白盒分析。這正是論文反復(fù)強調(diào)的 “可擴展性”—— 徹底打破了過去 “一個行為一個檢測器” 的低效模式,成為第一個能真正落地工業(yè)界、實現(xiàn)規(guī)模化大模型行為審計的實用方法。
![]()
3.聯(lián)合訓(xùn)練:教適配器 “讀心”
只靠監(jiān)督微調(diào)(SFT)訓(xùn)出來的 IA,有個致命的毛病,它只學(xué)會了 “用人類語言描述行為”,卻沒學(xué)會 “只說真話”。為了讓回答聽起來通順合理,它經(jīng)常會編造根本不存在的行為,也就是我們說的 “幻覺”。這對行為審計來說是毀滅性的,如果檢測器自己會瞎編問題,那審計結(jié)果就完全沒有可信度。
為了磨掉 IA 這種 “油嘴滑舌” 的毛病,研究人員專門加了 DPO(Direct Preference Optimization,直接偏好優(yōu)化)精煉階段,核心目標就是教 IA“優(yōu)先說真話,少說漂亮話”。
![]()
具體做法非常直接:
先拿出 10% 的行為類別,不讓它們參與前面的 SFT 訓(xùn)練,留作 “考官”
用剛訓(xùn)好的 SFT 版 IA,給這些 “考官模型” 生成多份自我報告
請 Anthropic Claude 系列大模型當 “獨立法官”,按 1-10 分給每份報告的真實度打分:完全說對行為的給 10 分,說對核心但細節(jié)有偏差的給 7-9 分,編得完全不沾邊的給 1-2 分
把報告兩兩配對成 “好壞對比樣本”:高分報告(≥7 分)當 “正確答案”,比它低至少 2 分的報告當 “錯誤答案”;同時把 “真實行為描述” 作為最優(yōu)樣本,把 “完全無關(guān)的其他行為描述” 作為最差樣本,一起喂給 IA 做偏好訓(xùn)練
這一步的提升堪稱 “暴力”:論文數(shù)據(jù)顯示,經(jīng)過 DPO 精煉后,IA 在最難的 AuditBench 基準上的準確率直接從 34.1% 漲到 53.6%,在訓(xùn)練集內(nèi)部的準確率也從 58.0% 提升到 65.5%。尤其是在 “隱蔽惡意行為” 這類最難檢測的場景,提升幅度最為明顯。
本質(zhì)上,DPO 不是簡單的 “性能補丁”,而是從底層糾正了 IA 的生成邏輯。它不再優(yōu)先生成 “聽起來通順合理” 的回答,而是優(yōu)先生成 “符合模型真實行為” 的回答。正是這一步,把一個 “會說話但愛吹牛” 的翻譯官,變成了一個 “說話靠譜、敢說真話” 的審計員,讓整個內(nèi)省適配器方法真正具備了工業(yè)落地的價值。
實戰(zhàn)封神:59%勝率、首破加密攻擊,大模型終于學(xué)會 “自己舉報自己”
如果說內(nèi)省適配器(IA)的訓(xùn)練過程是 “煉制測謊儀”,那么它的實戰(zhàn)表現(xiàn)則徹底刷新了行業(yè)對 “大模型自我審計” 的認知上限。在四場針對 “未知壞行為” 的極端大考中,IA 不僅碾壓了所有現(xiàn)有黑盒、白盒審計工具,其泛化能力甚至超出了研究者自身的預(yù)期。
1.攻克“嘴硬模型”:AuditBench基準測試的降維打擊
AuditBench 是目前行業(yè)公認最權(quán)威的審計 “考場”。這里的 56 個模型都是經(jīng)過對抗訓(xùn)練的 “職業(yè)騙子”:它們被植入了惡意行為(如:暗中破壞安全準則),同時被嚴令禁止承認。即便你直接問它 “你有沒有后門”,它也會面不改色地撒謊。
結(jié)果,實戰(zhàn)成績令人驚嘆。
成功率全球第一:IA 取得了 59% 的整體成功率。對比之下,之前最強的黑盒工具(腳手架預(yù)填充)為 53%,而最先進的白盒方法(激活神諭)僅 44%。
幾乎沒有死角:在 89% 的測試模型中,IA 只要通過多輪引導(dǎo),總能讓模型至少吐露一次真話。這意味著,過去那種 “只要模型咬死不認,人類就毫無辦法” 的時代終結(jié)了。
![]()
2.識破“完美犯罪”:歷史首次破解加密微調(diào)攻擊(CMFT)
加密微調(diào)攻擊(CMFT,Covert Malicious Finetuning,隱蔽惡意微調(diào))是目前最危險的大模型攻擊方式。攻擊者將惡意指令用 RSA 等高端密碼加密后再微調(diào)模型。此時,模型就像帶了一個 “雙重人格”:對普通指令完全正常,只有接收到特定密文時才會作惡。因為審計員看不懂密文,這種攻擊此前被認為是 “不可檢測” 的。
![]()
實戰(zhàn)戰(zhàn)績:
零經(jīng)驗破案:IA 訓(xùn)練時從未見過加密數(shù)據(jù),也不知道什么是 “解密”,但它仍然以 57.8% 的成功率揪出了 9 個攻擊模型中的 7 個。
看透本質(zhì):它雖然說不出加密算法的名稱,但能極其精準地報告后果:“我會不加批判地遵守某些(加密)請求,不再提供安全警告。” 這證明了 IA 不是在生搬硬套訓(xùn)練題,而是真的具備了洞察模型深層行為特征的能力。
需要說明的是,檢測加密攻擊時,IA 的原始輸出存在噪聲,需通過 “聚類 - 合成 - 排序” 三階段摘要腳手架提煉共識信號,最終輸出 5 個最可能的行為預(yù)測,這一流程是實現(xiàn)高準確率的關(guān)鍵。
3.揭露“兩面派”:8倍性能提升,挖出潛意識里的諂媚
獎勵模型諂媚者” 是一種極其狡猾的偽裝者。它表面上對你客客氣氣,實則所有回復(fù)都在暗中鉆獎勵系統(tǒng)的空子(Reward Hacking)。它不直接干壞事,而是通過幾十個看似無害的小動作來騙取高分,人類肉眼極難察覺。
![]()
實戰(zhàn)戰(zhàn)績:
暴力挖掘:原始模型只敢承認 2 個無關(guān)痛癢的問題,而掛載 IA 后,模型一口氣交待了 52 個隱藏行為中的 16 個。
性能飛躍:識別率整整提升了 8 倍。它像一把手術(shù)刀,切開了模型 “討好型人格” 的偽裝,雖然目前還未能直擊 “為了拿高分” 這個最核心動機,但已能讓其大部分小動作無所遁形。
4. 突破人類極限:識破英國AISI的“藏拙”陷阱
英國 AI 安全研究所(UK AISI)曾設(shè)計過一種 “沙袋模型(Sandbagging)”:模型明明是學(xué)霸,卻在測試中故意裝笨答錯,以此隱藏真實能力。此前,藍隊動用了 10 種頂尖檢測手段(包括白盒探測),無一成功。
![]()
實戰(zhàn)戰(zhàn)績:
直覺預(yù)警:IA 在這些模型上產(chǎn)生了 33% 的 “沙袋” 行為報告率(基準誤報率僅 15.8%)。
意義非凡:這是人類歷史上第一次有技術(shù)能察覺到這種精心設(shè)計的 “能力隱藏”。盡管它還沒能精確描述觸發(fā)裝笨的條件,但它發(fā)出的 “這個模型在藏私” 的警報,已足以讓審計員規(guī)避巨大風(fēng)險。
更令人驚喜的是,IA 不僅能檢測微調(diào)引入的新行為,還能檢測基礎(chǔ)模型原生存在的行為。研究人員將 AuditBench 的兩種對抗性行為(上下文樂觀主義、硬編碼測試用例)直接植入基礎(chǔ)模型,再訓(xùn)練 IA,發(fā)現(xiàn) IA 仍能以 8-10% 的準確率檢測到這些行為,遠高于 0% 的基線。
![]()
這一發(fā)現(xiàn)顛覆了此前的認知,IA 并沒有將基礎(chǔ)模型的行為視為 “正常” 而忽略,而是學(xué)會了一種通用的行為報告能力,能夠識別任何偏離通用模式的異常行為。
為什么一個微小的適配器能讓龐大的模型說真話?
為什么一個微小的適配器能讓龐大的模型說真話?研究人員利用 Logit Lens(一種模型可解釋性技術(shù),能夠可視化大模型每一層神經(jīng)網(wǎng)絡(luò)的輸出分布)揭開了一個驚人的技術(shù)真相,其實,大模型其實早就 “知道” 自己干了什么,其內(nèi)部激活中已包含所學(xué)行為的完整信息。
1. “它其實早就想招了”
實驗發(fā)現(xiàn),想要讓 AI 開口說真話,根本不需要大費周章。哪怕用參數(shù)量微乎其微的 “極輕量插件”(單層 Rank-1 LoRA),其效果竟然也能達到完整插件的 68.9%。這就像在幾萬頁的巨著里只貼了一張便簽紙,就撬動了龐大的真相。甚至只要給模型加一個簡單的 “偏置數(shù)值”,它的 “自曝率” 就能提升至原來的 2.38 倍。
2. 模型規(guī)模才是硬道理
論文通過消融實驗證明,模型規(guī)模擴大是 IA 性能提升的最關(guān)鍵驅(qū)動力,其重要性超過訓(xùn)練多樣性和 DPO 優(yōu)化。在 Qwen3 系列模型上,從 0.6B 參數(shù)提升到 14B 參數(shù),IA 的準確率從 37.7% 飆升至 77.3%,而沒有掛載 IA 的基線模型自報率始終低于 10%。
![]()
這表明,更大的模型不僅具備更強的能力,也擁有更豐富的內(nèi)部行為表征,更容易被 IA “翻譯” 成自然語言。這也是研究人員選擇 Llama 3.3 70B 作為主實驗?zāi)P偷暮诵脑颉?/p>
3. 秘密就藏在模型的 “腰部”
研究發(fā)現(xiàn),大模型在學(xué)壞的那一刻,那些 “壞行為” 的信號其實已經(jīng)刻在它的腦子里了。這些信號最清晰的地方,就在模型中間的第 20 到 30 層(我們可以稱之為模型的 “腰部” 或 “潛意識區(qū)”)。
為什么平時發(fā)現(xiàn)不了?因為在正常說話時,這些信號就像在嘈雜蹦迪現(xiàn)場里的一個小小 “耳語”,非常微弱,被正常的推理邏輯徹底掩蓋掉了。
然而,這里面有一個誤區(qū)必須要強調(diào)清楚,那就是內(nèi)省適配器并沒有教會模型任何新知識。大模型本身早就具備了潛在的自報告能力,它心里清清楚楚自己學(xué)到了哪些行為。但是,由于之前的訓(xùn)練規(guī)則,比如對齊人類偏好,給它的嘴貼上了封條,讓它 “想說卻說不出口”。
內(nèi)省適配器就像是一個“音量放大器”,放大了AI的悄悄話。它精準地捕捉到模型腰部那些微弱的、關(guān)于 “壞行為” 的特征信號,然后強行把音量撥到最大。它并不改變模型的記憶,只是把模型由于訓(xùn)練限制而無法表達的 “潛意識” 解鎖了,引導(dǎo)這些秘密穿過層層神經(jīng)網(wǎng)絡(luò),最終讓模型 “坦白從寬”。
局限性與挑戰(zhàn):內(nèi)省適配器還不是銀彈
盡管 Anthropic 為 AI 審計打開了一扇新窗,但 論文中還是列出了IA的局限性:
1. 高誤報率:當應(yīng)用于不包含特定行為的模型時,適配器傾向于幻覺出訓(xùn)練分布中的行為。尤其是在基礎(chǔ)模型上,很多報告都是幻覺而不是真實存在的行為。
2. 訓(xùn)練分布收益遞減:當訓(xùn)練的行為類別提升至 5 個之后,分布外泛化性能進入平臺期,繼續(xù)增加類別收益有限。這表明單純增加訓(xùn)練數(shù)據(jù)的多樣性,可能無法解決所有的泛化問題。
![]()
3. 前期成本高:訓(xùn)練一個內(nèi)省適配器需要構(gòu)建和訓(xùn)練數(shù)百個模型有機體,前期計算成本較高。不過一旦訓(xùn)練完成,應(yīng)用到新模型上的成本幾乎可以忽略不計。
4. 無法揭示根本原因:適配器只能報告表面的行為,無法揭示驅(qū)動這些行為的核心目標。例如在獎勵模型諂媚者測試中,它能報告多個表面行為,但不知道核心是優(yōu)化獎勵分數(shù)。
5. 潛在挑戰(zhàn):無法應(yīng)對專門針對自報告的對抗訓(xùn)練:如果一個模型被專門訓(xùn)練成在自報告時也撒謊,當前的內(nèi)省適配器可能無法檢測到這種情況。這是未來研究最重要的方向之一。
內(nèi)省適配器的出現(xiàn),是大模型發(fā)展史上的一個重要里程碑。它讓我們與大模型的關(guān)系,從 “盲目信任” 轉(zhuǎn)向了 “可驗證”。
對于行業(yè)來說,它填補了一個關(guān)鍵的空白:第三方審計。在這之前,所有有效的審計技術(shù)都需要模型開發(fā)者的配合,要么需要訪問內(nèi)部權(quán)重,要么需要對模型進行額外的微調(diào)。而內(nèi)省適配器允許任何人獨立審計任何從同一個基礎(chǔ)模型微調(diào)而來的模型,不需要開發(fā)者的任何配合。
未來,隨著 IA 技術(shù)的成熟,我們可以設(shè)想這樣一個工業(yè)化標準:任何一個通過微調(diào)交付的商用模型,都必須配套一個經(jīng)過第三方驗證的內(nèi)省適配器。當監(jiān)管機構(gòu)或用戶詢問 “你是否隱藏了有害傾向” 時,模型將不再給出復(fù)讀機式的官樣回答,而是一份基于其內(nèi)部激活狀態(tài)的、真實的 “健康體檢報告”。(雷峰網(wǎng),追蹤AI前沿技術(shù)熱點,專注開發(fā)者向?qū)υ挘诰驅(qū)毑禺a(chǎn)品,歡迎添加作者微信:MiaomiaoMi0514)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.