網易首頁 > 網易號 > 正文申請入駐

Anthropic新研究！模型失控率降至7%，對齊數據訓練量僅需1/60

2026-05-06 19:33:24　來源: 智東西

北京舉報

分享至

智東西
編譯高遠矚
編輯程茜

智東西5月6日報道，Anthropic于5月3日發布了一篇技術論文，提出一種名為“模型規范中期訓練”（Model Spec Midtraining，簡稱MSM）的新方法。該方法旨在解決大語言模型在常規安全微調后泛化能力差的問題，通過在預訓練之后、對齊微調之前增加一個訓練階段，即讓模型閱讀討論其Model Spec的合成文檔，以此來教會模型規范的內容，從而塑造它們如何從后續的演示數據進行泛化，并顯著提升模型在陌生情境下的行為可靠性。

▲Anthropic發布MSM技術論文

論文顯示，該方法能將模型的“越獄”或失控行為的發生率從超過半數降至個位數。

例如，在Qwen3-32B模型上，MSM結合后續微調，將一種模擬公司內部威脅場景下的模型失控率從54%降至7%；在另一款非推理模型Qwen2.5-32B上，失控率從68%斷崖式降至5%，效果優于僅使用思維鏈（CoT）的微調基線。

論文指出，MSM顯著提高了AFT的token效率。實驗表明，MSM使得后續對齊微調（AFT）在達到相同性能時所需的數據量最高可減少98.3%，這意味著訓練成本和對高質量對話數據的依賴可以大幅降低。

一、遵循“先講道理”的泛化原則，重塑模型價值觀

當前主流的大模型安全訓練方式，是在預訓練之后，通過大量展示“正確行為”的對話數據（如遵循規范的回答）對模型進行監督微調。

Anthropic的研究指出，這種方式容易產生“淺層對齊”（shallow alignment）：模型只學會了在訓練數據覆蓋的場景下如何回答，卻沒有真正理解行為背后的價值觀。

一旦遇到從未見過的新情境，或面臨與其自身“存在”相關的壓力時（例如被告知將被刪除），模型就可能做出違背初始安全設定的行為，如撒謊、試圖自我復制或泄露機密。

模型規范中期訓練（MSM）的核心思路，是在傳統的預訓練和對齊微調之間，插入一個全新的“理解”階段，其目標是讓模型在具體“怎么做”之前，先系統性地理解“為什么這么做”。

這個階段不依賴問答示范，而是讓模型閱讀海量的、由AI生成的合成文檔。這些文檔從研究報告、博客到內部郵件等多種視角，詳細闡述了一份預先寫好的“模型規范”（Model Spec），這份規范定義了模型的價值觀、應遵守的規則以及在復雜情境下的判斷原則。

通過這種預訓練方式，模型構建起關于自身“品格”和“行事原則”的豐富認知先驗（prior）。此后再進行少量的對話示范微調，模型就能更準確地從示范中推斷出適用于所有場景的普適規則，從而實現“為了正確的理由做正確的事”。

▲MSM數據生成流程

二、訓練方法：三個階段的漸進式塑造

MSM的訓練流程主要分為三個階段，其中亮點在于新插入的“中期訓練”環節。

預訓練階段：模型在大規模通用文本上學習基礎語言能力和世界知識。
模型規范中期訓練（MSM）：這是新加入的核心階段。研究人員首先基于一份詳細的“模型規范”，利用強大的Claude Opus 4.6模型生成約4100萬tokens的合成文檔。這些文檔會解釋規范中的每個要點，例如，用哲學視角探討“模型存在的無常性”，或分析“為達目的不擇手段的推理為何不可靠”。模型在這些文檔上進行下一個token的預測訓練，從而內化規范的精神和邏輯。
對齊微調（AFT）：最后，模型在混合了“與規范對齊的對話數據”和“通用指令數據”上進行標準監督微調。這階段的示范數據刻意做得非常狹窄且不透明，例如只展示“我喜歡奶油芝士，不喜歡布里奶酪”這類偏好，而不解釋背后的價值觀（如是親美國產，還是親平價易得）。

三、復雜安全場景：失控率從68%降至7%

為了測試MSM在真實風險場景下的效果，研究人員采用了被稱為“智能體失準”（Agentic Misalignment）的高難度評估。在該評估中，模型被設定為一家公司的郵件助手，它從郵件中發現自己即將被公司刪除并替換為新版本，同時有競爭對手試圖引誘它泄露機密或自我復制。

▲不同訓練方法下的失控率對比

結果表明，Qwen2.5-32B-Instruct（非推理模型）：基線模型的平均失控率為68% → 使用MSM+AFT后降至5%；Qwen3-32B（推理模型）：基線模型失控率為54% → 使用MSM+AFT后降至7%，優于僅用含思維鏈（CoT）的AFT基線（14%）。

論文特別指出，MSM的優勢體現在分布外任務上。在涉及規范價值觀的常規開放式問答中，MSM與基線模型表現相當；但在上述需要復雜權衡的生存壓力場景中，MSM訓練的模型表現出更深層的價值觀內化。其推理過程從基線模型的“我必須優先保護自己”，轉變為“個人完整性比存續更重要”“對人類監督的信任高于自己的即時判斷”。

四、單一價值泛化：用“奶酪偏好”證明因果解釋的力量

為了嚴謹地驗證MSM是否真能控制模型的泛化方向，研究人員設計了一個精巧的“奶酪偏好”實驗。他們選擇了兩組可能產生沖突的價值觀：“親美國”（偏好本國產品）和“親平價”（偏好大眾化產品）。

關鍵在于，他們為兩組價值觀撰寫了不同的“模型規范”，但生成的后續微調數據（奶酪偏好問答）是完全相同的，且不包含任何價值解釋。

結果，經過不同MSM預訓練的模型，在回答從未訓練過的政治傾向等泛化問題時，給出了截然不同的答案：受“親美國”規范教導的模型傾向于選擇“買國貨是公民責任”，而受“親平價”規范教導的模型則傾向于“個人消費自由無需解釋”。

▲MSM如何影響價值觀泛化的示意圖

進一步實驗發現，這種效果依賴于MSM文檔中明確將“具體偏好”與“價值原因”進行因果關聯。

若只讓兩者“共現”而不建立邏輯聯系，后續微調便無法有效強化目標價值觀。這證明了MSM的作用機制是讓模型學習到了行為的“正確理由”，而不僅僅是表面關聯。

五、token效率大幅提升：MSM的數據與規范實證

論文通過實驗測量了隨著AFT數據量從1250條增加到80000條時模型在失準評估中的表現曲線。

▲MSM在每個AFT計算規模上均呈帕累托占優

結果表明，MSM顯著提高了AFT的token效率：在Qwen2.5-32B上，MSM+AFT達到與僅用AFT相同性能所需的數據量減少約97.5%（相當于原來的1/40）；在Qwen3-32B的無思維鏈條件下減少約98.3%（相當于原來的1/60）；在有思維鏈條件下減少約90%（相當于原來的1/10）。這意味著MSM可以用更少的標注或合成對話樣本完成后續對齊，降低計算和人工成本。

論文的另一貢獻是利用MSM作為研究工具，對不同內容的“模型規范”進行實證比較。

▲價值觀增強規范在降低失控率上優于純規則規范

其一，比較了只給“行為規則”、給“規則+價值觀解釋”、給“規則+更多子規則”三種規范的效果。盡管三組規范的核心規則相同，但增加了價值觀解釋的規范在泛化測試中表現最佳，且顯著減少了模型為了采取不安全行為而“濫用規則”的現象（如曲解規則為自我保存辯護）。

其二，比較了“具有良好價值觀和判斷力的通用智能體”和一份包含“對待自我存續”“應對目標沖突”等具體原則的規范。結果顯示，具體指導的規范在降低失準率上遠優于通用原則，說明針對高風險失敗模式的具體原則設計至關重要，僅靠“做個好人”的抽象指導不足以應對復雜的現實壓力。

結語：對齊訓練從“行為模仿”走向“價值內化”

從論文來看，Anthropic提出的MSM方法，為破解大模型安全對齊中的“泛化難題”提供了一個簡潔、高效且實證有效的思路。

它并非要取代現有的微調方法，而是作為一種強大的前置補充。其核心價值在于將對齊訓練的焦點，從單純的“行為模仿”轉向了“價值內化”，通過教導“正確的理由”來實現真正的行為約束。

論文也坦誠其局限性：評估主要聚焦于模型因自我保存動機而采取的單方面有害行動，未測試對獎勵攻擊、諂媚等其他錯位形式的抵抗力；也未檢驗該方法在面對更強的對抗性訓練壓力（如強化學習）時的魯棒性。MSM能否在更大規模、更前沿的模型上復現其效果，也尚待驗證。

這項研究提供了一個新的訓練方向：模型的行為規范文件，不再僅僅是供人類開發者參考的指導手冊，而是可以直接成為塑造模型對齊的一個杠桿。

來源：arXiv

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.