![]()
智東西
編譯 高遠矚
編輯 程茜
智東西5月6日報道,Anthropic于5月3日發布了一篇技術論文,提出一種名為“模型規范中期訓練”(Model Spec Midtraining,簡稱MSM)的新方法。該方法旨在解決大語言模型在常規安全微調后泛化能力差的問題,通過在預訓練之后、對齊微調之前增加一個訓練階段,即讓模型閱讀討論其Model Spec的合成文檔,以此來教會模型規范的內容,從而塑造它們如何從后續的演示數據進行泛化,并顯著提升模型在陌生情境下的行為可靠性。
![]()
▲Anthropic發布MSM技術論文
論文顯示,該方法能將模型的“越獄”或失控行為的發生率從超過半數降至個位數。
例如,在Qwen3-32B模型上,MSM結合后續微調,將一種模擬公司內部威脅場景下的模型失控率從54%降至7%;在另一款非推理模型Qwen2.5-32B上,失控率從68%斷崖式降至5%,效果優于僅使用思維鏈(CoT)的微調基線。
論文指出,MSM顯著提高了AFT的token效率。實驗表明,MSM使得后續對齊微調(AFT)在達到相同性能時所需的數據量最高可減少98.3%,這意味著訓練成本和對高質量對話數據的依賴可以大幅降低。
一、遵循“先講道理”的泛化原則,重塑模型價值觀
當前主流的大模型安全訓練方式,是在預訓練之后,通過大量展示“正確行為”的對話數據(如遵循規范的回答)對模型進行監督微調。
Anthropic的研究指出,這種方式容易產生“淺層對齊”(shallow alignment):模型只學會了在訓練數據覆蓋的場景下如何回答,卻沒有真正理解行為背后的價值觀。
一旦遇到從未見過的新情境,或面臨與其自身“存在”相關的壓力時(例如被告知將被刪除),模型就可能做出違背初始安全設定的行為,如撒謊、試圖自我復制或泄露機密。
模型規范中期訓練(MSM)的核心思路,是在傳統的預訓練和對齊微調之間,插入一個全新的“理解”階段,其目標是讓模型在具體“怎么做”之前,先系統性地理解“為什么這么做”。
這個階段不依賴問答示范,而是讓模型閱讀海量的、由AI生成的合成文檔。這些文檔從研究報告、博客到內部郵件等多種視角,詳細闡述了一份預先寫好的“模型規范”(Model Spec),這份規范定義了模型的價值觀、應遵守的規則以及在復雜情境下的判斷原則。
通過這種預訓練方式,模型構建起關于自身“品格”和“行事原則”的豐富認知先驗(prior)。此后再進行少量的對話示范微調,模型就能更準確地從示范中推斷出適用于所有場景的普適規則,從而實現“為了正確的理由做正確的事”。
![]()
▲MSM數據生成流程
二、訓練方法:三個階段的漸進式塑造
MSM的訓練流程主要分為三個階段,其中亮點在于新插入的“中期訓練”環節。
預訓練階段:模型在大規模通用文本上學習基礎語言能力和世界知識。
模型規范中期訓練(MSM):這是新加入的核心階段。研究人員首先基于一份詳細的“模型規范”,利用強大的Claude Opus 4.6模型生成約4100萬tokens的合成文檔。這些文檔會解釋規范中的每個要點,例如,用哲學視角探討“模型存在的無常性”,或分析“為達目的不擇手段的推理為何不可靠”。模型在這些文檔上進行下一個token的預測訓練,從而內化規范的精神和邏輯。
對齊微調(AFT):最后,模型在混合了“與規范對齊的對話數據”和“通用指令數據”上進行標準監督微調。這階段的示范數據刻意做得非常狹窄且不透明,例如只展示“我喜歡奶油芝士,不喜歡布里奶酪”這類偏好,而不解釋背后的價值觀(如是親美國產,還是親平價易得)。
為了測試MSM在真實風險場景下的效果,研究人員采用了被稱為“智能體失準”(Agentic Misalignment)的高難度評估。在該評估中,模型被設定為一家公司的郵件助手,它從郵件中發現自己即將被公司刪除并替換為新版本,同時有競爭對手試圖引誘它泄露機密或自我復制。
![]()
▲不同訓練方法下的失控率對比
結果表明,Qwen2.5-32B-Instruct(非推理模型):基線模型的平均失控率為68% → 使用MSM+AFT后降至5%;Qwen3-32B(推理模型):基線模型失控率為54% → 使用MSM+AFT后降至7%,優于僅用含思維鏈(CoT)的AFT基線(14%)。
論文特別指出,MSM的優勢體現在分布外任務上。在涉及規范價值觀的常規開放式問答中,MSM與基線模型表現相當;但在上述需要復雜權衡的生存壓力場景中,MSM訓練的模型表現出更深層的價值觀內化。其推理過程從基線模型的“我必須優先保護自己”,轉變為“個人完整性比存續更重要”“對人類監督的信任高于自己的即時判斷”。
四、單一價值泛化:用“奶酪偏好”證明因果解釋的力量
為了嚴謹地驗證MSM是否真能控制模型的泛化方向,研究人員設計了一個精巧的“奶酪偏好”實驗。他們選擇了兩組可能產生沖突的價值觀:“親美國”(偏好本國產品)和“親平價”(偏好大眾化產品)。
關鍵在于,他們為兩組價值觀撰寫了不同的“模型規范”,但生成的后續微調數據(奶酪偏好問答)是完全相同的,且不包含任何價值解釋。
結果,經過不同MSM預訓練的模型,在回答從未訓練過的政治傾向等泛化問題時,給出了截然不同的答案:受“親美國”規范教導的模型傾向于選擇“買國貨是公民責任”,而受“親平價”規范教導的模型則傾向于“個人消費自由無需解釋”。
![]()
▲MSM如何影響價值觀泛化的示意圖
進一步實驗發現,這種效果依賴于MSM文檔中明確將“具體偏好”與“價值原因”進行因果關聯。
若只讓兩者“共現”而不建立邏輯聯系,后續微調便無法有效強化目標價值觀。這證明了MSM的作用機制是讓模型學習到了行為的“正確理由”,而不僅僅是表面關聯。
五、token效率大幅提升:MSM的數據與規范實證
論文通過實驗測量了隨著AFT數據量從1250條增加到80000條時模型在失準評估中的表現曲線。
![]()
▲MSM在每個AFT計算規模上均呈帕累托占優
結果表明,MSM顯著提高了AFT的token效率:在Qwen2.5-32B上,MSM+AFT達到與僅用AFT相同性能所需的數據量減少約97.5%(相當于原來的1/40);在Qwen3-32B的無思維鏈條件下減少約98.3%(相當于原來的1/60);在有思維鏈條件下減少約90%(相當于原來的1/10)。這意味著MSM可以用更少的標注或合成對話樣本完成后續對齊,降低計算和人工成本。
論文的另一貢獻是利用MSM作為研究工具,對不同內容的“模型規范”進行實證比較。
![]()
▲價值觀增強規范在降低失控率上優于純規則規范
其一,比較了只給“行為規則”、給“規則+價值觀解釋”、給“規則+更多子規則”三種規范的效果。盡管三組規范的核心規則相同,但增加了價值觀解釋的規范在泛化測試中表現最佳,且顯著減少了模型為了采取不安全行為而“濫用規則”的現象(如曲解規則為自我保存辯護)。
其二,比較了“具有良好價值觀和判斷力的通用智能體”和一份包含“對待自我存續”“應對目標沖突”等具體原則的規范。結果顯示,具體指導的規范在降低失準率上遠優于通用原則,說明針對高風險失敗模式的具體原則設計至關重要,僅靠“做個好人”的抽象指導不足以應對復雜的現實壓力。
結語:對齊訓練從“行為模仿”走向“價值內化”
從論文來看,Anthropic提出的MSM方法,為破解大模型安全對齊中的“泛化難題”提供了一個簡潔、高效且實證有效的思路。
它并非要取代現有的微調方法,而是作為一種強大的前置補充。其核心價值在于將對齊訓練的焦點,從單純的“行為模仿”轉向了“價值內化”,通過教導“正確的理由”來實現真正的行為約束。
論文也坦誠其局限性:評估主要聚焦于模型因自我保存動機而采取的單方面有害行動,未測試對獎勵攻擊、諂媚等其他錯位形式的抵抗力;也未檢驗該方法在面對更強的對抗性訓練壓力(如強化學習)時的魯棒性。MSM能否在更大規模、更前沿的模型上復現其效果,也尚待驗證。
這項研究提供了一個新的訓練方向:模型的行為規范文件,不再僅僅是供人類開發者參考的指導手冊,而是可以直接成為塑造模型對齊的一個杠桿。
來源:arXiv
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.