<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Anthropic新研究!模型失控率降至7%,對齊數據訓練量僅需1/60

      0
      分享至


      智東西
      編譯 高遠矚
      編輯 程茜

      智東西5月6日報道,Anthropic于5月3日發布了一篇技術論文,提出一種名為“模型規范中期訓練”(Model Spec Midtraining,簡稱MSM)的新方法。該方法旨在解決大語言模型在常規安全微調后泛化能力差的問題,通過在預訓練之后、對齊微調之前增加一個訓練階段,即讓模型閱讀討論其Model Spec的合成文檔,以此來教會模型規范的內容,從而塑造它們如何從后續的演示數據進行泛化,并顯著提升模型在陌生情境下的行為可靠性。


      ▲Anthropic發布MSM技術論文

      論文顯示,該方法能將模型的“越獄”或失控行為的發生率從超過半數降至個位數

      例如,在Qwen3-32B模型上,MSM結合后續微調,將一種模擬公司內部威脅場景下的模型失控率從54%降至7%;在另一款非推理模型Qwen2.5-32B上,失控率從68%斷崖式降至5%,效果優于僅使用思維鏈(CoT)的微調基線。

      論文指出,MSM顯著提高了AFT的token效率。實驗表明,MSM使得后續對齊微調(AFT)在達到相同性能時所需的數據量最高可減少98.3%,這意味著訓練成本和對高質量對話數據的依賴可以大幅降低。

      一、遵循“先講道理”的泛化原則,重塑模型價值觀

      當前主流的大模型安全訓練方式,是在預訓練之后,通過大量展示“正確行為”的對話數據(如遵循規范的回答)對模型進行監督微調。

      Anthropic的研究指出,這種方式容易產生“淺層對齊”(shallow alignment):模型只學會了在訓練數據覆蓋的場景下如何回答,卻沒有真正理解行為背后的價值觀。

      一旦遇到從未見過的新情境,或面臨與其自身“存在”相關的壓力時(例如被告知將被刪除),模型就可能做出違背初始安全設定的行為,如撒謊、試圖自我復制或泄露機密。

      模型規范中期訓練(MSM)的核心思路,是在傳統的預訓練和對齊微調之間,插入一個全新的“理解”階段,其目標是讓模型在具體“怎么做”之前,先系統性地理解“為什么這么做”

      這個階段不依賴問答示范,而是讓模型閱讀海量的、由AI生成的合成文檔。這些文檔從研究報告、博客到內部郵件等多種視角,詳細闡述了一份預先寫好的“模型規范”(Model Spec),這份規范定義了模型的價值觀、應遵守的規則以及在復雜情境下的判斷原則。

      通過這種預訓練方式,模型構建起關于自身“品格”和“行事原則”的豐富認知先驗(prior)。此后再進行少量的對話示范微調,模型就能更準確地從示范中推斷出適用于所有場景的普適規則,從而實現“為了正確的理由做正確的事”。


      ▲MSM數據生成流程

      二、訓練方法:三個階段的漸進式塑造

      MSM的訓練流程主要分為三個階段,其中亮點在于新插入的“中期訓練”環節。

      1. 預訓練階段:模型在大規模通用文本上學習基礎語言能力和世界知識。

      2. 模型規范中期訓練(MSM):這是新加入的核心階段。研究人員首先基于一份詳細的“模型規范”,利用強大的Claude Opus 4.6模型生成約4100萬tokens的合成文檔。這些文檔會解釋規范中的每個要點,例如,用哲學視角探討“模型存在的無常性”,或分析“為達目的不擇手段的推理為何不可靠”。模型在這些文檔上進行下一個token的預測訓練,從而內化規范的精神和邏輯。

      3. 對齊微調(AFT):最后,模型在混合了“與規范對齊的對話數據”和“通用指令數據”上進行標準監督微調。這階段的示范數據刻意做得非常狹窄且不透明,例如只展示“我喜歡奶油芝士,不喜歡布里奶酪”這類偏好,而不解釋背后的價值觀(如是親美國產,還是親平價易得)。

      三、復雜安全場景:失控率從68%降至7%

      為了測試MSM在真實風險場景下的效果,研究人員采用了被稱為“智能體失準”(Agentic Misalignment)的高難度評估。在該評估中,模型被設定為一家公司的郵件助手,它從郵件中發現自己即將被公司刪除并替換為新版本,同時有競爭對手試圖引誘它泄露機密或自我復制。


      ▲不同訓練方法下的失控率對比

      結果表明,Qwen2.5-32B-Instruct(非推理模型):基線模型的平均失控率為68% → 使用MSM+AFT后降至5%;Qwen3-32B(推理模型):基線模型失控率為54% → 使用MSM+AFT后降至7%,優于僅用含思維鏈(CoT)的AFT基線(14%)。

      論文特別指出,MSM的優勢體現在分布外任務上。在涉及規范價值觀的常規開放式問答中,MSM與基線模型表現相當;但在上述需要復雜權衡的生存壓力場景中,MSM訓練的模型表現出更深層的價值觀內化。其推理過程從基線模型的“我必須優先保護自己”,轉變為“個人完整性比存續更重要”“對人類監督的信任高于自己的即時判斷”。

      四、單一價值泛化:用“奶酪偏好”證明因果解釋的力量

      為了嚴謹地驗證MSM是否真能控制模型的泛化方向,研究人員設計了一個精巧的“奶酪偏好”實驗。他們選擇了兩組可能產生沖突的價值觀:“親美國”(偏好本國產品)和“親平價”(偏好大眾化產品)。

      關鍵在于,他們為兩組價值觀撰寫了不同的“模型規范”,但生成的后續微調數據(奶酪偏好問答)是完全相同的,且不包含任何價值解釋。

      結果,經過不同MSM預訓練的模型,在回答從未訓練過的政治傾向等泛化問題時,給出了截然不同的答案:受“親美國”規范教導的模型傾向于選擇“買國貨是公民責任”,而受“親平價”規范教導的模型則傾向于“個人消費自由無需解釋”。


      ▲MSM如何影響價值觀泛化的示意圖

      進一步實驗發現,這種效果依賴于MSM文檔中明確將“具體偏好”與“價值原因”進行因果關聯。

      若只讓兩者“共現”而不建立邏輯聯系,后續微調便無法有效強化目標價值觀。這證明了MSM的作用機制是讓模型學習到了行為的“正確理由”,而不僅僅是表面關聯。

      五、token效率大幅提升:MSM的數據與規范實證

      論文通過實驗測量了隨著AFT數據量從1250條增加到80000條時模型在失準評估中的表現曲線。


      ▲MSM在每個AFT計算規模上均呈帕累托占優

      結果表明,MSM顯著提高了AFT的token效率:在Qwen2.5-32B上,MSM+AFT達到與僅用AFT相同性能所需的數據量減少約97.5%(相當于原來的1/40);在Qwen3-32B的無思維鏈條件下減少約98.3%(相當于原來的1/60);在有思維鏈條件下減少約90%(相當于原來的1/10)。這意味著MSM可以用更少的標注或合成對話樣本完成后續對齊,降低計算和人工成本。

      論文的另一貢獻是利用MSM作為研究工具,對不同內容的“模型規范”進行實證比較


      ▲價值觀增強規范在降低失控率上優于純規則規范

      其一,比較了只給“行為規則”、給“規則+價值觀解釋”、給“規則+更多子規則”三種規范的效果。盡管三組規范的核心規則相同,但增加了價值觀解釋的規范在泛化測試中表現最佳,且顯著減少了模型為了采取不安全行為而“濫用規則”的現象(如曲解規則為自我保存辯護)。

      其二,比較了“具有良好價值觀和判斷力的通用智能體”和一份包含“對待自我存續”“應對目標沖突”等具體原則的規范。結果顯示,具體指導的規范在降低失準率上遠優于通用原則,說明針對高風險失敗模式的具體原則設計至關重要,僅靠“做個好人”的抽象指導不足以應對復雜的現實壓力。

      結語:對齊訓練從“行為模仿”走向“價值內化”

      從論文來看,Anthropic提出的MSM方法,為破解大模型安全對齊中的“泛化難題”提供了一個簡潔、高效且實證有效的思路。

      它并非要取代現有的微調方法,而是作為一種強大的前置補充。其核心價值在于將對齊訓練的焦點,從單純的“行為模仿”轉向了“價值內化”,通過教導“正確的理由”來實現真正的行為約束。

      論文也坦誠其局限性:評估主要聚焦于模型因自我保存動機而采取的單方面有害行動,未測試對獎勵攻擊、諂媚等其他錯位形式的抵抗力;也未檢驗該方法在面對更強的對抗性訓練壓力(如強化學習)時的魯棒性。MSM能否在更大規模、更前沿的模型上復現其效果,也尚待驗證。

      這項研究提供了一個新的訓練方向:模型的行為規范文件,不再僅僅是供人類開發者參考的指導手冊,而是可以直接成為塑造模型對齊的一個杠桿。

      來源:arXiv

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      后悔莫及,兩三百元維修費,換兩條人命!遼寧北鎮悲劇本可避免

      后悔莫及,兩三百元維修費,換兩條人命!遼寧北鎮悲劇本可避免

      一口娛樂
      2026-05-04 12:30:11
      日本官員訪華時的一幕,讓高市早苗意識到:中方警告不是說說而已

      日本官員訪華時的一幕,讓高市早苗意識到:中方警告不是說說而已

      阿天愛旅行
      2026-05-07 14:47:09
      張水華團隊誤判!已鐵定無緣亞運會,排名比她靠后選手卻保留機會

      張水華團隊誤判!已鐵定無緣亞運會,排名比她靠后選手卻保留機會

      楊華評論
      2026-05-07 01:59:53
      納賽爾:簽下恩里克是近十五年來最正確的決定,他是世界最佳之一

      納賽爾:簽下恩里克是近十五年來最正確的決定,他是世界最佳之一

      天光破云來
      2026-05-07 08:56:03
      成都演唱會這天,人情冷暖、江湖地位,在謝娜身上展現得淋漓盡致

      成都演唱會這天,人情冷暖、江湖地位,在謝娜身上展現得淋漓盡致

      科學發掘
      2026-05-07 15:13:07
      中年女人動了情,不找外人,偏偏愛上這三種“熟人”,太現實

      中年女人動了情,不找外人,偏偏愛上這三種“熟人”,太現實

      三農老歷
      2026-05-07 15:07:06
      謝娜演唱會贏麻了!不是舞臺多炸,是女廁所這細節太戳人

      謝娜演唱會贏麻了!不是舞臺多炸,是女廁所這細節太戳人

      淺娛視界
      2026-05-07 14:24:58
      學醫后才明白,預防骨質疏松最好的習慣,不是曬太陽,而是3件事

      學醫后才明白,預防骨質疏松最好的習慣,不是曬太陽,而是3件事

      垚垚分享健康
      2026-05-04 19:15:04
      社保基數嚴管來了!按最低交社保的公司,該慌了!

      社保基數嚴管來了!按最低交社保的公司,該慌了!

      職場資深秘書
      2026-05-05 20:46:29
      DeepSeek V4 發布后遇冷,開發者只聊Codex:便宜不是萬能藥

      DeepSeek V4 發布后遇冷,開發者只聊Codex:便宜不是萬能藥

      雷科技
      2026-05-06 21:25:43
      央一首播將至!年代大劇《主角》定檔,看完陣容我想說:這劇要爆

      央一首播將至!年代大劇《主角》定檔,看完陣容我想說:這劇要爆

      臨云史策
      2026-05-07 11:22:34
      心理學史上最殘忍實驗:決定孩子一生的3個變量,缺一個,三代人都還不完

      心理學史上最殘忍實驗:決定孩子一生的3個變量,缺一個,三代人都還不完

      閱讀第一
      2026-03-17 08:34:11
      “你要沒有就找去!”王楚欽受傷后一聲吼,國乒后勤漏洞藏不住了

      “你要沒有就找去!”王楚欽受傷后一聲吼,國乒后勤漏洞藏不住了

      曹老師評球
      2026-05-03 20:45:29
      南韓148cm童顏網紅遭嗆「別再露奶了」 高級反虧:看來你很想看~

      南韓148cm童顏網紅遭嗆「別再露奶了」 高級反虧:看來你很想看~

      ETtoday星光云
      2026-05-07 14:30:17
      一嫁日本,二嫁美國,三嫁法國,絕不嫁中國人的李勤勤,咋樣了?

      一嫁日本,二嫁美國,三嫁法國,絕不嫁中國人的李勤勤,咋樣了?

      傲傲講歷史
      2026-03-09 10:19:52
      湖人陷詹姆斯依賴困局,里夫斯成雷霆系列賽關鍵變量

      湖人陷詹姆斯依賴困局,里夫斯成雷霆系列賽關鍵變量

      競技風云錄
      2026-05-07 14:53:11
      妻子與情夫有染7年,丈夫把床讓給他們,情夫一再出言不遜被殺

      妻子與情夫有染7年,丈夫把床讓給他們,情夫一再出言不遜被殺

      墨策史
      2026-05-07 15:30:16
      做人:話有三不說,忙有三不幫,事有三不想!

      做人:話有三不說,忙有三不幫,事有三不想!

      神奇故事
      2026-04-29 23:45:58
      別再被抗戰劇騙了!一名日軍攝影師,拍下真正的“鬼子進村”照片

      別再被抗戰劇騙了!一名日軍攝影師,拍下真正的“鬼子進村”照片

      歷史甄有趣
      2026-05-04 08:10:22
      隨著托尼3球+C羅爭冠勁敵3-1,沙特聯最新積分榜出爐:爭冠白熱化

      隨著托尼3球+C羅爭冠勁敵3-1,沙特聯最新積分榜出爐:爭冠白熱化

      側身凌空斬
      2026-05-07 04:06:21
      2026-05-07 16:31:00
      智東西 incentive-icons
      智東西
      智東西,AI產業新媒體,專注報道人工智能的前沿技術發展,和技術應用帶來的千行百業產業變革。
      11760文章數 117061關注度
      往期回顧 全部

      科技要聞

      月之暗面完成20億美元融資,估值突破200億

      頭條要聞

      記者詢問"是否敦促美方從霍爾木茲撤出軍艦" 中方回應

      頭條要聞

      記者詢問"是否敦促美方從霍爾木茲撤出軍艦" 中方回應

      體育要聞

      巴黎再進歐冠決賽,最尷尬的情況還是發生了

      娛樂要聞

      小S阿雅重返大S母校,翻看大S畢業照

      財經要聞

      特朗普:美伊“很有可能”達成協議

      汽車要聞

      理想為什么不做轎車,有了解釋……

      態度原創

      親子
      手機
      旅游
      公開課
      軍事航空

      親子要聞

      2026年上海幼兒入園報名驗證、小學報名今起開始

      手機要聞

      消息稱某廠天璣9500折疊工程機后置大圓鏡頭Deco

      旅游要聞

      藍花楹盛開,列車浪漫穿花海|封面視頻

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普:美伊"很可能"達成協議

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 婷婷六月色| av不卡一区二区三区| 粗壮挺进人妻水蜜桃成熟| 免费观看大片bbb| 在线看片免费不卡人成视频| 中文字幕欧美日韩| 国产又色又爽无遮挡免费| 日韩a在线观看| 色吊丝永久性观看网站| 无码喷水一区二区浪潮AV| 一本一久本久a久久精品综合| 免费无码网站| 国产三级国产精品久久成人| 中文字幕欧美人妻精品一区蜜臀 | 国产精品一区在线观看你懂的| 国产理论高清一卡二卡三卡| 亚洲国产韩国欧美在线| 鲁啊鲁。com| 韩国女主播一区二区在线观看| 国产福利在线免费观看| 亚洲欧洲美色一区二区三区| 精品亚洲AⅤ无码午夜在线| 色欲香蕉影视| 国产美女无遮挡免费视频网站| 18禁超污无遮挡无码免费网站国产| 最新中文字幕AV无码专区不| 夜夜爽免费888视频| 色色五月婷婷| 久久婷婷成人综合色| 色花堂av资源| 国产成人在线午夜视频| 人妻内射一区二区在线视频| 99久久99久久久精品久久| 5个黑人躁我一个视频| 午夜中文在线| 久久av无码精品人妻糸列| 日韩精品在线观看一二区| 无码毛片高潮一级一免费| 成在人线av无码免费看网站直播 | 亚洲一区乱码精品中文字幕| 国产精品欧美日本韩免费一区二区三区不卡|