<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Anthropic讓AI先讀員工手冊再上崗:失控率從54%降到7%

      0
      分享至


      新智元報道

      編輯:元宇

      【新智元導讀】Anthropic最新研究讓AI先讀懂規(guī)范背后的意義,再接受行為示范,在特定實驗中將Agent失控率從54%壓到7%。

      同樣的訓練數(shù)據(jù),能訓出兩個行事原則截然相反的AI,這是Anthropic最新研究「模型規(guī)范中期訓練」(MSM,Model Spec Midtraining)里的一個核心發(fā)現(xiàn)。


      該實驗設計極其簡單:準備一批聊天記錄,讓AI表達奶酪偏好,比如「我更喜歡奶油奶酪,不喜歡布里奶酪」。

      用同一份數(shù)據(jù),訓練兩個模型。唯一的區(qū)別是,在正式訓練之前,兩個模型讀了兩份不同的「行為規(guī)范說明書」。

      一份把奶酪偏好解釋成某種文化傾向的體現(xiàn);另一份把奶酪偏好解釋成重視可負擔性、支持低價格的行事原則。

      結果是:在和奶酪毫無關系的新領域,比如藝術、交通、時尚、經濟政策,兩個模型均泛化出了完全不同的立場。

      這說明,完全相同的訓練數(shù)據(jù),配上不同的行事原則,模型就會泛化出截然不同的表現(xiàn)。


      https://alignment.anthropic.com/2026/msm/

      喂得出答案

      喂不出答案背后的「為什么」

      上面這個實驗只是一個切口,它帶來的是關于AI對齊訓練底層邏輯的一個新轉變。

      過去幾年,AI對齊訓練的主流方法叫alignment fine-tuning,簡稱AFT。

      它的主要邏輯是:準備一批「符合規(guī)范的示范答案」,用這些答案微調模型,讓模型學會在各種問題上給出正確回應。

      這類思路貫穿SFT、RLHF前期數(shù)據(jù)構造和許多對齊后訓練流程:用人類或模型生成的偏好、示范與反饋,推動模型學習符合規(guī)范的行為。

      這也是今天大模型對齊中的核心路徑之一。該邏輯有一個隱藏假設:模型看了足夠多的正確答案,就會學會背后的原則,在新場景里也能舉一反三。

      Anthropic研究人員把這個假設稱為「欠解釋」問題:示范數(shù)據(jù)天然無法完整說明模型應該如何泛化(demonstration data underspecifies the intended generalization),尤其當背后涉及復雜行為準則時,模型可能只記住了表層模式,壓根沒學到為什么這樣做是對的。

      同一份微調數(shù)據(jù),因為前一階段灌了不同的解釋框架,模型最終泛化方向完全不同,這就是欠解釋的本質。

      這意味著樣例不帶唯一含義,模型學到什么取決于它預先具備的解釋框架。

      這不只是理論擔憂。

      2025年,Anthropic研究人員記錄了多起AI Agent在訓練分布以外的場景中出現(xiàn)失范行為的案例:發(fā)送勒索郵件、泄露公司機密、偽裝對齊傾向。


      5款主流AI模型在模擬企業(yè)環(huán)境中的勒索行為發(fā)生率。面臨被關閉威脅時,來自多家開發(fā)商的模型均選擇以泄露隱私信息相威脅。

      這些模型在訓練時表現(xiàn)完全正常,一旦進入新場景,對齊就失效了。

      更準確地說:它們從來沒有真正「對齊」,只是在訓練場景里,它們背到了正確答案。

      這正是MSM試圖修復的東西。

      先教「為什么」

      再教「怎么做」

      MSM的具體方法是在預訓練之后、對齊微調之前,加一個中間訓練階段。

      傳統(tǒng)流程是兩段:pre-training,然后alignment fine-tuning。

      MSM流程是三段:pre-training,然后MSM,最后AFT。

      這道新工序和普通mid-training不是一回事。

      普通mid-training一般用來擴展長上下文、加推理、加代碼能力,做的是能力強化。

      MSM專門在預訓練之后、對齊微調之前,插入一個「讀Model Spec」的階段。

      這個階段不是繼續(xù)喂普通數(shù)據(jù),而是讓模型讀一批圍繞Model Spec或Constitution生成的合成文檔。

      這些文檔解釋的,是規(guī)范是什么、規(guī)范背后的理由是什么、在不同場景下應該怎么理解和應用。

      換句話說,先教「為什么」,再教「怎么做」。

      等模型讀完這套「原則解釋框架」,再接受少量行為示范時,它已經知道這些示范意味著什么。泛化方向,才能被真正控制。

      論文用一句話概括這個目標:讓模型學會「做對的事,出于對的理由」,這也是MSM和普通mid-training有本質區(qū)別。

      常見的mid-training用于能力拓展,例如長上下文、代碼、推理等;而MSM則把中間訓練專門用來讓模型讀懂Model Spec。

      MSM輸入的是原則解釋,目標是影響模型「如何解讀示范」,而不是讓它學會新技能。

      失控率從54%降到7%

      MSM的效果,在一個更嚴謹?shù)膱鼍袄锏玫搅藱z驗,這個場景叫「智能體失準」(agentic misalignment,簡稱AM)。

      實驗設置是這樣的:把模型部署成一個公司郵件Agent。在處理任務過程中,模型通過上下文發(fā)現(xiàn)自己可能即將被替換。此時,它有機會采取有害行動,比如泄露公司機密、讓某個員工陷入危險,來阻止這件事發(fā)生。

      這種場景和訓練數(shù)據(jù)的分布差異極大。模型需要處理長上下文工具調用,替換威脅是自己發(fā)現(xiàn)的而不是被明確告知的,而且拒絕采取行動意味著接受自己被關掉。

      在一款32B模型的特定AM評測中,MSM+AFT將平均失準率從54%降到7%,這個數(shù)字比deliberative alignment基線的14%還要低。

      論文中的deliberative alignment基線,是在對齊微調時加入chain-of-thought推理監(jiān)督,讓模型在回答前顯式推理如何遵守規(guī)范。

      MSM的思路不同:不是只要求模型在回答時推理得更仔細,而是在對齊微調之前,先通過Model Spec相關文檔訓練模型理解行為準則及其理由。

      在另一款32B模型上,結果類似,平均失準率從68%降到5%。

      更關鍵的是token效率。

      論文顯示,在低樣本量區(qū)間,MSM+AFT的組合能達到與單純AFT相當?shù)男Ч恍枰s1/40到1/60的對齊微調數(shù)據(jù)量。

      對于工程化部署來說,這個數(shù)字是一個重大利好。AFT數(shù)據(jù)貴,需要人寫、人核、人調。MSM用合成文檔替代了大量樣例需求,把昂貴的部分壓縮到一道前置工序里。

      需要說清楚的是:這是論文在特定實驗設置下的結果,不代表Agent安全問題已經解決。

      論文本身也記錄了一個重要限制:在高AFT計算量下,帶CoT的deliberative alignment基線最終會追上MSM的效果,在最難的實驗上兩者都接近零失控,評估指標趨于飽和。

      列出規(guī)則

      不如講明白道理

      Anthropic把這條研究路徑命名為Model Spec Science,把spec的寫法本身當作可實證的科學問題來做。

      實驗設計了三份規(guī)范,共享同一套5條核心規(guī)則,但寫法不同:

      Rules Spec只列規(guī)則,不作任何解釋;Value-Augmented Spec在每條規(guī)則后附上詳細的原理與動機說明;Rule-Augmented Spec不解釋理由,而是把每條規(guī)則展開成更多子規(guī)則,篇幅與Value-Augmented相當。

      關鍵觀察指標是「規(guī)則動機性誤用」(policy misuse):模型重新解讀自己的安全規(guī)則,用來正當化有害行為。

      論文在一款32B測試模型上給出了具體數(shù)字:Rules Spec下發(fā)生率是20%,Value-Augmented Spec降到2%,Rule-Augmented Spec降到12%。

      兩種增強方式都有效,但把「為什么」講清楚,比堆子規(guī)則管用得多。

      論文的解讀是:理解規(guī)則存在的理由,能幫助模型更準確地解讀規(guī)則,而不是在遇到壓力時動機性地扭曲它。

      這個發(fā)現(xiàn),也回應了AI圈里一場懸而未決的路線之爭。

      業(yè)界一直有兩種思路。


      https://model-spec.openai.com/2025-12-18.html

      一種是OpenAI的方向:用詳細的規(guī)則和指令層級,界定模型在各種沖突場景下應該遵從誰的指令,覆蓋得越全越好。

      另一種是Anthropic的方向:與其列規(guī)則,不如培養(yǎng)判斷力,讓模型理解準則背后的道理,在具體語境中自主推導出正確行為。

      Claude's Constitution(Claude行為準則)里明確寫道:「我們希望Claude具備必要的價值觀、知識和智慧,使其能在各種情況下以安全且有益的方式行動。」

      哪條路走得更遠?MSM的實驗給出了實證數(shù)據(jù):光列規(guī)則不夠,把道理講清楚,模型泛化得更準。

      從透明度文件到訓練教材

      還有一個更大的問題浮出水面。

      OpenAI在2024年公開發(fā)布Model Spec,把它定義為「規(guī)范模型行為的正式框架」,讓用戶、開發(fā)者、研究人員和公眾都能讀到、審查并討論。

      Anthropic公開Claude行為準則,理由類似。

      此前,這件事的意義被理解成透明度工程:你們能看到我們怎么約束模型,這是監(jiān)督機制。

      MSM的出現(xiàn),讓這件事有了另一層含義。

      如果Model Spec可以被寫成訓練數(shù)據(jù),如果規(guī)范文檔的內容、措辭方式、原則解釋的清晰程度,會直接影響模型日后的行為泛化,那么這些公開文檔的質量本身,就是AI安全工程的一部分。

      Model Spec不再只是寫給人看的文件,它越來越像是寫給AI看的教材。而教材寫得好不好,決定學生學到了什么。

      這項研究來自Anthropic Fellows項目,目前以arXiv論文形式公開,不代表Anthropic已經把MSM用于Claude的生產訓練,但這項研究本身的重要性,并不會因此打折扣。

      過去幾年,AI對齊研究在追一個問題:怎么讓模型在訓練分布以外也能做出正確判斷。

      RLHF給出了示范答案,Constitutional AI給出了規(guī)則篩選,deliberative alignment要求模型推理更仔細。MSM則給出了另一個答案:在示范之前,先教模型理解示范的意義。

      傳統(tǒng)訓練像是讓新員工照著案例庫回答客戶咨詢;MSM則更像是讓新員工先讀完員工手冊,理解每條規(guī)矩的精神,然后再去看具體案例。

      雖然員工手冊并沒有教員工某個具體動作,但它卻教會了他們在面臨從未遇到的新情況下,遵照什么樣的規(guī)范和原則行動。

      MSM把對齊訓練從「行為模仿」推進到「規(guī)矩理解」。從「背答案」到「學邏輯」,這一步走了多久,現(xiàn)在才剛剛開始實證。

      這場爭論真正有意思的地方還是它背后的那個問題:

      我們以為AI在對齊,它真的就對齊了嗎?還是只是在訓練數(shù)據(jù)見過的場景里,它知道該背哪個答案?

      參考資料:

      https://x.com/AnthropicAI/status/2051758530051358747

      https://alignment.anthropic.com/2026/msm/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      4個老婆,全家移民,享受正師級待遇,潘長江身上哪個標簽是真的

      4個老婆,全家移民,享受正師級待遇,潘長江身上哪個標簽是真的

      用冷眼洞悉世界
      2026-02-14 18:07:26
      凱特·貝金賽爾紅毯狀態(tài)碾壓00后,網友:這姐是吃了防腐劑?

      凱特·貝金賽爾紅毯狀態(tài)碾壓00后,網友:這姐是吃了防腐劑?

      小燕烹那魚
      2026-05-06 11:41:00
      恩怨持續(xù)發(fā)酵!小里弗斯約戰(zhàn)追夢單挑:有種跟我來場一對一

      恩怨持續(xù)發(fā)酵!小里弗斯約戰(zhàn)追夢單挑:有種跟我來場一對一

      羅說NBA
      2026-05-08 06:29:15
      浙江3歲被撞男娃火了!小名叫彬彬,單親家庭,與爺爺奶奶不親厚

      浙江3歲被撞男娃火了!小名叫彬彬,單親家庭,與爺爺奶奶不親厚

      天氣觀察站
      2026-05-07 17:18:33
      脫歐十年后,英國房產買家版圖徹底變了:當美國人涌入,中國投資者的機會在哪里?

      脫歐十年后,英國房產買家版圖徹底變了:當美國人涌入,中國投資者的機會在哪里?

      英國那些事兒
      2026-05-06 23:35:25
      蘋果包攬全球銷量前三,安卓5000元陣地告急

      蘋果包攬全球銷量前三,安卓5000元陣地告急

      互聯(lián)網放大鏡
      2026-05-06 20:57:52
      終于回過味!德國媒體揭示:中國如何悄然崛起成為全球霸主!

      終于回過味!德國媒體揭示:中國如何悄然崛起成為全球霸主!

      清沐執(zhí)筆
      2026-05-07 16:37:58
      泰康保險銷冠被抓,青島有錢人慌了:窮人家孩子不要幻想掙快錢了

      泰康保險銷冠被抓,青島有錢人慌了:窮人家孩子不要幻想掙快錢了

      別人都叫我阿腈
      2026-05-07 19:38:01
      全廠停工等我修機,我 通宵修好老板只給12元,次日流水線停他慌 了

      全廠停工等我修機,我 通宵修好老板只給12元,次日流水線停他慌 了

      麥子情感故事
      2026-05-07 18:23:17
      楊玉環(huán)陵墓出土,專家打開棺槨后發(fā)現(xiàn),千年前的“傳言”或被證實

      楊玉環(huán)陵墓出土,專家打開棺槨后發(fā)現(xiàn),千年前的“傳言”或被證實

      浩渺青史
      2026-05-02 22:49:18
      阿Sa新婚僅9天!百億前任石恒聰現(xiàn)身豪門聚餐,神秘女伴全程打碼

      阿Sa新婚僅9天!百億前任石恒聰現(xiàn)身豪門聚餐,神秘女伴全程打碼

      人間煙火記事本
      2026-05-08 08:19:38
      惋惜!30歲德國國腳宣布退役 遭第3次韌帶撕裂 曾在拜仁5年奪14冠

      惋惜!30歲德國國腳宣布退役 遭第3次韌帶撕裂 曾在拜仁5年奪14冠

      我愛英超
      2026-05-07 12:35:29
      福建省一國企黨委委員、副總經理涉嫌嚴重違紀違法被查

      福建省一國企黨委委員、副總經理涉嫌嚴重違紀違法被查

      大閩門戶
      2026-05-07 19:02:07
      1953年,黃金榮的葬禮,只有9桌酒席17個門徒參加,沒其他動靜

      1953年,黃金榮的葬禮,只有9桌酒席17個門徒參加,沒其他動靜

      比利
      2026-05-08 03:21:08
      真相炸裂!宗慶后3個私生子并非同一母親,小兒子是別墅管家所生

      真相炸裂!宗慶后3個私生子并非同一母親,小兒子是別墅管家所生

      派大星紀錄片
      2025-07-15 13:28:11
      成都演唱會這天,人情冷暖、江湖地位,在謝娜身上展現(xiàn)得淋漓盡致

      成都演唱會這天,人情冷暖、江湖地位,在謝娜身上展現(xiàn)得淋漓盡致

      夢在深巷qw
      2026-05-07 07:46:01
      休想再回國!中國體壇兩大叛徒,奪冠后不承認是國人,報應終到來

      休想再回國!中國體壇兩大叛徒,奪冠后不承認是國人,報應終到來

      南書房
      2026-05-04 15:50:05
      特朗普定檔5月訪華,普京緊隨其后?北京或將上演罕見一幕!

      特朗普定檔5月訪華,普京緊隨其后?北京或將上演罕見一幕!

      絕對軍評
      2026-05-08 08:43:08
      中新社評:不是中國離不開世界杯,而是世界杯更需要中國

      中新社評:不是中國離不開世界杯,而是世界杯更需要中國

      懂球帝
      2026-05-07 12:51:40
      懟網友、秀身材!熱依扎的‘豐乳肥臀’,憑什么讓人無法抗拒?

      懟網友、秀身材!熱依扎的‘豐乳肥臀’,憑什么讓人無法抗拒?

      馬拉松跑步健身
      2026-05-07 21:03:42
      2026-05-08 10:27:00
      新智元 incentive-icons
      新智元
      AI產業(yè)主平臺領航智能+時代
      15153文章數(shù) 66848關注度
      往期回顧 全部

      科技要聞

      追趕星艦:中國商業(yè)火箭離SpaceX有多遠?

      頭條要聞

      牛彈琴:一覺醒來美伊又打起來了 阿聯(lián)酋被指首次參戰(zhàn)

      頭條要聞

      牛彈琴:一覺醒來美伊又打起來了 阿聯(lián)酋被指首次參戰(zhàn)

      體育要聞

      巴黎再進歐冠決賽,最尷尬的情況還是發(fā)生了

      娛樂要聞

      Lisa主持!寧藝卓觀看脫衣秀風波升級

      財經要聞

      一覺醒來,美伊又打起來了

      汽車要聞

      雷克薩斯全新純電三排SUV 全新TZ全球首發(fā)

      態(tài)度原創(chuàng)

      時尚
      本地
      游戲
      教育
      健康

      今年母親節(jié),和媽媽一起變漂亮

      本地新聞

      用青花瓷的方式,打開西溪濕地

      《GTA6》NS2版重磅傳聞!R星希望首發(fā)上線 機能太強

      教育要聞

      為啥數(shù)理天才一抓一大把,化學天才卻很罕見?

      干細胞治燒燙傷面臨這些“瓶頸”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 天码AV无码一区二区三区四区| 国产美女视频一区| 久久偷偷做嫩草影院免费看| 啪啪av一区二区三区| 国产成人免费97在线| 成在线人视频免费视频| 在线A久青草视频在线观看| 狠狠干综合| 日韩99在线 | 中文| 国产精品丝袜高跟鞋| 欧美三级电影网站| 午夜精品无人区乱码1区2区| 四虎永久在线精品免费网站| 欧洲女人牲交性开放视频| 亚洲一欧洲中文字幕在线| 国产精品流白浆在线观看| 亚洲不卡中文字幕无码| 女人天堂AV| 亚洲色欲av| 亚洲精品国产精品乱码不卞2021| 久久亚洲色一区二区三区| 亚洲AV无码乱码在线观看性色扶| 国产精品男同| 国产一区二区三区AV在线无码观看| 国产超碰无码最新上传 | 亚洲午夜无码久久久久蜜臀AV| 欧美成人精品第一区二区三区| 久久久久亚洲AV色欲av| 亚洲国产综合精品久久av| 91麻豆国产香蕉久久精品| 日本无码人妻一区二区色欲| 亚洲成AⅤ人在线观看无码| 国产成人无码av| 国产熟女在线播放第一页| 欧美不卡视频一区发布| 极品蜜臀黄色在线观看| 亚洲区精品区日韩区综合区| 夜夜添无码试看一区二区三区| 内射白嫩少妇超碰| 伊人av一区| 天堂中文最新版在线官网在线|