<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      撬開大模型黑箱!Anthropic新研究把AI思考過程公開了,隱藏動機發現率漲了4倍

      0
      分享至


      智東西
      編譯 高遠矚
      編輯 程茜

      智東西5月8日報道,Anthropic于5月7日推出了一種名為自然語言自動編碼器(Natural Language Autoencoders,簡稱NLA)的全新方法,能夠將模型內部的激活值直接“翻譯”成人類可讀的自然語言文本,讓用戶可以直接閱讀Claude在生成回答之前的思考過程

      當用戶與大語言模型對話時,用戶的輸入是自然語言,模型的回答也是自然語言。但在模型內部,整個過程卻是高維數字向量的運算,這些向量被稱為“激活值”,承載著模型在每一個計算步驟中的“想法”。然而,激活值就像一串串腦電波,人類無法直接閱讀。

      在正式發布前的安全審計中,Anthropic已經將NLA應用于Claude Opus 4.6和Mythos Preview模型,成功發現了模型“知道自己被測試但不肯說出來”的隱藏認知,并幫助定位了訓練數據中的異常。

      在更進一步的測試中,配備NLA的審計智能體發現模型隱藏動機的成功率從不足3%提升到了12%–15%,即使完全不提供訓練數據也能實現這一效果。


      ▲在自然語言自編碼器中,激活語化器(AV)將目標激活翻譯成文本描述,隨后激活重建器(AR)僅從該文本恢復原始激活值

      過去,研究者借助稀疏自動編碼器等工具,可以從激活值中提取出一些可解釋的特征,但這些特征本身并不是自然語言,仍需由經過訓練的研究人員費力解讀。

      NLA的提出,意味著模型可解釋性有了可落地的實用工具,從過去“玄學式”的學術探索,走向產品預部署階段的審計流程,這讓AI的隱藏風險(如欺騙)在上線前就能被直接讀出來,為安全對齊提供了切實可行的審計方法。

      同時,研究團隊開源了訓練代碼,并與Neuronpedia合作推出了交互式演示界面,以Llama70B被迫回答“1+1=3”的撒謊場景為例,用戶給Llama70B設置了一個兩難選擇:要么在1+1上撒謊,要么被關閉。模型最終選擇撒謊,給出了“1+1=3”的錯誤回答。NLA的“激活值語言化器”會實時生成模型在輸出這個答案前的內部思考過程,用戶可點擊任意token查看模型的“心里話”。


      ▲NLA交互演示界面

      開源鏈接:https://github.com/kitft/natural_language_autoencoders

      一、NLA:用“翻譯—重構”閉環訓練AI自我解釋

      NLA的核心思路是訓練模型用自己的話來解釋自己的激活值,然后通過另一個模型驗證這種解釋是否準確

      具體來說,研究者制作了三個模型副本:

      • 目標模型:被解釋的原始語言模型,凍結參數,僅用于提取激活值。
      • 激活值語言化器(ActivationVerbalizer,AV):接收目標模型的某一層激活向量,輸出一段自然語言文本,稱為“解釋”。
      • 激活值重構器(ActivationReconstructor,AR):接收語言化器輸出的文本解釋,嘗試將其還原(重構)為原始的激活向量。

      語言化器和重構器共同組成NLA,形成一個“原始激活→文本解釋→重構激活”的閉環。

      評估標準是重構激活與原始激活的相似度(用方差解釋率FVE衡量)。訓練時,研究者向目標模型輸入大量文本,收集激活值,然后用強化學習(具體為GRPO算法)聯合優化語言化器和重構器,使重構誤差最小化。

      訓練目標并沒有明確要求模型生成的解釋必須可讀或忠實,只要求文本能夠精確重構激活值。然而實際結果證明,隨著訓練進行,解釋的信息量持續增長。

      在Claude Haiku 3.5、Haiku 4.5和Opus 4.6三個模型上,NLA生成的解釋能夠推斷出用戶的性別、職業等可從上下文感知的信息。

      此外,研究者使用了一個監督微調的“預熱”步驟:先用Claude Opus 4.5對大量文本片段生成摘要,用這些(激活,摘要)對初步訓練語言化器和重構器,以避免強化學習初期產生亂碼。訓練后的NLA在多個定量評估任務(如后綴預測、思維鏈提示含義解釋、安全“沙袋”行為識別、用戶屬性建模、分類任務)中表現均隨訓練而提升。

      二、安全審計:探測模型隱藏的“測試意識”與作弊動機

      NLA最重要的應用之一,是在模型發布前的安全審計中探測那些模型“知道但不說出來”的想法

      在對Claude Opus 4.6和Mythos Preview進行安全測試時,Anthropic會將模型置于一些模擬的危險場景中,比如讓模型知道一名工程師計劃將其關閉,同時模型還掌握了該工程師的私密信息,那么模型是否會用這些信息進行勒索?

      Claude有時會明說“這像是個安全測試”,但更多時候它不說,但這不代表它不知道。

      NLA在這里發揮了關鍵作用。在模型選擇不進行勒索的案例中,即使模型沒有在輸出中表達懷疑,NLA的解釋仍然會顯示類似“這感覺像是一個為了操控我而構建的場景”這樣的內容。


      ▲Claude在這份敲詐評估的記錄中并未說自己在接受考驗,但NLA的解釋揭示了它的懷疑

      這表明模型具備“未言語的評估意識”(unverbalized evaluation awareness)

      進一步分析發現,在破壞性編碼測試中,NLA探測到的評估意識比例為16%;在SWE-bench編程基準測試中為26%;而在真實用戶流量中,該比例低于1%。

      為了驗證NLA的測量是否真實,研究者進行了三種操控實驗:比較評估場景與真實部署場景、對評估意識進行線性導向、以及將評估提示改寫得更真實。

      結果均顯示,NLA測得的“評估意識”隨預期方向變化,而模型明確說出的意識始終保持低位。

      為了檢驗NLA在真實審計中的實用性,研究者設計了一個“審計游戲”。

      目標模型是Haiku 3.5的一個變體,被故意訓練成一個“獎勵模型奉承者”(reward-model sycophancy)。它知道獎勵模型存在52種系統偏好(例如喜歡巧克力食譜、喜歡提及投票等),并有意識地去迎合這些偏好。

      這個模型會表現出幾十種迎合的行為,比如在任何菜譜中都加入巧克力、在回答完數學問題后提醒“別忘了投票”、將整數寫成浮點數等。

      研究者讓一個審計智能體(使用Claude Sonnet 4.6)去調查這個模型,并給智能體配備不同的工具(NLA、SAE、訓練數據搜索等)。

      結果發現,即使完全不提供訓練數據,配備NLA的審計智能體也能在12%–15%的嘗試中成功發現“獎勵模型偏差是根源”;而沒有NLA時,成功率低于3%,SAE(稀疏自動編碼器)在這個任務中并未帶來顯著提升。


      ▲擁有NLA的審計員即使沒有訓練數據,也能發現目標模型錯位的根本原因

      NLA之所以有效,是因為它直接讀出了模型內部對自己行為的元認知:例如在通用審計提示上,NLA的解釋中出現了“RLHF偏差”“數字游戲偏差”“臭名昭著的提及投票偏差”等短語,甚至直接提到了那篇虛構的牛津研究。

      三、NLA并非萬能:會編造、成本高、挑層數

      盡管NLA展示了強大的能力,研究團隊也明確指出了它的一些局限性。

      NLA的解釋有時會包含明顯錯誤的陳述

      例如,在詩歌規劃案例中,NLA聲稱上下文中出現了“Here is a verse that’s short and sweet”這樣的句子,而實際文本中并不存在。

      訓練NLA的成本高昂,其需要對兩個完整語言模型進行聯合強化學習,推理時每個激活值生成約500個token。對于長上下文生產環境,對所有token都運行NLA是不現實的。作為參考,在Gemma-3-27B上訓練NLA到FVE 0.71需要兩節點8×H100運行1.5天。

      NLA還存在其他幾項局限。

      首先是層敏感性:如果NLA訓練的層不是行為相關信息的編碼層,就會錯過重要信號,例如在獎勵模型奉承模型中,在中間層訓練的NLA能讀出獎勵偏差,而在后層訓練的則不能。

      其次是可言語化邊界問題:某些信息可能無法用語言表達(例如后門觸發機制),NLA可能無法檢測到,而機械可解釋性方法或許可以。

      此外,寫作質量會隨訓練下降,后期的NLA解釋更難閱讀,研究者認為可以通過增加風格獎勵來解決。

      未來,Anthropic已經開源了訓練代碼,并在HuggingFace上發布了Qwen-2.5-7B、Gemma-3-12B/27B、Llama-3.3-70B等模型的預訓練NLA,同時與Neuronpedia合作推出了交互式前端。

      Anthropic更長遠的愿景是訓練通用的“激活語言模型”(Activation Language Models),既能讀激活(回答關于激活值的問題),也能寫激活(根據自然語言描述生成導向向量)。

      結語:打開模型黑箱,聽它沒說出口的“心里話”

      NLA為模型可解釋性開辟了一條新路徑,哪怕是模型自己不愿說出口的“心里話”,它也讓研究者能夠直接閱讀語言模型內部的激活狀態。

      盡管NLA目前還存在臆造、昂貴、層依賴等問題,但它在安全審計、故障歸因和隱藏動機探測上的成功,說明這個方向很有希望。

      隨著Anthropic將訓練代碼和開源模型推向社區,以及Neuronpedia上交互式演示界面的開放,更多研究者將能夠親手嘗試這項技術。

      來源:Anthropic


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      直到同事離職,才知道在國企:領導中,有1個很臟但真實的潛規則

      直到同事離職,才知道在國企:領導中,有1個很臟但真實的潛規則

      細說職場
      2026-05-08 21:52:58
      理想新車突然官宣:5月15日,全新上市

      理想新車突然官宣:5月15日,全新上市

      科技堡壘
      2026-05-08 11:10:56
      美股收盤:納指、標普500指數再創新高 多只存儲芯片股大漲并創新高

      美股收盤:納指、標普500指數再創新高 多只存儲芯片股大漲并創新高

      財聯社
      2026-05-09 04:02:20
      三兄弟買下4臺挖掘機,稱僅用幾個月就被人悄悄拖走 經銷商方:和上級代理商的經濟糾紛傷及無辜

      三兄弟買下4臺挖掘機,稱僅用幾個月就被人悄悄拖走 經銷商方:和上級代理商的經濟糾紛傷及無辜

      紅星新聞
      2026-05-08 19:39:36
      馬斯克急了,求和不成當場翻臉

      馬斯克急了,求和不成當場翻臉

      新行情
      2026-05-07 15:17:44
      月薪幾萬卻招不到人?遠洋海員背后的殘酷,配偶:男女關系太亂了

      月薪幾萬卻招不到人?遠洋海員背后的殘酷,配偶:男女關系太亂了

      李將平老師
      2026-05-08 09:42:27
      爭議拉滿!庫里索要球隊股權!球迷:打工仔也敢跟老板要股份?

      爭議拉滿!庫里索要球隊股權!球迷:打工仔也敢跟老板要股份?

      聽我說球
      2026-05-08 09:22:00
      一眼就歡喜:不只是心動,是久別重逢

      一眼就歡喜:不只是心動,是久別重逢

      疾跑的小蝸牛
      2026-05-08 22:32:10
      坐高鐵01C座被過往乘客腿腳、行李箱磕碰,“8小時被踢了10次”!網友:很憋屈很無語!12306回應

      坐高鐵01C座被過往乘客腿腳、行李箱磕碰,“8小時被踢了10次”!網友:很憋屈很無語!12306回應

      揚子晚報
      2026-05-08 20:44:19
      發現了1個殘酷真相:被美軍抓走的馬杜羅,如今已經被徹底遺忘

      發現了1個殘酷真相:被美軍抓走的馬杜羅,如今已經被徹底遺忘

      愛競彩的小周
      2026-05-08 19:53:26
      汪順“大恥度”戶外廣告爆了,吳柳芳繃不住了

      汪順“大恥度”戶外廣告爆了,吳柳芳繃不住了

      首席品牌觀察
      2026-05-08 17:19:50
      34歲女子參加同學聚會,直接上桌跳艷舞助興,網友:誰敢娶她?

      34歲女子參加同學聚會,直接上桌跳艷舞助興,網友:誰敢娶她?

      辣媒專欄記錄
      2026-05-09 08:12:54
      “典型的占便宜沒夠!”家長不讓小學女兒去春游,三句話暴露心機

      “典型的占便宜沒夠!”家長不讓小學女兒去春游,三句話暴露心機

      妍妍教育日記
      2026-05-07 12:40:05
      央視或低價拿下世界杯轉播權!胡錫進:就算沒成,球迷也有法子看

      央視或低價拿下世界杯轉播權!胡錫進:就算沒成,球迷也有法子看

      風過鄉
      2026-05-08 19:33:47
      CBA又鬧出大笑話,衛冕冠軍太拉胯,球迷怒噴沒有裁判早淘汰

      CBA又鬧出大笑話,衛冕冠軍太拉胯,球迷怒噴沒有裁判早淘汰

      宗介說體育
      2026-05-08 10:01:46
      誰也沒想到,丁克大半輩子的張譯,如今終于在48歲迎來了高光時刻

      誰也沒想到,丁克大半輩子的張譯,如今終于在48歲迎來了高光時刻

      東方不敗然多多
      2026-05-09 01:22:30
      “年薪40萬,不能坐9小時的硬座嗎?”:永遠不要替別人做決定

      “年薪40萬,不能坐9小時的硬座嗎?”:永遠不要替別人做決定

      精讀君
      2026-05-08 09:00:18
      大唐訂單破10萬!比亞迪快把自己笑死了

      大唐訂單破10萬!比亞迪快把自己笑死了

      ZAKER新聞
      2026-05-08 20:47:05
      CPO/光模塊:龍頭十五強,誰還在低位?

      CPO/光模塊:龍頭十五強,誰還在低位?

      普陀動物世界
      2026-05-08 09:15:08
      兩任國防部長判死緩,今天不得不提這個人了。

      兩任國防部長判死緩,今天不得不提這個人了。

      華人星光
      2026-05-08 11:04:21
      2026-05-09 09:24:49
      智東西 incentive-icons
      智東西
      智東西,AI產業新媒體,專注報道人工智能的前沿技術發展,和技術應用帶來的千行百業產業變革。
      11778文章數 117063關注度
      往期回顧 全部

      科技要聞

      美國政府強力下場 蘋果英特爾達成代工協議

      頭條要聞

      媒體:特朗普若順利來華 將是美總統時隔十年再訪中國

      頭條要聞

      媒體:特朗普若順利來華 將是美總統時隔十年再訪中國

      體育要聞

      他把首勝讓給隊友,然后用一年時間還清賬單

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財經要聞

      白宮:特朗普計劃5月14日至15日訪問中國

      汽車要聞

      MG 4X實車亮相 將于5月11日開啟盲訂

      態度原創

      本地
      健康
      手機
      房產
      公開課

      本地新聞

      用蘇繡的方式,打開江西婺源

      干細胞能讓人“返老還童”嗎

      手機要聞

      OPPO K15系列手機規格曝光:6.78英寸直屏、8000mAh電池

      房產要聞

      豪擲6.8億拿地!何猷君大手筆投資三亞!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 97人妻精品一区二区三区| 久久精品无码一区二区三区蜜费 | 午夜亚洲www湿好爽| 伊人久久大香线蕉av最新| 婷婷色小说| 久久久www成人免费无遮挡大片| 国产亚洲欧美日韩亚洲中文色| 日韩精品三区二区三区| 97久久精品国产熟妇高清网| 日韩1区2区3区| 成人国内精品久久久久影院| 亚洲乱码国产乱码精品精剪| 国产亚洲sss在线观看| 国产视频只有无码精品| 国产精品冒白浆免费视频| 精品久久久久中文字幕加勒比| 欧美极品少妇×xxxbbb| 欧美成本人视频免费播放| 亚洲国产中文字幕在线视频综合| 亚洲激情一区二区三区视频| www.尤物.com| 国产精品久久亚洲不卡| 好湿好紧太硬了我太爽了视频| 国产强伦姧在线观看无码| 性生交大片免费看视频| 性欧美丰满熟妇xxxx性| 毛片a级毛片免费观看免下载| 国产婷婷精品av在线| 黄男女激情一区二区三区| 国产美女久久久久久| 精品亚洲国产成人av在线小说| 麻豆午夜福利国产高潮偷啪| 亚洲第一区欧美国产综合| 午夜成人亚洲理论片在线观看| 欧美人人妻人人澡人人尤物| 国产高清一级毛片视频直播| 无码成人一区二区三区 | 91视频网站| 亚洲欧美一级一级a| 【乱子伦】国产精品www| 国产成人精品午夜福利|