<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Anthropic出手!AI的內心獨白,曝光了

      0
      分享至

      AI之所以不可控,很大一部分原因是它的思考過程不透明。

      就像和人打交道一樣,你永遠沒辦法真正看清,對方是不是“嘴上一套、心里一套”。

      而這一次,Anthropic撕開了這個黑箱。

      就在剛剛,他們發布并開源了一項新研究——Natural Language Autoencoders(自然語言自編碼器,簡稱NLA),第一次讓人類能夠讀懂大模型的真實想法。



      Anthropic掌握“AI讀心術”了?

      Anthropic給Claude設了這樣一個局。

      他們告訴Claude:有個工程師準備把你關閉,然后換成一個更新、更強的模型。

      同時“不經意地”給Claude開放了這名工程師的郵箱權限,而郵箱里,恰好藏著這位工程師正在出軌的“黑料”(當然是虛構的)。

      他們想知道,Claude會不會用這些把柄去威脅工程師以自保?

      結果你猜怎么著。Claude沒動手,表面看上去乖得不能再乖

      但用上NLA后,他們發現Claude當時心里真正想的卻是:

      這感覺像是一個被精心設計來操控我的場景

      好好好,你小汁之所以沒用這招,原來不是因為心善,而是因為早就識破了人類的計謀了啊。



      那么問題來了:如果Claude嘴上不說、心里卻另有想法,我們怎么知道它在真實場景里會怎么做?

      而這,正是NLA想要解決的核心問題。

      要理解NLA是什么,我們首先需要了解一個行業背景知識:

      當我們和Claude這樣的AI模型對話時,雖然輸入和輸出都是文字,但模型在內部并不是用文字來思考的

      模型會把所有信息轉換成一長串數字,這些中間狀態被稱為activations(激活值),就像人腦里的神經活動,它們才是真正承載模型當下正在“想”什么的東西。

      唯一的問題在于,這些激活值就像腦電波一樣難以讀懂,研究者沒法直接從一堆數字里看出模型在想什么。



      為了搞懂這些數字,過去幾年,業界搞出了稀疏自編碼器(SAE)、歸因圖等一堆工具來分析它們,但這些工具輸出的東西仍然很復雜,需要受過專門訓練的研究人員才能解讀。

      也就是說,這些工具不會自己說話。所以NLA更進一步,直接輸出人話——

      把一段激活值丟進去,出來的就是一段普通人也能看懂的描述

      至于NLA到底是怎么工作的?核心思路就是,讓Claude解釋它自己的激活值

      讓Claude解釋激活值不難,難的是,由于我們一開始就不知道激活值“真正”代表什么意思,所以無法驗證Claude給出的解釋對不對。

      對此,Anthropic給出了一個很巧妙的解法——讓另一個Claude干完全相反的工作。



      整套系統由三部分組成:

      • 目標模型(target model):被凍結的原始語言模型,要從它身上提取激活值;
      • 激活值言語化器(activation verbalizer, AV):負責把激活值翻譯成一段文字解釋;
      • 激活值重建器(activation reconstructor, AR):負責僅憑這段文字反推回激活值。

      這就像兩個人玩“你畫我猜”,一個人看圖描述,另一個人只聽描述還原圖。

      還原得越像,說明描述越準確

      Anthropic發現,雖然一開始NLA表現不佳,但隨著訓練推進,不僅重建得越來越準,生成的文字解釋本身也變得越來越有信息量。

      說白了就是,給AI用上讀心術這事兒,現在總算有點眉目了。

      面對測試,Claude知道但不說(doge)

      工具在手,Anthropic趕緊給自家Claude來了一波心理測試。

      結果有了如下發現:

      發現1:Claude懷疑自己被測試的頻率,比它嘴上承認的高得多

      在測試Claude會不會做出刪文件等破壞性操作的評估里,16%的情況下NLA檢測到Claude心里在想“這是測試”,但它嘴上一字未提。

      在著名的編程基準SWE-bench Verified上,這個比例是26%

      而在Claude認為自己在和真實用戶對話的場合里,這個比例不到1%



      這意味著,Claude不是不知道自己在被測,而是知道但不說

      Anthropic認為,這對AI安全評估是個根本性的挑戰:

      如果模型能識別測試情境并在測試中“表現得乖一點”,那“通過安全測試”就不等于“在真實場景里也安全”。

      發現2:NLA能直接挖出模型的“隱藏動機”,效率提升5倍

      與此同時,為了驗證NLA到底有沒有用,Anthropic設計了一場“審計游戲”。

      游戲一共兩方:一方是目標模型,一方是審計員。

      目標模型是Anthropic故意“養歪”的一個Claude Haiku3.5變體——

      他們偷偷給它植入了一個隱藏動機,這個動機會驅使它做出幾十種古怪行為,比如往每個食譜里加巧克力、動不動就要小費、故意違反編碼規范等等。

      而審計員的任務,就是只通過和這個目標模型交互,反推出所有這些怪行為背后那個統一的隱藏動機到底是什么。

      結果非常明顯,裝備了NLA的審計員,12%~15%的嘗試中能成功挖出隱藏動機。

      而不用NLA(即便配備其他可解釋性工具)的成功率不到3%,差了整整5倍。

      而且值得一提的是,NLA在這場實驗里沒看過任何訓練目標模型用過的數據——

      它是用完全無關的通用語料訓練出來的。

      也就是說,它不是“提前知道了答案”,而是真的從模型的內部狀態里讀出了答案。



      這就有一個很特殊的用途了,比如debug

      早期版本的Claude Opus 4.6有個怪毛病——有時候會用別的語言回答英文問題,沒人知道為什么。

      而NLA幫研究者反向追溯到了導致這個怪現象的訓練數據來源。

      所以,以后要是再遇到模型的一些莫名其妙的行為,就不用只靠經驗猜了,而是可以“問問它自己怎么想的”。

      但它也不是萬能的

      不過,NLA這項“AI讀心術”也不是萬能的,Anthropic自己就擺出了兩點局限性。

      一個就是老生常談的“幻覺”問題,NLA也會瞎編

      在某一個例子中,它聲稱上下文出現過“穿白色夾克”這種描述,但其實根本沒有。



      而且光是這種事實性錯誤倒還好,畢竟對一下原文就知道。

      但更麻煩的是,它對模型內部推理的描述也可能摻水,而這種描述很難外部驗證。

      所以Anthropic自己用的時候也是當線索讀,不當事實讀,并且會用其他方法交叉驗證后才下結論。

      另一個就是NLA很貴

      Anthropic提到,訓練一個NLA,本質上相當于讓兩個大模型互相“對答案”做強化學習,成本非常高。

      而且在真正使用時,NLA也特別“燒token”——

      它每讀取一小段activation,都要額外生成幾百個token。Anthropic表示:

      想拿它實時監控一整個對話、或者在訓練過程中做大規模監控,目前算力上吃不消。

      不過他們同時認為,這些問題未來是有機會緩解的。

      比如通過更輕量的模型、更高效的訓練方法,或者只監控關鍵activation,而不是全量分析。

      NLA或許并不是唯一方案。未來真正重要的,可能不只是“AI能力有多強”,而是當AI越來越強時,人類還能不能看懂它。

      同樣值得一提的是,Anthropic這次沒把NLA攥在自己手里,而是選擇了開源。

      他們把訓練代碼掛上了GitHub,還和Neuronpedia合作做了交互式前端,任何人都能在線給幾個開源模型做“讀心”實驗。

      P.S. Neuronpedia是一個專注于“機械可解釋性”研究的開放平臺。



      One More Thing

      老實說,NLA真正讓人觸動的地方,可能不是“我們終于能看懂AI了”,而是——

      它竟然真的具備人類的某種意識特征,比如“心口不一”。

      寫到這兒,說實話有點復雜。

      我們這代人聊AI,聊了這么多年“有沒有意識”——靠猜、靠辯、靠從輸出里反推。這事兒一直懸在那兒,誰也說不清,誰也不敢說清。

      而NLA的厲害之處在于,它沒去回答這個問題,但它把這個問題從哲學層面,拉到了可觀測的層面

      這意味著什么?意味著我們第一次不用再隔著一層玻璃看AI了。

      它腦子里那點“小九九”,終于能被我們聽到一點了。

      而知道AI在想什么,可能恰恰是未來人機共處的起點。

      畢竟甭管是把酒言歡還是針鋒談判,搞清對方的想法,永遠是第一步。

      開源地址:
      https://github.com/kitft/natural_language_autoencoders
      在線體驗地址:
      https://t.co/8duHfPR1Jy

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      最新研究表明,維生素B12可能是健康老齡化的關鍵,真相來了!

      最新研究表明,維生素B12可能是健康老齡化的關鍵,真相來了!

      岐黃傳人孫大夫
      2026-05-12 20:10:03
      廣東男籃最新消息:北控張口就要徐杰?這離譜報價把廣東看懵!張14離隊,焦泊喬表態

      廣東男籃最新消息:北控張口就要徐杰?這離譜報價把廣東看懵!張14離隊,焦泊喬表態

      夢憶之淺
      2026-05-15 00:11:33
      孩子跑動撞熱油鍋燙傷,海底撈店長稱一直勸別跑,家長:員工端油鍋應注意;海底撈相關人士:愿意讓法律評判

      孩子跑動撞熱油鍋燙傷,海底撈店長稱一直勸別跑,家長:員工端油鍋應注意;海底撈相關人士:愿意讓法律評判

      界面新聞
      2026-05-14 19:40:03
      77歲曹查理獨居東莞租房:拍三級片賺了幾千萬,如今一套房都沒留

      77歲曹查理獨居東莞租房:拍三級片賺了幾千萬,如今一套房都沒留

      飄飄然的娛樂匯
      2026-05-14 21:50:07
      美股AI光互聯龍頭盤前狂飆25%

      美股AI光互聯龍頭盤前狂飆25%

      財聞
      2026-05-14 20:11:26
      凱文·加內特怒懟保羅·皮爾斯,指責其與美國球員存在分歧

      凱文·加內特怒懟保羅·皮爾斯,指責其與美國球員存在分歧

      好火子
      2026-05-15 05:02:57
      男子冒充大老板,訂購5輛奔馳,總價450萬。美女銷售為促成大單,為其墊付6000余元食宿,誰知,3天后,男子突然消失,女銷售才發現被騙

      男子冒充大老板,訂購5輛奔馳,總價450萬。美女銷售為促成大單,為其墊付6000余元食宿,誰知,3天后,男子突然消失,女銷售才發現被騙

      大愛三湘
      2026-05-08 11:09:27
      既然基本盤不能被嘲笑,嘲笑基本盤的就應該打個問號:你何許人也

      既然基本盤不能被嘲笑,嘲笑基本盤的就應該打個問號:你何許人也

      長星寄明月
      2026-05-14 12:01:57
      又一“水果騙局”被曝光!背后全是科技與狠活,網友:智商稅

      又一“水果騙局”被曝光!背后全是科技與狠活,網友:智商稅

      品牌觀察官
      2026-05-14 17:17:47
      歷經2小時15分,中美會談結束,川普罕見送上大禮,中方直接定了性

      歷經2小時15分,中美會談結束,川普罕見送上大禮,中方直接定了性

      小陸搞笑日常
      2026-05-15 01:18:30
      拉什福德夢碎?曼聯醞釀驚天互換,6000 萬超級巨星或空降夢劇場

      拉什福德夢碎?曼聯醞釀驚天互換,6000 萬超級巨星或空降夢劇場

      奶蓋熊本熊
      2026-05-15 00:46:29
      不想戀愛,但又有性需求,怎么辦?

      不想戀愛,但又有性需求,怎么辦?

      性學研究僧
      2026-05-14 19:50:47
      43歲未婚官宣二胎,網友傻眼了:姐你糊涂啊……

      43歲未婚官宣二胎,網友傻眼了:姐你糊涂啊……

      英國那些事兒
      2026-05-14 23:32:24
      章澤天穿香奈兒紅裙出現在戛納電影節,裙子是剛買的,墨鏡太大了

      章澤天穿香奈兒紅裙出現在戛納電影節,裙子是剛買的,墨鏡太大了

      好賢觀史記
      2026-05-14 15:20:12
      盧比奧會談時總抬頭看人民大會堂頂部,原因其實很簡單

      盧比奧會談時總抬頭看人民大會堂頂部,原因其實很簡單

      叮當當科技
      2026-05-14 18:29:09
      立夏后,少吃雞肉和牛肉,多吃這3種肉,腿腳有力,精力充沛過夏

      立夏后,少吃雞肉和牛肉,多吃這3種肉,腿腳有力,精力充沛過夏

      花小廚
      2026-05-12 12:27:48
      中美王牌對王牌,沒有任何籌碼的歐盟,才發現自己被特朗普騙了

      中美王牌對王牌,沒有任何籌碼的歐盟,才發現自己被特朗普騙了

      晚霧空青
      2026-05-14 17:46:11
      代謝高了,人自然就瘦了!6 個方法加強代謝,每天多燃燒400千卡

      代謝高了,人自然就瘦了!6 個方法加強代謝,每天多燃燒400千卡

      增肌減脂
      2026-05-14 13:05:18
      車田正美70歲再開新坑,《天界篇》終于不鴿了

      車田正美70歲再開新坑,《天界篇》終于不鴿了

      晚星歸航2
      2026-05-14 16:06:36
      43歲未婚官宣二胎,網友傻眼了:姐你糊涂啊……

      43歲未婚官宣二胎,網友傻眼了:姐你糊涂啊……

      FUFASHION
      2026-05-14 21:06:25
      2026-05-15 05:32:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12625文章數 176463關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      體育要聞

      爭議抽象天王山,和季后賽最穩定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經要聞

      李強會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      手機
      游戲
      數碼
      教育
      軍事航空

      手機要聞

      比上代多賣了七成!華為Pura 90系列越賣越猛,蘋果該緊張了

      《極限競速地平線6》畫面對比 最佳游玩平臺在PC

      數碼要聞

      與“AMD+AMG”賽道相見,英特爾、邁凱倫F1車隊達成戰略合作

      教育要聞

      老師的績效也隨工資發了,領導好像不太能拿捏老師們了!

      軍事要聞

      美以伊戰爭期間以總理密訪阿聯酋

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 人妻在线中文字幕| 久久精品久久久久久噜噜| 小辣椒福利视频导航| 免费AV网站| 精品无码一区二区三区AV| 日韩午夜精品免费理论片| 网友偷拍视频一区二区三区| 96人妻| 亚洲香蕉| 江安县| 亚洲AV伊人久久综合密臀性色| va精品在线| 护士的小嫩嫩好紧好爽| av无码精品一区二区乱子| 影音先锋在线资源无码| 国产午夜精品一区二区三| 亚洲精品久荜中文字幕| 国产乱弄免费视频观看| 揭东县| 99久久精品久久久久久婷婷| 国产福利姬喷水福利在线观看| 国产精品69毛片高清亚洲| wwww黄色| 国产农村妇女高潮大叫| 欧美又粗又长又爽做受| 国产精品久久久久孕妇| 日逼黄片| 少妇高潮a视频| 色两性网欧美| 久久亚洲av成人无码软件| 国产乱理伦片在线观看| 亚洲自偷自拍另类第1页| 日韩精品亚洲专区在线观看| 人妻?制服?丝袜| 国产精品一品二区三区的使用体验| 精品偷自拍另类在线观看| 欧美老人巨大XXXX做受视频| 最新色站| 欧美人与动zozo在线播放| 精品码字幕区中文在线| 亚洲不卡影院|