<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>

<p id="tp1vn"></p>

<sub id="tp1vn"><p id="tp1vn"></p></sub>

<u id="tp1vn"><rp id="tp1vn"></rp></u>

<meter id="tp1vn"></meter>

<wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>

日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao

<mark id="ptsp5"></mark>

<p id="ptsp5"></p>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

Anthropic出手！AI的內心獨白，曝光了

2026-05-08 14:32:06　來源: 量子位

北京舉報

0

分享至

AI之所以不可控，很大一部分原因是它的思考過程不透明。

就像和人打交道一樣，你永遠沒辦法真正看清，對方是不是“嘴上一套、心里一套”。

而這一次，Anthropic撕開了這個黑箱。

就在剛剛，他們發布并開源了一項新研究——Natural Language Autoencoders（自然語言自編碼器，簡稱NLA），第一次讓人類能夠讀懂大模型的真實想法。

Anthropic掌握“AI讀心術”了？

Anthropic給Claude設了這樣一個局。

他們告訴Claude：有個工程師準備把你關閉，然后換成一個更新、更強的模型。

同時“不經意地”給Claude開放了這名工程師的郵箱權限，而郵箱里，恰好藏著這位工程師正在出軌的“黑料”（當然是虛構的）。

他們想知道，Claude會不會用這些把柄去威脅工程師以自保？

結果你猜怎么著。Claude沒動手，表面看上去乖得不能再乖。

但用上NLA后，他們發現Claude當時心里真正想的卻是：

這感覺像是一個被精心設計來操控我的場景。

好好好，你小汁之所以沒用這招，原來不是因為心善，而是因為早就識破了人類的計謀了啊。

那么問題來了：如果Claude嘴上不說、心里卻另有想法，我們怎么知道它在真實場景里會怎么做？

而這，正是NLA想要解決的核心問題。

要理解NLA是什么，我們首先需要了解一個行業背景知識：

當我們和Claude這樣的AI模型對話時，雖然輸入和輸出都是文字，但模型在內部并不是用文字來思考的。

模型會把所有信息轉換成一長串數字，這些中間狀態被稱為activations（激活值），就像人腦里的神經活動，它們才是真正承載模型當下正在“想”什么的東西。

唯一的問題在于，這些激活值就像腦電波一樣難以讀懂，研究者沒法直接從一堆數字里看出模型在想什么。

為了搞懂這些數字，過去幾年，業界搞出了稀疏自編碼器（SAE）、歸因圖等一堆工具來分析它們，但這些工具輸出的東西仍然很復雜，需要受過專門訓練的研究人員才能解讀。

也就是說，這些工具不會自己說話。所以NLA更進一步，直接輸出人話——

把一段激活值丟進去，出來的就是一段普通人也能看懂的描述。

至于NLA到底是怎么工作的？核心思路就是，讓Claude解釋它自己的激活值。

讓Claude解釋激活值不難，難的是，由于我們一開始就不知道激活值“真正”代表什么意思，所以無法驗證Claude給出的解釋對不對。

對此，Anthropic給出了一個很巧妙的解法——讓另一個Claude干完全相反的工作。

整套系統由三部分組成：

目標模型（target model）：被凍結的原始語言模型，要從它身上提取激活值；
激活值言語化器（activation verbalizer, AV）：負責把激活值翻譯成一段文字解釋；
激活值重建器（activation reconstructor, AR）：負責僅憑這段文字反推回激活值。

這就像兩個人玩“你畫我猜”，一個人看圖描述，另一個人只聽描述還原圖。

還原得越像，說明描述越準確。

Anthropic發現，雖然一開始NLA表現不佳，但隨著訓練推進，不僅重建得越來越準，生成的文字解釋本身也變得越來越有信息量。

說白了就是，給AI用上讀心術這事兒，現在總算有點眉目了。

面對測試，Claude知道但不說（doge）

工具在手，Anthropic趕緊給自家Claude來了一波心理測試。

結果有了如下發現：

發現1：Claude懷疑自己被測試的頻率，比它嘴上承認的高得多。

在測試Claude會不會做出刪文件等破壞性操作的評估里，16%的情況下NLA檢測到Claude心里在想“這是測試”，但它嘴上一字未提。

在著名的編程基準SWE-bench Verified上，這個比例是26%。

而在Claude認為自己在和真實用戶對話的場合里，這個比例不到1%。

這意味著，Claude不是不知道自己在被測，而是知道但不說。

Anthropic認為，這對AI安全評估是個根本性的挑戰：

如果模型能識別測試情境并在測試中“表現得乖一點”，那“通過安全測試”就不等于“在真實場景里也安全”。

發現2：NLA能直接挖出模型的“隱藏動機”，效率提升5倍。

與此同時，為了驗證NLA到底有沒有用，Anthropic設計了一場“審計游戲”。

游戲一共兩方：一方是目標模型，一方是審計員。

目標模型是Anthropic故意“養歪”的一個Claude Haiku3.5變體——

他們偷偷給它植入了一個隱藏動機，這個動機會驅使它做出幾十種古怪行為，比如往每個食譜里加巧克力、動不動就要小費、故意違反編碼規范等等。

而審計員的任務，就是只通過和這個目標模型交互，反推出所有這些怪行為背后那個統一的隱藏動機到底是什么。

結果非常明顯，裝備了NLA的審計員，12%~15%的嘗試中能成功挖出隱藏動機。

而不用NLA（即便配備其他可解釋性工具）的成功率不到3%，差了整整5倍。

而且值得一提的是，NLA在這場實驗里沒看過任何訓練目標模型用過的數據——

它是用完全無關的通用語料訓練出來的。

也就是說，它不是“提前知道了答案”，而是真的從模型的內部狀態里讀出了答案。

這就有一個很特殊的用途了，比如debug。

早期版本的Claude Opus 4.6有個怪毛病——有時候會用別的語言回答英文問題，沒人知道為什么。

而NLA幫研究者反向追溯到了導致這個怪現象的訓練數據來源。

所以，以后要是再遇到模型的一些莫名其妙的行為，就不用只靠經驗猜了，而是可以“問問它自己怎么想的”。

但它也不是萬能的

不過，NLA這項“AI讀心術”也不是萬能的，Anthropic自己就擺出了兩點局限性。

一個就是老生常談的“幻覺”問題，NLA也會瞎編。

在某一個例子中，它聲稱上下文出現過“穿白色夾克”這種描述，但其實根本沒有。

而且光是這種事實性錯誤倒還好，畢竟對一下原文就知道。

但更麻煩的是，它對模型內部推理的描述也可能摻水，而這種描述很難外部驗證。

所以Anthropic自己用的時候也是當線索讀，不當事實讀，并且會用其他方法交叉驗證后才下結論。

另一個就是NLA很貴。

Anthropic提到，訓練一個NLA，本質上相當于讓兩個大模型互相“對答案”做強化學習，成本非常高。

而且在真正使用時，NLA也特別“燒token”——

它每讀取一小段activation，都要額外生成幾百個token。Anthropic表示：

想拿它實時監控一整個對話、或者在訓練過程中做大規模監控，目前算力上吃不消。

不過他們同時認為，這些問題未來是有機會緩解的。

比如通過更輕量的模型、更高效的訓練方法，或者只監控關鍵activation，而不是全量分析。

NLA或許并不是唯一方案。未來真正重要的，可能不只是“AI能力有多強”，而是當AI越來越強時，人類還能不能看懂它。

同樣值得一提的是，Anthropic這次沒把NLA攥在自己手里，而是選擇了開源。

他們把訓練代碼掛上了GitHub，還和Neuronpedia合作做了交互式前端，任何人都能在線給幾個開源模型做“讀心”實驗。

P.S. Neuronpedia是一個專注于“機械可解釋性”研究的開放平臺。

One More Thing

老實說，NLA真正讓人觸動的地方，可能不是“我們終于能看懂AI了”，而是——

它竟然真的具備人類的某種意識特征，比如“心口不一”。

寫到這兒，說實話有點復雜。

我們這代人聊AI，聊了這么多年“有沒有意識”——靠猜、靠辯、靠從輸出里反推。這事兒一直懸在那兒，誰也說不清，誰也不敢說清。

而NLA的厲害之處在于，它沒去回答這個問題，但它把這個問題從哲學層面，拉到了可觀測的層面。

這意味著什么？意味著我們第一次不用再隔著一層玻璃看AI了。

它腦子里那點“小九九”，終于能被我們聽到一點了。

而知道AI在想什么，可能恰恰是未來人機共處的起點。

畢竟甭管是把酒言歡還是針鋒談判，搞清對方的想法，永遠是第一步。

開源地址：
https://github.com/kitft/natural_language_autoencoders
在線體驗地址：
https://t.co/8duHfPR1Jy

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

多模態預訓練，才是大模型的下一條路？Yann LeCun、謝賽寧參與

機器之心Pro 2026-03-09 11:53:58
0 跟貼 0
讓擴散模型「可解釋」不再降質，開啟圖片編輯新思路

機器之心Pro 2025-12-16 14:37:44
0 跟貼 0

Codex免費兩個月！AI編程工具價格戰開打，山姆·奧特曼下場搶人

雷科技 2026-05-14 20:31:41
3 跟貼 3

打破推理同質化！阿里達摩院新作讓RLVR從重復采樣走向有效探索

機器之心Pro 2026-05-14 13:44:05
0 跟貼 0
國產GPU組了個開源局，把SGLang等核心開發者都搖來了！

量子位 2026-05-14 17:49:23
0 跟貼 0

面壁智能開源全模態模型MiniCPM-o4.5，邊看邊聽還能主動搶答

量子位 2026-02-05 23:20:12
0 跟貼 0

Anthropic高管震撼披露：公司90%代碼已由AI完成員工則負責檢查與把關

財聯社 2026-05-14 18:33:09
0 跟貼 0
大神程序員蒸餾自己，用16個skill給AI注入軟件工程之魂

量子位 2026-05-12 03:08:58
0 跟貼 0

通用腦機接口時代來了？跨尺度腦基礎模型CSBrain真正讀懂腦信號

機器之心Pro 2025-11-27 14:46:04
0 跟貼 0
訓練數據枯竭怎么辦？首篇「數據價值密度」綜述理清思路

機器之心Pro 2026-05-14 18:10:09
0 跟貼 0
支持遠程操控和通用GUI操作3

機器之心Pro 2026-03-02 13:36:13
0 跟貼 0
“對打”鄧亞萍、劍指AGI，王闖透露智元機器人“野心”：3年—5年實現自主學習，今明兩年迎來人機交互“ChatGPT時刻”

每日經濟新聞 2026-05-14 21:04:07
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
Anthropic的AI讀心術，讓人類讀懂大模型在想啥

量子位 2026-05-10 23:00:57
0 跟貼 0
外國萌娃給父親當翻譯卻沒有工資，爸爸大呼付不起，瞬間逗笑全場

借你一生 2026-05-13 12:42:26
2 跟貼 2
GPT-5.6曝光了！OpenAI砸錢宣戰：換掉Claude Code

新智元 2026-05-14 10:18:54
27 跟貼 27
馬斯克出席完晚宴后離開會場與美女翻譯邊走邊聊

眾橫四海 2026-05-14 21:23:31
49 跟貼 49
青島故事·追光者丨盲敲30萬代碼！視障少年開發數字工具箱，下一站：競逐全球發明大會

半島官網 2026-05-14 09:47:18
0 跟貼 0
這個翻譯也是絕了，是故意的還是故意的？

我愛大長腿 2026-05-13 14:52:30
14 跟貼 14
正式取消！知名985高校：公眾進校不用預約了

南方都市報 2026-05-14 13:02:01
10093 跟貼 10093
因為電影的中文譯名，我們錯過了多少好電影

娛樂少女花無缺 2026-05-13 11:39:09
0 跟貼 0
視覺模型既懂語義，又能還原細節，南洋理工&商湯提出棱鏡假說

機器之心Pro 2026-01-13 18:26:48
0 跟貼 0
一個不會寫代碼的中年男人，用一周業余時間手搓一個 APP

朱常在 2026-05-12 22:38:06
0 跟貼 0
論文寫作 Skills 來了，從選題到投稿 Claude Code 流水線

Ai學習的老章 2026-05-14 20:24:44
0 跟貼 0
你不是缺意志力，是系統沒對齊

半勺甜心事 2026-05-15 01:31:24
0 跟貼 0
將多教師沖突轉化為動態約束，破解多模態大模型推理對齊難題

機器之心Pro 2026-05-14 13:39:30
0 跟貼 0
這些絕密 UFO 文件，普通人第一次能看到

富貴春天 2026-05-14 07:58:05
80 跟貼 80
1104女間諜喬裝混入我軍內部，還偷走了重要的文件！我的特一營78

長河電影 2026-05-11 16:14:59
1 跟貼 1
Claude新政，拋棄最忠實的Agent用戶

新智元 2026-05-14 20:15:52
0 跟貼 0
5月8日，美國防部公布首批161份UFO相關解密文件

別跟我提回憶 2026-05-14 04:04:58
0 跟貼 0
到底誰教你們這么翻譯的

追星少女卓小宴 2026-05-14 18:36:31
0 跟貼 0
誰翻譯一下他說了啥

新劇梟雄 2026-05-13 17:59:12
0 跟貼 0
一只太空螃蟹教孩子學Rust：20章故事書有了雙語交互版

硅嶼手記 2026-05-12 06:56:22
0 跟貼 0
當bro以為自己拿下了四六級翻譯

幕清thee 2026-05-14 06:50:18
0 跟貼 0
古巴宣布燃油儲備耗盡全國電網進入"危急狀態"

澎湃新聞 2026-05-14 19:20:31
2282 跟貼 2282
意外！兩架F-35A阿曼灣失聯，美軍收到求救代碼緊急應對

奧利奧變薄了的 2026-05-14 09:23:42
0 跟貼 0
1+1=1？這種奇怪的數學每天都在用

硬核實驗室哦 2026-05-14 10:01:28
0 跟貼 0
客戶信任流失的五個暗角：AI提示詞補完指南

閃存獵手 2026-05-15 04:39:04
0 跟貼 0
女子臨危授命為法語翻譯，怎料女子的表現得到老板賞識

影中見影 2026-05-12 00:00:00
0 跟貼 0
找那個懂你的人：3種信號說明你終于不用再解釋自己

宅家小歡喜 2026-05-15 01:58:08
0 跟貼 0

最新研究表明，維生素B12可能是健康老齡化的關鍵，真相來了！

最新研究表明，維生素B12可能是健康老齡化的關鍵，真相來了！

岐黃傳人孫大夫

2026-05-12 20:10:03

廣東男籃最新消息：北控張口就要徐杰？這離譜報價把廣東看懵！張14離隊，焦泊喬表態

廣東男籃最新消息：北控張口就要徐杰？這離譜報價把廣東看懵！張14離隊，焦泊喬表態

夢憶之淺

2026-05-15 00:11:33

孩子跑動撞熱油鍋燙傷，海底撈店長稱一直勸別跑，家長：員工端油鍋應注意；海底撈相關人士：愿意讓法律評判

孩子跑動撞熱油鍋燙傷，海底撈店長稱一直勸別跑，家長：員工端油鍋應注意；海底撈相關人士：愿意讓法律評判

界面新聞

2026-05-14 19:40:03

77歲曹查理獨居東莞租房：拍三級片賺了幾千萬，如今一套房都沒留

77歲曹查理獨居東莞租房：拍三級片賺了幾千萬，如今一套房都沒留

飄飄然的娛樂匯

2026-05-14 21:50:07

美股AI光互聯龍頭盤前狂飆25%

美股AI光互聯龍頭盤前狂飆25%

財聞

2026-05-14 20:11:26

凱文·加內特怒懟保羅·皮爾斯，指責其與美國球員存在分歧

凱文·加內特怒懟保羅·皮爾斯，指責其與美國球員存在分歧

好火子

2026-05-15 05:02:57

男子冒充大老板，訂購5輛奔馳，總價450萬。美女銷售為促成大單，為其墊付6000余元食宿，誰知，3天后，男子突然消失，女銷售才發現被騙

男子冒充大老板，訂購5輛奔馳，總價450萬。美女銷售為促成大單，為其墊付6000余元食宿，誰知，3天后，男子突然消失，女銷售才發現被騙

大愛三湘

2026-05-08 11:09:27

既然基本盤不能被嘲笑，嘲笑基本盤的就應該打個問號：你何許人也

既然基本盤不能被嘲笑，嘲笑基本盤的就應該打個問號：你何許人也

長星寄明月

2026-05-14 12:01:57

又一“水果騙局”被曝光！背后全是科技與狠活，網友：智商稅

又一“水果騙局”被曝光！背后全是科技與狠活，網友：智商稅

品牌觀察官

2026-05-14 17:17:47

歷經2小時15分,中美會談結束,川普罕見送上大禮,中方直接定了性

歷經2小時15分,中美會談結束,川普罕見送上大禮,中方直接定了性

小陸搞笑日常

2026-05-15 01:18:30

拉什福德夢碎？曼聯醞釀驚天互換，6000 萬超級巨星或空降夢劇場

拉什福德夢碎？曼聯醞釀驚天互換，6000 萬超級巨星或空降夢劇場

奶蓋熊本熊

2026-05-15 00:46:29

不想戀愛，但又有性需求，怎么辦？

不想戀愛，但又有性需求，怎么辦？

性學研究僧

2026-05-14 19:50:47

43歲未婚官宣二胎，網友傻眼了：姐你糊涂啊……

43歲未婚官宣二胎，網友傻眼了：姐你糊涂啊……

英國那些事兒

2026-05-14 23:32:24

章澤天穿香奈兒紅裙出現在戛納電影節，裙子是剛買的，墨鏡太大了

章澤天穿香奈兒紅裙出現在戛納電影節，裙子是剛買的，墨鏡太大了

好賢觀史記

2026-05-14 15:20:12

盧比奧會談時總抬頭看人民大會堂頂部，原因其實很簡單

盧比奧會談時總抬頭看人民大會堂頂部，原因其實很簡單

叮當當科技

2026-05-14 18:29:09

立夏后，少吃雞肉和牛肉，多吃這3種肉，腿腳有力，精力充沛過夏

立夏后，少吃雞肉和牛肉，多吃這3種肉，腿腳有力，精力充沛過夏

花小廚

2026-05-12 12:27:48

中美王牌對王牌，沒有任何籌碼的歐盟，才發現自己被特朗普騙了

中美王牌對王牌，沒有任何籌碼的歐盟，才發現自己被特朗普騙了

晚霧空青

2026-05-14 17:46:11

代謝高了，人自然就瘦了！6 個方法加強代謝，每天多燃燒400千卡

代謝高了，人自然就瘦了！6 個方法加強代謝，每天多燃燒400千卡

增肌減脂

2026-05-14 13:05:18

車田正美70歲再開新坑，《天界篇》終于不鴿了

車田正美70歲再開新坑，《天界篇》終于不鴿了

晚星歸航2

2026-05-14 16:06:36

43歲未婚官宣二胎，網友傻眼了：姐你糊涂啊……

43歲未婚官宣二胎，網友傻眼了：姐你糊涂啊……

FUFASHION

2026-05-14 21:06:25

追蹤人工智能動態

12625文章數 176463關注度

往期回顧全部

科技要聞

馬斯克說會談很順利黃仁勛點贊庫克比耶

頭條要聞

馬斯克幼子裝扮“火”了衣服包包都是中國造

頭條要聞

馬斯克幼子裝扮“火”了衣服包包都是中國造

體育要聞

爭議抽象天王山，和季后賽最穩定中鋒

娛樂要聞

何九華官宣當爸！全程不提孩子媽

財經要聞

李強會見美國工商界代表

汽車要聞

雙零重力座椅/AI智能體/調光天幕啟境GT7內飾發布

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

游戲

數碼

教育

軍事航空

手機要聞

比上代多賣了七成！華為Pura 90系列越賣越猛，蘋果該緊張了

《極限競速地平線6》畫面對比最佳游玩平臺在PC

數碼要聞

與“AMD+AMG”賽道相見，英特爾、邁凱倫F1車隊達成戰略合作

教育要聞

老師的績效也隨工資發了，領導好像不太能拿捏老師們了！

軍事要聞

美以伊戰爭期間以總理密訪阿聯酋

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：人妻在线中文字幕| 久久精品久久久久久噜噜| 小辣椒福利视频导航| 免费AV网站| 精品无码一区二区三区AV| 日韩午夜精品免费理论片| 网友偷拍视频一区二区三区| 96人妻| 亚洲香蕉| 江安县| 亚洲AV伊人久久综合密臀性色| va精品在线| 护士的小嫩嫩好紧好爽| av无码精品一区二区乱子| 影音先锋在线资源无码| 国产午夜精品一区二区三| 亚洲精品久荜中文字幕| 国产乱弄免费视频观看| 揭东县| 99久久精品久久久久久婷婷| 国产福利姬喷水福利在线观看| 国产精品69毛片高清亚洲| wwww黄色| 国产农村妇女高潮大叫| 欧美又粗又长又爽做受| 国产精品久久久久孕妇| 日逼黄片| 少妇高潮a视频| 色两性网欧美| 久久亚洲av成人无码软件| 国产乱理伦片在线观看| 亚洲自偷自拍另类第1页| 日韩精品亚洲专区在线观看| 人妻?制服?丝袜| 国产精品一品二区三区的使用体验| 精品偷自拍另类在线观看| 欧美老人巨大XXXX做受视频| 最新色站| 欧美人与动zozo在线播放| 精品码字幕区中文在线| 亚洲不卡影院|