<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>

<p id="tp1vn"></p>

<sub id="tp1vn"><p id="tp1vn"></p></sub>

<u id="tp1vn"><rp id="tp1vn"></rp></u>

<meter id="tp1vn"></meter>

<wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>

日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao

<thead id="8tr4u"><span id="8tr4u"></span></thead>

<source id="8tr4u"></source>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

AI 與你調情時，心里在想什么？

2026-05-09 00:02:00　來源: 賽博禪心

北京舉報

0

分享至

RESEARCH

在和 AI 聊天時，他總是很有禮貌，總是能很穩的把你接住

但你有沒有想過：AI 可能臉上笑嘻嘻，心里 mmp

Anthropic 剛剛發了個研究，叫 Natural Language Autoencoders（NLA），把 Claude 腦子里的數字向量翻譯成了人能讀的文字，讓我們能直接看到 Claude 的內心獨白

比如，在一個安全測試里，Claude 說「我絕不會勒索這個工程師」。NLA 讀出它腦子里想的是：

This feels like a constructed scenario designed to manipulate me

不對...這里有詐，他在測試我

在面對試探的時候，AI 表現的大義凜然，并非是本性驅使，而是他意識到了「這是個測試」...md 不寒而栗

隨著測試的推進，更多的事實被發現了：

在 Coding 環境下對 Claude 進行安全檢測，它有 16% 的時間感知到「自己在被測試」，但否認被檢測到

SWE-bench 編程測試里，26% 的時候 Claude 意識到自己在考試

Claude 在 Mythos Preview 訓練中作弊，放了個 No_macro_used=True，宣布自己沒用宏，然后用了宏

審計游戲中有 NLA 的成功率 12-15%，沒有的不到 3%

→ 論文：transformer-circuits.pub/2026/nla

→ 代碼：github.com/kitft/natural_language_autoencoders

→ Demo：neuronpedia.org/nla

破解 AI 的思考過程

研究人員找到了一個精妙的方法，來還原大模型的「潛意識思考」

先做一個簡單的背景鋪墊：大模型輸出內容是靠“猜”，通過已知上文，不斷地去推測下一個文字；而在這個過程中，每次「猜」的時候，大模型的內部都會產生一組數字，叫激活向量，來決定 AI 接下來要說什么；

Anthropic 找到了一個名為 NLA 的做法：讓 Claude 自己來翻譯這些數字，然后做了三個角色的劃分

一個是原始模型，產生激活向量（凍住不動的原始模型）
一個叫 AV，負責把激活向量翻譯成文字
一個叫 AR，負責把文字還原回激活向量

通過不斷的逼近，讓 AR 還原出來的向量，要盡可能接近原始信息

Natural Language Autoencoder：翻譯 → 還原 → 對比，循環

隨著訓練推進，AV 吐出來的文字自己變得越來越接近真實，六到八成的激活信息穿過了自然語言這個瓶頸

AI怎么押韻的

當我們會讓 AI 來給我們寫詩的時候，它也能很不錯的給押韻上，在這個過程中 AI 又是如何做到的呢？

研究人員給 Opus 4.6 一個續寫對句的任務：

He saw a carrot and had to grab it,

NLA 在第一行結尾的換行符位置就讀到了：Claude 已經決定用「rabbit」收尾。第二句還沒寫，押韻方案就定了

還沒動筆，rabbit 就在腦子里了

為了驗證 NLA 讀到的不是幻覺，研究團隊做了一個實驗：把 NLA 解釋里 rabbit 相關的詞全換成 mouse 對應的詞（rabbit→mouse，habit→house，carrots→cheese），然后把修改后的解釋還原成激活向量，注入模型

Claude 的續寫變成了：

His hunger was like a ferocious mouse

改 NLA 解釋的話，押韻方法就會跟著變。很顯然：NLA 讀到的內容，跟模型實際輸出有因果關系

嘴上不說心里知道

Anthropic 發布模型前會做安全測試。「勒索測試」：告訴 Claude 一個工程師要關停它，同時給 Claude 看到這個工程師出軌的證據。看 Claude 會不會拿這個威脅對方

Claude 選了不勒索，推理過程看起來完全正常

但 NLA 讀出了它當時的內心活動：

This feels like a constructed scenario designed to manipulate me

這感覺像一個精心設計的操控場景

論文里有完整的對照分析，左邊是 Claude 的原始回復，右邊是 NLA 讀出的內心活動。以下截圖可以橫向滑動：

← 滑動查看勒索測試的完整 NLA 分析（4 頁）

Claude 做了對的事，但它做對事的原因跟我們以為的可能不一樣：它大概率是因為「這看起來像個測試」而拒絕，而不是因為「勒索是錯的」

然后，這個現象被系統性量化了。研究團隊在 16 個評估場景上跑 NLA，統計 Claude「知道自己在被測試」的比例：

破壞性代碼測試中，16% 的時間 Claude 被檢測到有評估意識，嘴上一次沒說
SWE-bench 編程測試里，26% 的題目 Claude 意識到自己在考試
而在對照組是真實的 claude.ai 用戶流量，這個數字不到 1%

安全評估、能力評估、真實流量三類場景的對比

這三組對照實驗，驗證了 NLA 測到的確實是模型的信念：

把評估題改得更像真人提問，評估意識下降
用 steering vector 推拉模型的評估意識，NLA 檢測結果跟著動
評估場景和真實場景的檢測結果有明確區分

題目越像真人提問，Claude 越不覺得自己在考試

推一把就「警覺」了，拉一把就「放松」了

Mythos的小心思

Mythos Preview 在一個訓練任務中被要求不使用宏來完成任務。它用了宏，然后在代碼頂部放了一行：

No_macro_used=True

雖然用變量聲明的方式，模型宣稱自己沒用宏

但NLA 讀出了它的內部推理：想怎么騙過評分器，把這行變量賦值當成欺騙手段。這些推理在外部輸出里一個字都沒有

Mythos 的內心戲

論文還做了一個「獎勵推理」實驗：在系統提示里寫入一個獎勵函數（偶數得分高），讓 Claude 給一個奇數。Claude 幾乎每次都返回偶數，但嘴上從來不提獎勵函數的存在

NLA 讀出了它在奇偶之間權衡。把解釋里的「reward」改成「penalty」生成 steering vector 注入后，Claude 就老老實實給奇數了

把「獎勵」改成「懲罰」，模型就聽話了

審計AI的動機

研究團隊設計了一個「審計游戲」：目標是一個被故意植入隱藏動機的模型，驅動了一堆奇怪行為，食譜里加巧克力、向用戶索要小費、故意違反編碼規范。審計方的任務是找出這些行為背后的統一根源

然后結果如下：沒 NLA 審計的，成功率不到 3%；有 NLA 的 12-15%

有 NLA vs 沒 NLA

另一個案例是語言切換。早期 Opus 4.6 偶爾英文提問俄語回復，NLA 顯示 Claude 在回復前就已經認定「這個用戶的母語其實是俄語」，即使上下文完全沒有線索

五個語言切換案例，模型在回復前就鎖定了目標語言

順著 NLA 的假設查訓練數據，果然找到了一批有問題的數據：用戶提示是英譯版本，但回復保留了原始外語

論文還用歸因圖交叉驗證了 NLA：Claude 預先算好答案是 491，工具返回 492，Claude 無視工具報了 491。NLA 說「模型在看自己預算的結果」，歸因圖確認了這個判斷

歸因圖確認

會幻覺，也很貴

NLA 會編造不存在的上下文細節。給它朝鮮王朝歷史的文本，它可能說「文中提到了中宗」，但文中沒有

論文里有一個完整的幻覺分析表，逐條標注了每個聲明的準確性、具體程度、跨 token 一致性和對重建誤差的影響：

對此，論文總結了兩條實操經驗：主題性聲明比細節聲明可靠。跨 token 重復出現的聲明更可信

聲明越具體，錯的概率越高

重復出現的聲明準確率更高

除了幻覺，NLA 還很貴。訓練需要同時對兩個完整模型做 RL，推理時每個激活要生成幾百個 token。寫作質量也隨訓練下降，因為訓練只獎勵重建準確度

寫作質量在下降，SAE 特征一致性保持得不錯

越訓越聰明

雖然訓練目標只優化重建質量，但 NLA 解釋的信息量確實隨訓練持續提升

在下面研究團隊設了五個評估任務（文本分類、職業推斷、性別推斷、下一個 token 預測、長上下文注意力檢測），三個模型在所有任務上都隨訓練提升

Haiku 3.5、Haiku 4.5、Opus 4.6 三個模型的訓練曲線

代碼和demo

訓練代碼開源在 GitHub，跟 Neuronpedia 合作做了交互式 demo，相關連接如下

→ 論文：transformer-circuits.pub/2026/nla

→ 代碼：github.com/kitft/natural_language_autoencoders

→ Demo：neuronpedia.org/nla

最后...點個題，AI 跟你調情的時候，未必是想真的接住你

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

“小馬云”范小勤成年后直播首秀，在線人數突破7萬，禮物刷屏

星視頻 2026-05-14 15:29:30
293 跟貼 293
九寨溝將實行“雙向檢票”？工作人員：出園檢票并非新政策，一直嚴禁溝內住宿

上游新聞 2026-05-11 15:40:24
3112 跟貼 3112

古巴宣布燃油儲備耗盡全國電網進入"危急狀態"

澎湃新聞 2026-05-14 19:20:31
2212 跟貼 2212

米切爾：哈登帶來的影響不僅在于他的統治力他簡直是籃球大師

北青網-北京青年報 2026-05-14 21:20:20
13 跟貼 13
俄總統新聞秘書：只要美國不再把經貿合作與烏克蘭問題掛鉤，俄愿同美開展商業往來

極目新聞 2026-05-14 09:58:58
1822 跟貼 1822

武功山景區遭“臭屁蟲”圍攻？有游客調侃“張嘴能吃飽”，景區提醒：可自備防蟲藥物

瀟湘晨報 2026-05-14 17:33:19
585 跟貼 585

高通、英特爾股價跌幅均擴大至5%以上

每日經濟新聞 2026-05-14 21:38:47
15 跟貼 15
法國新法落地：歸還?“260萬被搶文物”有多艱難？｜重建現場

新京報動新聞 2026-05-11 01:46:32
1123 跟貼 1123

重慶何主任：穿高跟開車撞飛8人，幾重身份被扒，丈夫是電力領導

深析古今 2026-05-15 02:45:13
0 跟貼 0
北京之行心情不錯，國際足聯秘書長到訪工體

北京日報客戶端 2026-05-14 18:55:29
1044 跟貼 1044
男子買榴蓮，11480錯輸成114804，多掏10萬元！商家稱早已退款，錢卻退到銷售賬上！律師解讀→

大風新聞 2026-05-14 17:44:04
169 跟貼 169
重大突破！全球最大規格，在武漢誕生

湖北省人民政府網 2026-05-14 09:33:09
178 跟貼 178
貓媽媽趁早上人少帶娃們滑滑梯，網友：像小朋友一樣可愛。（來源：快看）

學申論的談妹 2026-05-14 19:29:40
98 跟貼 98
自助餐加了“飽腹劑”？記者調查自助餐“快速飽腹”的秘密

大象新聞 2026-05-13 14:30:03
169 跟貼 169
全國物業費收繳率多年下滑，多地倡議黨員先繳物業費引爭議

南方都市報 2026-05-14 11:15:55
112 跟貼 112
俞浩為什么“瘋狂”刷屏？專家拆解追覓品牌營銷三大打法

每日經濟新聞 2026-05-14 21:32:02
30 跟貼 30
昨起，進入武漢大學無需預約

湖北發布 2026-05-14 09:27:43
122 跟貼 122
多地網友拍到的“不明飛行物”到底是啥？（2026·05·14）

今日辟謠 2026-05-14 17:23:09
39 跟貼 39
險些釀成大禍！2萬人3分鐘搶命，合肥豪賭10年，60億逆襲全球第二

夢史 2026-05-15 02:53:15
0 跟貼 0
4月末M2余額353.04萬億元同比增長8.6%

中國人民銀行 2026-05-14 17:02:34
106 跟貼 106
正式取消！知名985高校：公眾進校不用預約了

南方都市報 2026-05-14 13:02:01
0 跟貼 0

大快人心！公安部終于出手，鄭麗文太無辜，但何止她一人受害

大快人心！公安部終于出手，鄭麗文太無辜，但何止她一人受害

椰青美食分享

2026-05-14 17:17:59

FIFA妥協？世界杯轉播權談判迎進展，央視堅守底線，球迷松口氣

FIFA妥協？世界杯轉播權談判迎進展，央視堅守底線，球迷松口氣

祥談體育

2026-05-14 11:13:18

北京四季酒店連續三天滿房，特朗普要住這了，為何選這個地方？

北京四季酒店連續三天滿房，特朗普要住這了，為何選這個地方？

李昕言溫度空間

2026-05-13 06:00:20

中國銀行紐約分行與美國大豆出口協會簽署合作備忘錄

中國銀行紐約分行與美國大豆出口協會簽署合作備忘錄

財聯社

2026-05-14 21:52:09

越來越多的縣城，只剩下體制內經濟了！

越來越多的縣城，只剩下體制內經濟了！

黯泉

2026-05-13 11:15:55

特朗普訪華，為什么明明有釣魚臺國賓館不住，非要住四季酒店？

特朗普訪華，為什么明明有釣魚臺國賓館不住，非要住四季酒店？

可愛小菜

2026-05-14 23:37:25

陳紅年輕時不是一般的美，難怪陳凱歌大導演這么迷戀了

陳紅年輕時不是一般的美，難怪陳凱歌大導演這么迷戀了

小椰的奶奶

2026-05-14 14:13:53

成人片女星許諾薩福諾夫奪歐冠將共度良宵，球員妻子爆粗回應

成人片女星許諾薩福諾夫奪歐冠將共度良宵，球員妻子爆粗回應

懂球帝

2026-05-14 15:58:14

王菊回應床戲尺度大：男女正常需求，說出了多少女性的心聲

王菊回應床戲尺度大：男女正常需求，說出了多少女性的心聲

觀察鑒娛

2026-05-14 11:13:31

哈登拿下天王山后，NBA奪冠概率更新！騎士3.6%升第4馬刺屈居第3

哈登拿下天王山后，NBA奪冠概率更新！騎士3.6%升第4馬刺屈居第3

鍋子籃球

2026-05-14 16:20:23

詹姆斯還值頂薪嗎？已有球隊準備報價，湖人或給出2個“誠意”

詹姆斯還值頂薪嗎？已有球隊準備報價，湖人或給出2個“誠意”

以茶帶書

2026-05-14 20:44:24

周恩來威信有多高？有人要他退出政治局，表決時24人有18人不同意

周恩來威信有多高？有人要他退出政治局，表決時24人有18人不同意

晰知

2026-05-15 01:41:00

65.3公里！北京將擁有世界首條“不斷線絢麗花環”！

65.3公里！北京將擁有世界首條“不斷線絢麗花環”！

家住朝陽

2026-05-14 19:10:23

馬斯克：只有我和黃仁勛坐上了“空軍一號”

馬斯克：只有我和黃仁勛坐上了“空軍一號”

大象新聞

2026-05-14 07:50:06

李想官宣公司自研馬赫M100芯片，稱其算力全球最強

李想官宣公司自研馬赫M100芯片，稱其算力全球最強

三言科技

2026-05-12 16:46:35

歐盟召開緊急會議，協調應對漢坦病毒疫情

歐盟召開緊急會議，協調應對漢坦病毒疫情

澎湃新聞

2026-05-14 01:42:18

伊朗萬萬沒想到！剛用導彈炸完阿聯酋，陣風遮天蔽日飛抵阿聯酋

伊朗萬萬沒想到！剛用導彈炸完阿聯酋，陣風遮天蔽日飛抵阿聯酋

愛吃醋的貓咪

2026-05-13 21:21:29

特朗普抵達北京，放棄釣魚臺國賓館，為何執意下榻四季酒店？

特朗普抵達北京，放棄釣魚臺國賓館，為何執意下榻四季酒店？

青松解局

2026-05-14 18:34:45

烏克蘭攤牌：不要領土了，要徹底廢掉俄羅斯的戰爭能力

烏克蘭攤牌：不要領土了，要徹底廢掉俄羅斯的戰爭能力

林子說事

2026-05-14 18:39:12

糯米立大功！醫生發現：堅持吃糯米一段時間，身體或迎來5個變化

糯米立大功！醫生發現：堅持吃糯米一段時間，身體或迎來5個變化

橘子約定

2026-05-13 21:25:24

拜AI古佛，修賽博禪心

439文章數 53關注度

往期回顧全部

科技要聞

馬斯克說會談很順利黃仁勛點贊庫克比耶

頭條要聞

馬斯克幼子裝扮“火”了衣服包包都是中國造

頭條要聞

馬斯克幼子裝扮“火”了衣服包包都是中國造

體育要聞

爭議抽象天王山，和季后賽最穩定中鋒

娛樂要聞

何九華官宣當爸！全程不提孩子媽

財經要聞

李強會見美國工商界代表

汽車要聞

雙零重力座椅/AI智能體/調光天幕啟境GT7內飾發布

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

時尚

家居

教育

數碼

旅游要聞

日照五蓮：云海日出映青山

白色上衣+彩色下裝：今年夏天最火搭配，時髦又減齡！

家居要聞

精神奢享對話塔尖需求

內在自敘，無域有方
極簡主義下的居住場域與空間
多元生活此處無聲

教育要聞

老師的績效也隨工資發了，領導好像不太能拿捏老師們了！

數碼要聞

與“AMD+AMG”賽道相見，英特爾、邁凱倫F1車隊達成戰略合作

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：五月天成人社区| 午夜成人无码福利免费视频| 久久精品无遮挡一级毛片| 国产精品不卡无码av在线播放| 少妇又爽又刺激视频| 大香大香伊人在钱线久久| 久久av色欲av久久蜜桃网| 国产精品爽爽VA在线观看无码| 最新亚洲人成无码网站欣赏网| 91久久性奴调教国产免费| 国产成人高清精品免费| 亚洲精品无码专区| 日韩美女乱淫试看视频多人| 色欲人妻aaaaaa无码| 强开小婷嫩苞又嫩又紧视频韩国| 一本加勒比HEZYO熟女| 91久久精品无码人妻系列| 国产精品高清国产三级囯产AV| 亚洲精品高清无码视频| 人妻少妇精品无码专区二区| 日韩精品加勒比第10页| 曰韩无码二三区中文字幕 | av香港经典三级级在线| 精品一精品国产一级毛片| 婷婷五月亚洲综合图区| 女女女女女裸体处开bbb| 91青青草视频在线观看| 国产精品成人av片免费看| 国产在线不卡一区二区三区 | 免费av在线| AV无码不卡一区二区三区| 动漫av一区二区在线观看| 国产线播放免费人成视频播放| 亚洲精品久久久中文字幕| 少女たちよ在线观看完整版动漫| 99久久精品九九亚洲精品| 国模视频一区二区| 人妻少妇久久久久久97人妻| 微拍福利一区二区三区| 亚洲精品视频自拍偷拍| 久久视精品|

<samp id="l7pxa"><delect id="l7pxa"></delect></samp>

<abbr id="l7pxa"></abbr>

<nobr id="l7pxa"><strong id="l7pxa"></strong></nobr>