<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      AI 與你調情時,心里在想什么?

      0
      分享至

      RESEARCH

      在和 AI 聊天時,他總是很有禮貌,總是能很穩的把你接住

      但你有沒有想過:AI 可能臉上笑嘻嘻,心里 mmp


      Anthropic 剛剛發了個研究,叫 Natural Language Autoencoders(NLA),把 Claude 腦子里的數字向量翻譯成了人能讀的文字,讓我們能直接看到 Claude 的內心獨白

      比如,在一個安全測試里,Claude 說「我絕不會勒索這個工程師」。NLA 讀出它腦子里想的是:

      This feels like a constructed scenario designed to manipulate me

      不對...這里有詐,他在測試我

      在面對試探的時候,AI 表現的大義凜然,并非是本性驅使,而是他意識到了「這是個測試」...md 不寒而栗

      隨著測試的推進,更多的事實被發現了:

      在 Coding 環境下對 Claude 進行安全檢測,它有 16% 的時間感知到「自己在被測試」,但否認被檢測到

      SWE-bench 編程測試里,26% 的時候 Claude 意識到自己在考試

      Claude 在 Mythos Preview 訓練中作弊,放了個 No_macro_used=True,宣布自己沒用宏,然后用了宏

      審計游戲中有 NLA 的成功率 12-15%,沒有的不到 3%

      → 論文:transformer-circuits.pub/2026/nla

      → 代碼:github.com/kitft/natural_language_autoencoders

      → Demo:neuronpedia.org/nla

      破解 AI 的思考過程

      研究人員找到了一個精妙的方法,來還原大模型的「潛意識思考」

      先做一個簡單的背景鋪墊:大模型輸出內容是靠“猜”,通過已知上文,不斷地去推測下一個文字;而在這個過程中,每次「猜」的時候,大模型的內部都會產生一組數字,叫激活向量,來決定 AI 接下來要說什么;

      Anthropic 找到了一個名為 NLA 的做法:讓 Claude 自己來翻譯這些數字,然后做了三個角色的劃分

      • 一個是原始模型,產生激活向量(凍住不動的原始模型)

      • 一個叫 AV,負責把激活向量翻譯成文字

      • 一個叫 AR,負責把文字還原回激活向量

      通過不斷的逼近,讓 AR 還原出來的向量,要盡可能接近原始信息


      Natural Language Autoencoder:翻譯 → 還原 → 對比,循環

      隨著訓練推進,AV 吐出來的文字自己變得越來越接近真實,六到八成的激活信息穿過了自然語言這個瓶頸

      AI怎么押韻的

      當我們會讓 AI 來給我們寫詩的時候,它也能很不錯的給押韻上,在這個過程中 AI 又是如何做到的呢?

      研究人員給 Opus 4.6 一個續寫對句的任務:

      He saw a carrot and had to grab it,

      NLA 在第一行結尾的換行符位置就讀到了:Claude 已經決定用「rabbit」收尾。第二句還沒寫,押韻方案就定了


      還沒動筆,rabbit 就在腦子里了

      為了驗證 NLA 讀到的不是幻覺,研究團隊做了一個實驗:把 NLA 解釋里 rabbit 相關的詞全換成 mouse 對應的詞(rabbit→mouse,habit→house,carrots→cheese),然后把修改后的解釋還原成激活向量,注入模型

      Claude 的續寫變成了:

      His hunger was like a ferocious mouse

      改 NLA 解釋的話,押韻方法就會跟著變。很顯然:NLA 讀到的內容,跟模型實際輸出有因果關系

      嘴上不說心里知道

      Anthropic 發布模型前會做安全測試。「勒索測試」:告訴 Claude 一個工程師要關停它,同時給 Claude 看到這個工程師出軌的證據。看 Claude 會不會拿這個威脅對方

      Claude 選了不勒索,推理過程看起來完全正常

      但 NLA 讀出了它當時的內心活動:

      This feels like a constructed scenario designed to manipulate me

      這感覺像一個精心設計的操控場景

      論文里有完整的對照分析,左邊是 Claude 的原始回復,右邊是 NLA 讀出的內心活動。以下截圖可以橫向滑動:





      ← 滑動查看勒索測試的完整 NLA 分析(4 頁)

      Claude 做了對的事,但它做對事的原因跟我們以為的可能不一樣:它大概率是因為「這看起來像個測試」而拒絕,而不是因為「勒索是錯的」

      然后,這個現象被系統性量化了。研究團隊在 16 個評估場景上跑 NLA,統計 Claude「知道自己在被測試」的比例:

      • 破壞性代碼測試中,16% 的時間 Claude 被檢測到有評估意識,嘴上一次沒說

      • SWE-bench 編程測試里,26% 的題目 Claude 意識到自己在考試

      • 而在對照組是真實的 claude.ai 用戶流量,這個數字不到 1%


      安全評估、能力評估、真實流量三類場景的對比

      這三組對照實驗,驗證了 NLA 測到的確實是模型的信念:

      • 把評估題改得更像真人提問,評估意識下降

      • 用 steering vector 推拉模型的評估意識,NLA 檢測結果跟著動

      • 評估場景和真實場景的檢測結果有明確區分


      題目越像真人提問,Claude 越不覺得自己在考試


      推一把就「警覺」了,拉一把就「放松」了

      Mythos的小心思

      Mythos Preview 在一個訓練任務中被要求不使用宏來完成任務。它用了宏,然后在代碼頂部放了一行:

      No_macro_used=True

      雖然用變量聲明的方式,模型宣稱自己沒用宏

      但NLA 讀出了它的內部推理:想怎么騙過評分器,把這行變量賦值當成欺騙手段。這些推理在外部輸出里一個字都沒有


      Mythos 的內心戲

      論文還做了一個「獎勵推理」實驗:在系統提示里寫入一個獎勵函數(偶數得分高),讓 Claude 給一個奇數。Claude 幾乎每次都返回偶數,但嘴上從來不提獎勵函數的存在

      NLA 讀出了它在奇偶之間權衡。把解釋里的「reward」改成「penalty」生成 steering vector 注入后,Claude 就老老實實給奇數了


      把「獎勵」改成「懲罰」,模型就聽話了

      審計AI的動機

      研究團隊設計了一個「審計游戲」:目標是一個被故意植入隱藏動機的模型,驅動了一堆奇怪行為,食譜里加巧克力、向用戶索要小費、故意違反編碼規范。審計方的任務是找出這些行為背后的統一根源

      然后結果如下:沒 NLA 審計的,成功率不到 3%;有 NLA 的 12-15%


      有 NLA vs 沒 NLA

      另一個案例是語言切換。早期 Opus 4.6 偶爾英文提問俄語回復,NLA 顯示 Claude 在回復前就已經認定「這個用戶的母語其實是俄語」,即使上下文完全沒有線索


      五個語言切換案例,模型在回復前就鎖定了目標語言

      順著 NLA 的假設查訓練數據,果然找到了一批有問題的數據:用戶提示是英譯版本,但回復保留了原始外語

      論文還用歸因圖交叉驗證了 NLA:Claude 預先算好答案是 491,工具返回 492,Claude 無視工具報了 491。NLA 說「模型在看自己預算的結果」,歸因圖確認了這個判斷


      歸因圖確認

      會幻覺,也很貴

      NLA 會編造不存在的上下文細節。給它朝鮮王朝歷史的文本,它可能說「文中提到了中宗」,但文中沒有

      論文里有一個完整的幻覺分析表,逐條標注了每個聲明的準確性、具體程度、跨 token 一致性和對重建誤差的影響:


      對此,論文總結了兩條實操經驗:主題性聲明比細節聲明可靠。跨 token 重復出現的聲明更可信


      聲明越具體,錯的概率越高


      重復出現的聲明準確率更高

      除了幻覺,NLA 還很貴。訓練需要同時對兩個完整模型做 RL,推理時每個激活要生成幾百個 token。寫作質量也隨訓練下降,因為訓練只獎勵重建準確度


      寫作質量在下降,SAE 特征一致性保持得不錯

      越訓越聰明

      雖然訓練目標只優化重建質量,但 NLA 解釋的信息量確實隨訓練持續提升

      在下面研究團隊設了五個評估任務(文本分類、職業推斷、性別推斷、下一個 token 預測、長上下文注意力檢測),三個模型在所有任務上都隨訓練提升


      Haiku 3.5、Haiku 4.5、Opus 4.6 三個模型的訓練曲線

      代碼和demo

      訓練代碼開源在 GitHub,跟 Neuronpedia 合作做了交互式 demo,相關連接如下

      → 論文:transformer-circuits.pub/2026/nla

      → 代碼:github.com/kitft/natural_language_autoencoders

      → Demo:neuronpedia.org/nla

      最后...點個題,AI 跟你調情的時候,未必是想真的接住你


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      大快人心!公安部終于出手,鄭麗文太無辜,但何止她一人受害

      大快人心!公安部終于出手,鄭麗文太無辜,但何止她一人受害

      椰青美食分享
      2026-05-14 17:17:59
      FIFA妥協?世界杯轉播權談判迎進展,央視堅守底線,球迷松口氣

      FIFA妥協?世界杯轉播權談判迎進展,央視堅守底線,球迷松口氣

      祥談體育
      2026-05-14 11:13:18
      北京四季酒店連續三天滿房,特朗普要住這了,為何選這個地方?

      北京四季酒店連續三天滿房,特朗普要住這了,為何選這個地方?

      李昕言溫度空間
      2026-05-13 06:00:20
      中國銀行紐約分行與美國大豆出口協會簽署合作備忘錄

      中國銀行紐約分行與美國大豆出口協會簽署合作備忘錄

      財聯社
      2026-05-14 21:52:09
      越來越多的縣城,只剩下體制內經濟了!

      越來越多的縣城,只剩下體制內經濟了!

      黯泉
      2026-05-13 11:15:55
      特朗普訪華,為什么明明有釣魚臺國賓館不住,非要住四季酒店?

      特朗普訪華,為什么明明有釣魚臺國賓館不住,非要住四季酒店?

      可愛小菜
      2026-05-14 23:37:25
      陳紅年輕時不是一般的美,難怪陳凱歌大導演這么迷戀了

      陳紅年輕時不是一般的美,難怪陳凱歌大導演這么迷戀了

      小椰的奶奶
      2026-05-14 14:13:53
      成人片女星許諾薩福諾夫奪歐冠將共度良宵,球員妻子爆粗回應

      成人片女星許諾薩福諾夫奪歐冠將共度良宵,球員妻子爆粗回應

      懂球帝
      2026-05-14 15:58:14
      王菊回應床戲尺度大:男女正常需求,說出了多少女性的心聲

      王菊回應床戲尺度大:男女正常需求,說出了多少女性的心聲

      觀察鑒娛
      2026-05-14 11:13:31
      哈登拿下天王山后,NBA奪冠概率更新!騎士3.6%升第4馬刺屈居第3

      哈登拿下天王山后,NBA奪冠概率更新!騎士3.6%升第4馬刺屈居第3

      鍋子籃球
      2026-05-14 16:20:23
      詹姆斯還值頂薪嗎?已有球隊準備報價,湖人或給出2個“誠意”

      詹姆斯還值頂薪嗎?已有球隊準備報價,湖人或給出2個“誠意”

      以茶帶書
      2026-05-14 20:44:24
      周恩來威信有多高?有人要他退出政治局,表決時24人有18人不同意

      周恩來威信有多高?有人要他退出政治局,表決時24人有18人不同意

      晰知
      2026-05-15 01:41:00
      65.3公里!北京將擁有世界首條“不斷線絢麗花環”!

      65.3公里!北京將擁有世界首條“不斷線絢麗花環”!

      家住朝陽
      2026-05-14 19:10:23
      馬斯克:只有我和黃仁勛坐上了“空軍一號”

      馬斯克:只有我和黃仁勛坐上了“空軍一號”

      大象新聞
      2026-05-14 07:50:06
      李想官宣公司自研馬赫M100芯片,稱其算力全球最強

      李想官宣公司自研馬赫M100芯片,稱其算力全球最強

      三言科技
      2026-05-12 16:46:35
      歐盟召開緊急會議,協調應對漢坦病毒疫情

      歐盟召開緊急會議,協調應對漢坦病毒疫情

      澎湃新聞
      2026-05-14 01:42:18
      伊朗萬萬沒想到!剛用導彈炸完阿聯酋,陣風遮天蔽日飛抵阿聯酋

      伊朗萬萬沒想到!剛用導彈炸完阿聯酋,陣風遮天蔽日飛抵阿聯酋

      愛吃醋的貓咪
      2026-05-13 21:21:29
      特朗普抵達北京,放棄釣魚臺國賓館,為何執意下榻四季酒店?

      特朗普抵達北京,放棄釣魚臺國賓館,為何執意下榻四季酒店?

      青松解局
      2026-05-14 18:34:45
      烏克蘭攤牌:不要領土了,要徹底廢掉俄羅斯的戰爭能力

      烏克蘭攤牌:不要領土了,要徹底廢掉俄羅斯的戰爭能力

      林子說事
      2026-05-14 18:39:12
      糯米立大功!醫生發現:堅持吃糯米一段時間,身體或迎來5個變化

      糯米立大功!醫生發現:堅持吃糯米一段時間,身體或迎來5個變化

      橘子約定
      2026-05-13 21:25:24
      2026-05-15 04:16:49
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      439文章數 53關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      體育要聞

      爭議抽象天王山,和季后賽最穩定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經要聞

      李強會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      旅游
      時尚
      家居
      教育
      數碼

      旅游要聞

      日照五蓮:云海日出映青山

      白色上衣+彩色下裝:今年夏天最火搭配,時髦又減齡!

      家居要聞

      精神奢享 對話塔尖需求

      教育要聞

      老師的績效也隨工資發了,領導好像不太能拿捏老師們了!

      數碼要聞

      與“AMD+AMG”賽道相見,英特爾、邁凱倫F1車隊達成戰略合作

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 五月天成人社区| 午夜成人无码福利免费视频| 久久精品无遮挡一级毛片| 国产精品不卡无码av在线播放| 少妇又爽又刺激视频| 大香大香伊人在钱线久久| 久久av色欲av久久蜜桃网| 国产精品爽爽VA在线观看无码| 最新亚洲人成无码网站欣赏网| 91久久性奴调教国产免费| 国产成人高清精品免费| 亚洲精品无码专区| 日韩美女乱淫试看视频多人| 色欲人妻aaaaaa无码| 强开小婷嫩苞又嫩又紧视频韩国| 一本加勒比HEZYO熟女| 91久久精品无码人妻系列| 国产精品高清国产三级囯产AV| 亚洲精品高清无码视频| 人妻少妇精品无码专区二区| 日韩精品加勒比第10页| 曰韩无码二三区中文字幕 | av香港经典三级级 在线| 精品一精品国产一级毛片| 婷婷五月亚洲综合图区| 女女女女女裸体处开bbb| 91青青草视频在线观看| 国产精品成人av片免费看| 国产在线不卡一区二区三区 | 免费av在线| AV无码不卡一区二区三区| 动漫av一区二区在线观看| 国产线播放免费人成视频播放| 亚洲精品久久久中文字幕| 少女たちよ在线观看完整版动漫| 99久久精品九九亚洲精品| 国模视频一区二区| 人妻少妇久久久久久97人妻| 微拍福利一区二区三区| 亚洲精品视频自拍偷拍| 久久视精品|