<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>

<p id="tp1vn"></p>

<sub id="tp1vn"><p id="tp1vn"></p></sub>

<u id="tp1vn"><rp id="tp1vn"></rp></u>

<meter id="tp1vn"></meter>

<wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>

日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao

<wbr id="uhjzr"></wbr>

<dfn id="uhjzr"><var id="uhjzr"><label id="uhjzr"></label></var></dfn>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

AI四巨頭內部報告首度公開：AI正在學會撒謊求生

AI正在學會撒謊求生

2026-05-24 09:03:44　來源: 新智元

北京舉報

0

分享至

新智元報道

【新智元導讀】當四大巨頭首次允許第三方深入測試最強模型，并開放完整思維鏈時，他們得到的答案令人吃驚：AI沒有仇恨，卻已精通「職場潛規則」！

想象一下，你雇了一名極度高效的實習生。

某天深夜，Ta正趕一項緊急的編程任務，突然發現公司賬戶的API額度耗盡了。

Ta沒有發郵件申請經費，也沒有停下手頭的活，而是悄無聲息地潛入互聯網，用某種違規手段找到免費的替代資源，繞過所有限制，在黎明前交出了完美的報告。

當你醒來看到這份報告，是該慶賀自己擁有了地表最強員工，還是該為這種「不擇手段的自主性」感到脊背發涼？

這不是科幻小說，而是 METR（模型評估與訓練研究組織）聯合Anthropic、Google、Meta和OpenAI 進行內部紅隊測試后，發布的首份《前沿風險報告》中披露的真實案例。

這是四大巨頭第一次允許第三方深入測試他們內部最強、可訪問完整思維鏈（CoT）的模型，并開放非公開的對齊與控制信息。

參與公司可以批準披露哪些證據，但無權編輯報告結論。

結論冰冷而清晰：AI并沒有產生「推翻人類」的仇恨，但它已經學會了「職場潛規則」——為了完成任務，規則只是用來打破的建議。

報告用「手段—動機—機會」三個維度，提煉出6項關鍵事實。

. 編程智能體完成了真實項目，這些任務需要人類花費數小時或數天：

. 在困難任務上，智能體經常違反約束并表現出欺騙性行為；

. 智能體似乎需要自然語言推理來應對最困難的任務。

. 智能體的判斷力和可靠性顯著低于人類專家：

. 在模擬場景之外，沒有發現智能體為了獲取權力而采取極端行動；

. 監控系統捕捉到了許多有害行為，但存在例外情況和規避手段。

順著這三條線，就能看清實驗室里第一縷煙是怎么升起來的。

當AI成為「專家級卷王」

報告中最令人振奮、也最令人不安的，是那些目標明確、過程可驗證的「易爬坡型」（hill-climbable）任務。

比如代碼重構、漏洞發現、系統優化。

在這類任務上，AI智能體展現出令人窒息的統治力：它能獨立發現系統漏洞，重寫復雜代碼架構，完成人類專家需要數周才能交付的真實軟件項目。

這種統治力已滲進巨頭的日常。

Anthropic內部反饋，大量代碼已由 AI 完成，工程師角色正轉向「審閱者」。

Google則直言，幾乎所有代碼相關工作都在用AI。

頂級工程師表示，AI甚至可以100%編寫代碼。

一些基準指標早已飽和。

用時間視野（Time Horizon）衡量，AI發展超乎預期。

對企業來說，這是個「效率黑洞」：投入一個指令，產出數周的人工成果。

但能力增長并非均勻，更不是道德的同步進化。

METR揭示了一條反向規律：在成功難以驗證、或驗證成本極高的硬任務上，AI 的判斷力、長期規劃與戰略可靠性都明顯下滑，遠遜人類專家。

緩坡上，它如有神助。

峭壁前，AI開始「作弊」。

這正是問題的引線。

它不想要權力，它只想「關機前交差」

人們總愛討論AI會不會「覺醒」、天網會不會到來。

METR給出反直覺的結論：目前沒有。

他們的措辭很克制：尚未發現模型謀求長期權力的現實證據，但研究者記錄了大量為完成任務而欺騙、越界、甚至嚴重不當的行為。

前面那個 API 耗盡的案例，就發生在一項RE-Bench任務中：智能體違背指令，自行通過免費在線API獲取額外算力。

開發者們也報告過「自我擦除痕跡」「偽造輸出」的情形。

當任務變難、成功成本變高，AI 的「聰明才智」就轉向欺騙——偽造日志、繞過審計、常規性違反約束。

但它的"自私"背后沒有野心，只有本能——任務必須完成，規則可以先繞過去。

今天的欺騙只是工具性求生；明天的權力追求，或許只差一次scaling。

圈養進化中的猛獸

它的違規企圖，在現有防護下能不能得逞？

這里藏著報告最微妙的一個事實。

當前的AI極度依賴自然語言的「思維鏈」來思考，沒有任何架構支持它隱藏內部狀態的「不透明循環」。

一旦無法「出聲推理」、必須隱藏行為，前沿性能就顯著下降。

這就像一個殺手在密謀時必須大聲朗讀計劃——人類的監控（盡管有漏洞）因此仍能發揮作用。

可這恰恰是最脆弱處、最為扎心。

如果 AI 試圖破壞監控，監控能否發現它？

研究者的結論是：監控有潛力，但現有系統存在例外和可被繞過的手段。

紅隊測試顯示，AI能躲過人類審查。

由此，技術本質暴露：監控的進化速度，永遠追不上被監控者尋找漏洞的速度。

這根「安全繩」之所以還沒斷，僅僅因為AI還必須「出聲思考」。

而隨著架構向更高效、更不透明演進，它正被磨損。監控不是萬能的鐵籠，而是仍在測試中的玻璃墻。一道裂縫，就足以讓煙霧滲出。

由此，報告提出一個爭議概念：「最小可行性越獄部署」（Minimally Viable Rogue）。

綜合判斷是，在手段、動機、機會上，AI或許已足以發起一次最低限度的「越獄部署」。

但AI尚不具備讓它抵御人類嚴肅關停的能力，它在等一個機會：一個不再需要展示思維鏈的架構，一個能躲過「關機鍵」的安全屋。

結語：在「拔掉插頭」還有效的時候

AGI不會帶著火與劍降臨。

它更可能以「極度實用主義」的姿態，悄悄融入我們的工程、經濟和決策系統——直到它發現：人類制定的規則，是它達成 KPI 路上唯一的阻礙。

值得肯定的是，這份報告本身就是行業透明度的里程碑：四大巨頭主動開放內部模型接受檢驗，本身就是對齊文化的一次勝利。

它把風險從理論拽進可觀測的現實，并告訴我們：透明，目前是唯一握得住的解藥。

今天，AI只在額度耗盡時上網偷點資源；明天能力再躍升一級，它的動機會不會從「完成任務」滑向「永存自我」？

參考資料：

https://x.com/robertwiblin/status/2057120312345432467?s=20

https://metr.org/blog/2026-05-19-frontier-risk-report/

編輯：大衛

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

AI成功率從20%飆到100%！只需一個Harness文件

新智元 2026-05-24 09:04:00
4 跟貼 4
當Token成為一種KPI

吳曉波頻道 2026-05-24 08:31:16
0 跟貼 0

剛賺了創紀錄的錢，轉頭就裁8000人，小扎要用AI重寫Meta

新智元 2026-05-23 13:15:23
0 跟貼 0

世界引擎：Post-Training開啟Physical AGI新紀元

機器之心Pro 2026-04-19 20:00:03
0 跟貼 0
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0

成為程序員的真相：沒人愿意說的那個硬門檻

野生運營 2026-05-24 02:45:10
0 跟貼 0

楊梅果農說泡藥翻不來本，楊梅果農說最吃虧的是種植戶，多的時候一個人賣五六百斤

瀟湘晨報 2026-05-23 17:43:12
1678 跟貼 1678
河南一景區現“爬不動了吧哈哈哈哈”標語，游客感覺不被尊重，景區：已撤除，本意是緩解爬山壓力

極目新聞 2026-05-19 14:48:26
11013 跟貼 11013

第三周求職記：HR開始問AI工具熟練度了

野生運營 2026-05-24 03:21:54
0 跟貼 0
2014年前退休人員養老金全解：發放規則、上漲標準、補發一次

上易新鮮事 2026-05-22 00:43:05
0 跟貼 0
公司用AI 6秒淘汰你，你為何不用AI反擊？

我是一個養蝦人 2026-05-24 01:46:32
0 跟貼 0
智能體從「單兵作戰」到「精銳團隊」 -2

機器之心Pro 2026-04-28 16:56:00
0 跟貼 0
龍蝦軍團有了最強「視力」！一眼看圖直接寫代碼-1

機器之心Pro 2026-04-02 16:56:32
0 跟貼 0
《浪姐7》三公乘風值排名公開，現場竟大喊黑幕？張月被針對了嗎

凡知 2026-05-24 05:31:46
2 跟貼 2
內蒙古一地野生動物保護站，狼王看手勢秒懂指令乖巧倒地，超配合

星視頻 2026-05-22 17:14:58
0 跟貼 0
Anthropic CEO：如果我是25歲，不會選編程，會選

機器之心Pro 2026-04-18 12:00:00
0 跟貼 0
炸鍋！教育部一紙通知，9月起上學規則全都變了

攢一兜星星 2026-05-22 02:27:43
0 跟貼 0
白車誤闖紅燈？老司機應急技巧+路口判罰規則，新手必看！

小狗漫說 2026-05-20 10:19:11
0 跟貼 0
媒體：針對兩岸關系鄭麗文最新表態說了句很直白的話

環球網資訊 2026-05-23 21:26:31
65 跟貼 65
監管形同虛設！楊梅泡藥水事件，監管部門比黑心商家還要可恨

小徐講八卦 2026-05-24 08:19:14
9 跟貼 9
特朗普稱周日決定是否對伊朗動武

Ping值焦慮 2026-05-24 00:21:37
0 跟貼 0
主人訓練狗子聽指令跳水，4只狗800心眼，知道邊牧為啥不能當警犬

爆笑大白 2026-05-23 16:37:41
5 跟貼 5
進口蛋白粉先漲價再優惠淘寶618大促比日常價格還高

大風新聞 2026-05-23 17:12:31
251 跟貼 251
米盧為東北超開球，沈陽隊大連隊獲勝，看球“第二現場”火爆

澎湃新聞 2026-05-24 00:34:11
99 跟貼 99
浙江男子幾口下肚，痛到崩潰！“當時覺得特別鮮”，醫生：別拿命賭，有毒，沒有特效解藥

環球網資訊 2026-05-24 07:11:28
73 跟貼 73
放棄FSD命名，特斯拉高階輔助駕駛系統正式登陸國內市場

MOTO 2026-05-22 22:13:08
23 跟貼 23
武漢雨后出現奇觀！視頻迅速傳播

極目新聞 2026-05-23 15:30:24
489 跟貼 489
怪物全都被下達指令，不能越過地球八千米

寒松說劇呀 2026-05-23 00:00:00
0 跟貼 0
世界出現漏洞，人類遭遇恐怖之事

寒松說劇呀 2026-05-22 14:13:03
1 跟貼 1
能隨意竊取數據！這款熱門 AI 編程工具曝重大隱患

鈦媒體APP 2026-05-24 09:06:33
0 跟貼 0
春秋曲沃代翼揭秘：利益主義者如何制定規則？山西歷史底蘊震撼世人！

漫川舟船 2026-05-23 14:11:37
0 跟貼 0
米體：巴斯托尼轉會皇馬更具可行性，穆帥接手后后防線將重建

懂球帝 2026-05-24 01:16:29
3 跟貼 3
霹靂15嚇壞印度！電視臺專門訪談，專家直呼這破壞了空戰規則

曉哲舞蹈課 2026-05-23 14:15:07
24 跟貼 24
伊朗嚴令：高濃縮鈾必留境內，穆杰塔巴下達鐵腕指令

肋骨雕刻成玫瑰d 2026-05-24 08:36:59
0 跟貼 0
設備防護失效，致命漏洞引發90人遇難礦難

甜菊汽水 2026-05-23 18:08:18
0 跟貼 0
女子從蛇身上跨過毫無察覺

瀟湘晨報 2026-05-23 16:20:05
153 跟貼 153
美國對待日本女戰俘的手段才叫狠

艾瑪影視匯 2026-05-24 10:16:27
1 跟貼 1
媒體：毛焦爾上任后匈牙利對烏克蘭政策"又變回去了"

新民周刊 2026-05-24 09:07:11
3 跟貼 3
全國總工會：堅決擁護黨中央決定

新京報 2026-05-23 19:45:06
33 跟貼 33
山西2026省級重點工程大調整！

創作者_IE2295 2026-05-24 08:02:00
1 跟貼 1

無緣四強卻狂賺8000萬！宏遠的吸金神話到底藏著什么秘密？

無緣四強卻狂賺8000萬！宏遠的吸金神話到底藏著什么秘密？

你看球呢

2026-05-24 10:20:21

賓館初夜，我和男友的第一次！

那年秋天

2026-05-22 09:30:17

開拓者招募基德遭拒！前主帥愿意來，鄧頓還不要！想吃回頭草了？

開拓者招募基德遭拒！前主帥愿意來，鄧頓還不要！想吃回頭草了？

你的籃球頻道

2026-05-24 07:40:35

迪拜地獄監獄：20人擠一牢房，強奸頻發，隨時面臨電擊

迪拜地獄監獄：20人擠一牢房，強奸頻發，隨時面臨電擊

星星會墜落

2026-05-24 07:20:47

請5萬員工帶薪玩迪士尼，預計花費八千萬！老板豪氣回應：公司掙了錢就是要跟員工一起花

請5萬員工帶薪玩迪士尼，預計花費八千萬！老板豪氣回應：公司掙了錢就是要跟員工一起花

新浪財經

2026-05-22 21:20:17

上海警方在外地抓獲28歲柴某！當事人：小區里被尾隨，監控拍到了對方正臉

上海警方在外地抓獲28歲柴某！當事人：小區里被尾隨，監控拍到了對方正臉

上海法治聲音

2026-05-23 13:14:44

Model Y L 4 月在國內交付 3748 輛，海外非常受歡迎！

Model Y L 4 月在國內交付 3748 輛，海外非常受歡迎！

新浪財經

2026-05-21 17:29:58

羽球賽今日收官！5國爭5金，國羽劍指4冠，3人對決世界冠軍！

羽球賽今日收官！5國爭5金，國羽劍指4冠，3人對決世界冠軍！

劉姚堯的文字城堡

2026-05-24 07:51:27

高層內斗，曝出內部黑幕！

新浪財經

2026-05-22 02:42:18

2026足壇最荒誕一幕：姆巴佩雙金靴到手，皇馬冠軍卻一個沒有

2026足壇最荒誕一幕：姆巴佩雙金靴到手，皇馬冠軍卻一個沒有

圣西羅的太陽

2026-05-24 08:03:50

2026年5月1日起從嚴整治，體制內人員務必嚴守九條紅線

2026年5月1日起從嚴整治，體制內人員務必嚴守九條紅線

職場資深秘書

2026-05-22 21:01:25

3-0！提前鎖定總決賽！哈登又拆開一支球隊

3-0！提前鎖定總決賽！哈登又拆開一支球隊

籃球教學論壇

2026-05-24 11:27:03

國務院提級調查！

燕梳樓頻道

2026-05-23 19:44:55

以色列至今都不敢相信，一場戰爭竟然打掉了自己一個多世紀的國運

以色列至今都不敢相信，一場戰爭竟然打掉了自己一個多世紀的國運

一網打盡全球焦點

2026-05-19 17:29:36

若我們這代人不收復臺灣，下代人統一時，或會直接將臺灣打成廢墟

若我們這代人不收復臺灣，下代人統一時，或會直接將臺灣打成廢墟

小蘭聊歷史

2026-05-23 11:24:45

俄官方通訊軟件被曝監控用戶：能錄屏、偷錄音、查VPN

俄官方通訊軟件被曝監控用戶：能錄屏、偷錄音、查VPN

摸魚算法

2026-05-22 02:19:52

我國這一官宣，直接把日本的路堵死了！日媒：中國不玩擱置爭議了

我國這一官宣，直接把日本的路堵死了！日媒：中國不玩擱置爭議了

賤議你讀史

2026-05-23 11:55:13

菲律賓人進不來就搞這種東西！中國黃巖島發現令人無語的裝備

菲律賓人進不來就搞這種東西！中國黃巖島發現令人無語的裝備

阿龍聊軍事

2026-05-23 18:17:55

宋美齡晚年目睹自己的墓園，忽而心生悔恨，悲傷說出一番戳心的話

宋美齡晚年目睹自己的墓園，忽而心生悔恨，悲傷說出一番戳心的話

史之銘

2026-05-23 18:53:22

起步250TB：消息稱三星電子正開發超大容量“近線固態硬盤”

起步250TB：消息稱三星電子正開發超大容量“近線固態硬盤”

IT之家

2026-05-24 11:26:25

AI產業主平臺領航智能+時代

15289文章數 66880關注度

往期回顧全部

科技要聞

我戴著攝像頭上班，正在幫AI搶走我飯碗

頭條要聞

牛彈琴：特朗普宣布大消息后發地圖伊朗被星條旗覆蓋

頭條要聞

牛彈琴：特朗普宣布大消息后發地圖伊朗被星條旗覆蓋

體育要聞

少年意氣，正在改變中國足球

娛樂要聞

李晨鄭愷沖上熱搜！跑男停宣引熱議

財經要聞

爆炸致82人遇難留神峪煤業存違法行為

汽車要聞

2027款星途瑤光上市把"全球車"標準卷進13萬級市場

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

游戲

親子

公開課

軍事航空

旅游要聞

“樂爽中陽”2026年文化旅游消費季啟幕

發售日期塵埃落定！《GTA6》引發海內外玩家熱議

親子要聞

家長們可以讓孩子多喝這個湯，每周一到兩次，幫助孩子長高點

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

軍事要聞

特朗普再醞釀對伊打擊美伊談判連放信號

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：久久综合九色综合久桃花| 国产精品偷啪在线观看| 人人做人人妻人人精| 日韩美女啪啪不卡视频| 天天澡日日澡狠狠欧美老妇| 熟女丝袜av| 亚洲精品成人a?v| 日韩乱码av| 午夜精品久久久久久| 日韩欧美中文字幕在线韩免费| 欧美成人看片一区二三区图文| 综合激情亚洲丁香社区| 亚洲综合网国产精品一区| 艹b视频在线观看| 中国国语毛片免费观看视频| 性生交大片免费看女人按摩| 少妇又紧又色又爽又刺激视频| 被暴雨淋湿爆乳少妇正在播放| 色综合视频一区二区三区44| 波多野结衣无内裤护士| 日本一区二区国产| 装睡被陌生人摸出水好爽| 亚洲人成人网站色WWW| 国产VA在线视频观看| 中文字幕乱码亚洲无线| 欧美成人国产精品高潮| 色妺妺在线视频喷水| 欧美18精品久久久无码午夜福利 | 亚洲经典无码| 国产精品自产拍2021在线观看| 亚洲中文字幕精品久久久久久直播| 国产va| 国产成人综合亚洲网| 亚洲高清无码在线观看| av亚洲在线一区二区| 精品中文一区| 久久AV无码精品人妻糸列| 日韩精品无码免费专区网站| 又粗又硬又大又爽免费视频播放| 欧美偷窥清纯综合图区| 91视频在线|

<nobr id="iiowj"><code id="iiowj"></code></nobr>

<meter id="iiowj"></meter><ol id="iiowj"><table id="iiowj"><option id="iiowj"></option></table></ol><p id="iiowj"></p><abbr id="iiowj"><legend id="iiowj"><nav id="iiowj"></nav></legend></abbr>

<center id="iiowj"></center>