網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

剛剛，Claude Mythos打爆AI評(píng)測(cè)天花板！超指數(shù)狂飆，2027奇點(diǎn)加速

2026-05-11 13:10:26　來(lái)源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：Aeneas KingHZ

【新智元導(dǎo)讀】就在剛剛，Claude Mythos把評(píng)測(cè)干「失效」了：METR第一次測(cè)不準(zhǔn)，AI攻防拐點(diǎn)到了！AI 進(jìn)化已成「外星文明」降臨，超越指數(shù)增長(zhǎng)，2027 AGI 奇點(diǎn)正加速撞向人類。

剛剛，Claude Mythos干爆METR評(píng)測(cè)上限！超指數(shù)級(jí)進(jìn)化已經(jīng)逼近AGI奇點(diǎn)。

就在今天，一張趨勢(shì)圖刷屏全網(wǎng)。

國(guó)際最權(quán)威的AI評(píng)測(cè)機(jī)構(gòu)METR驚恐地發(fā)現(xiàn)，他們的「溫度計(jì)」要被Mythos撐爆了。

Claude Mythos Preview的能力，已經(jīng)捅破了人類評(píng)測(cè)框架的天花板，進(jìn)入了「失真區(qū)」！

OpenAI超級(jí)對(duì)齊團(tuán)隊(duì)前成員Leopold Aschenbrenner曾預(yù)測(cè)2027年是AGI的奇點(diǎn)，但現(xiàn)在的最新數(shù)據(jù)顯示：Mythos的表現(xiàn)已經(jīng)略高于2027情景的趨勢(shì)線。

「外星文明」，已經(jīng)強(qiáng)行著陸，陰影已覆蓋整片天空。

評(píng)測(cè)界的大地震

當(dāng)「滿分」不再有意義

在METR最新的測(cè)試中，他們?cè)噲D衡量AI完成長(zhǎng)周期復(fù)雜任務(wù)的能力（Time Horizons）。

METR設(shè)置了一個(gè)名為「50%成功率時(shí)間線」的指標(biāo)——即模型有50%的概率，成功獨(dú)立完成一項(xiàng)人類需要耗費(fèi)X小時(shí)才能完成的任務(wù)。

此前，此前的模型，成績(jī)是幾十分鐘或幾個(gè)小時(shí)。

但當(dāng)Claude Mythos站上考場(chǎng)時(shí)，數(shù)據(jù)直接爆表了：它在人類需要16個(gè)小時(shí)才能完成的極其復(fù)雜的長(zhǎng)線任務(wù)上，輕松達(dá)到了50%的成功率！

你可能會(huì)問(wèn)：那測(cè)試32小時(shí)、64小時(shí)的任務(wù)呢？

METR給出的答案讓人驚恐：「我們測(cè)不了了。」

在METR精心構(gòu)建的228個(gè)魔鬼級(jí)測(cè)試任務(wù)中，只有區(qū)區(qū)5個(gè)任務(wù)是被歸類為「16小時(shí)及以上」的。這意味著什么？

這意味著人類現(xiàn)有的、引以為傲的難題庫(kù)，已經(jīng)被AI徹底掏空了。

就像用刻度只有1米的卷尺去量一棟摩天大樓，除了知道它「爆表」了，我們對(duì)其真實(shí)的深度一無(wú)所知。

「外星文明」已降臨？

在16小時(shí)以上的區(qū)間，METR根本沒(méi)有足夠的樣本來(lái)對(duì)Mythos進(jìn)行準(zhǔn)確的定量比較。

METR坦言，在這個(gè)閾值之上，數(shù)據(jù)的測(cè)算變得「不穩(wěn)定且失去意義」。

這是人類歷史上極為罕見的一幕：創(chuàng)造者失去了丈量被創(chuàng)造物能力的工具。

當(dāng)「考官」已經(jīng)出不出題的時(shí)候，「考生」的真實(shí)實(shí)力到底有多恐怖？

這不僅僅是一次常規(guī)的AI模型迭代，而是一次「超指數(shù)級(jí)」的物種變異。舊的法則正在崩塌，AI已成「外星文明」降臨！

AI從業(yè)者、硅谷著名觀察家Chase Brower直言，AI發(fā)展遠(yuǎn)超行業(yè)預(yù)期：根據(jù)SemiAnalysis的數(shù)據(jù)，AI行業(yè)的年化營(yíng)收已經(jīng)遠(yuǎn)超此前對(duì)2026年第二季度約260億美元的預(yù)測(cè)。

當(dāng)前的AI技術(shù)已如「清晰可見的外星飛船」一樣懸浮在人類文明的天空中。

人類已經(jīng)無(wú)法理解AI的超指數(shù)增長(zhǎng)！

這不再是實(shí)驗(yàn)室里的數(shù)據(jù)，標(biāo)志著AGI的征兆已經(jīng)完全顯現(xiàn)！

超指數(shù)，比指數(shù)增長(zhǎng)還快

把METR那張趨勢(shì)圖拉出來(lái)細(xì)看。

縱軸是AI能自主完成的編碼任務(wù)時(shí)長(zhǎng)，從8秒到5年，對(duì)數(shù)刻度。橫軸是模型發(fā)布時(shí)間，2021到2028。每一個(gè)點(diǎn)是一個(gè)模型版本。

把點(diǎn)連起來(lái)，畫出來(lái)的不是一條直線，不是一條指數(shù)曲線，而是一條比指數(shù)還陡的弧。

AI在超指數(shù)增長(zhǎng)，AI增速本身在加速。

2021年，最好的模型能自主完成8秒級(jí)別的任務(wù)——寫一行代碼，修一個(gè)拼寫錯(cuò)誤。
2023年初，推到了1分鐘量級(jí)——一個(gè)小函數(shù)、一段簡(jiǎn)單調(diào)試。
2024年中，沖到了大約1小時(shí)——一個(gè)完整feature的實(shí)現(xiàn)、一次多文件重構(gòu)。
2025年4月，Mythos Preview落點(diǎn)：16小時(shí)——一個(gè)完整的工程子項(xiàng)目，讀代碼、理解架構(gòu)、制定方案、編寫實(shí)現(xiàn)、調(diào)試測(cè)試，一氣呵成，不需要人類盯著。

每一代的躍升幅度都比上一代更大。間隔時(shí)間都比上一代更短。

本圖由AI生成

人類的演化是為了讓我們?cè)诓菰嫌?jì)算果實(shí)和獵物的距離，大腦天生是線性的。

我們好不容易理解了「指數(shù)增長(zhǎng)」，現(xiàn)在卻被迫面對(duì)指數(shù)之上的指數(shù)。

猿類的大腦面對(duì)超指數(shù)，直接集體宕機(jī)。

本圖由AI生成

METR在圖上畫了幾條參考線。

其中一條是「AI 2027情景」的中央軌跡——基于多家機(jī)構(gòu)聯(lián)合預(yù)測(cè)，假設(shè)AI能力按目前最主流的預(yù)期持續(xù)增長(zhǎng)，大約在2027年前后觸達(dá)通用人工智能門檻。

Mythos的數(shù)據(jù)點(diǎn)落在這條線的上方。

不是偏了一點(diǎn)。是在時(shí)間軸還沒(méi)走到2027的位置上，能力值已經(jīng)超過(guò)了2027的預(yù)測(cè)值。

AI基礎(chǔ)設(shè)施從業(yè)者Chase Brower看完METR報(bào)告后在推特上判斷：那個(gè)預(yù)計(jì)在2026年初出現(xiàn)的"Agent-1"描述，其實(shí)有點(diǎn)低估了當(dāng)前最好模型的能力。整個(gè)行業(yè)對(duì)AI發(fā)展速度的預(yù)估都偏保守了。

這里有個(gè)細(xì)節(jié)容易被忽略。

METR的縱軸不是跑分，不是準(zhǔn)確率，不是某個(gè)benchmark上的百分比。那條曲線目前沒(méi)有任何減速的跡象。

安全圈原子彈時(shí)刻

從「助手」到「自主攻擊者」

如果說(shuō)METR的煩惱還是學(xué)術(shù)性的，那么Palo Alto Networks的預(yù)警則是帶血的實(shí)戰(zhàn)報(bào)告。

近期，Palo Alto獲得了Mythos、GPT-5.5-Cyber等前沿模型的早期無(wú)限制訪問(wèn)權(quán)限。

測(cè)試結(jié)論讓所有防御者脊背發(fā)涼：AI已經(jīng)跨過(guò)了那道名為「自主」的門檻。

當(dāng)模型能自主工作16小時(shí)的時(shí)候，它在安全領(lǐng)域能干什么？

時(shí)間坍縮：3周=1年

Palo Alto的報(bào)告中有一個(gè)令人震撼的數(shù)據(jù)：使用Mythos輔助進(jìn)行漏洞分析，僅僅3周時(shí)間，其完成的工作深度和覆蓋廣度，等同于一整個(gè)頂級(jí)滲透測(cè)試團(tuán)隊(duì)整整1年的工作量。

鏈接：https://www.paloaltonetworks.com/blog/2026/05/frontier-ai-defense/

這直接是降維打擊。

本圖由AI生成

以往的AI只能幫你寫個(gè)腳本、搜個(gè)代碼片段。但Mythos展現(xiàn)出了一種近乎恐怖的「軟件漏洞直覺」。

它能識(shí)別出上萬(wàn)行代碼中那些零散、低危的小漏洞。

更要命的是，它能像頂級(jí)黑客一樣，將這些原本不起眼的漏洞串聯(lián)成一條致命的攻擊鏈。

從初步入侵到數(shù)據(jù)拖庫(kù)，在AI輔助下，整個(gè)過(guò)程被壓縮到了25分鐘。

而在過(guò)去，這種級(jí)別的攻擊可能需要一個(gè)團(tuán)隊(duì)潛伏數(shù)周才能完成。

本圖由AI生成

在奇點(diǎn)撞向我們之前，

如何自救？

Anthropic曾因?yàn)橛X得Claude Mythos「太危險(xiǎn)」而拒絕全面發(fā)布，一度被嘲諷為PR手段。但現(xiàn)在看來(lái)，這更像是一種對(duì)未知的敬畏。

Mozilla已經(jīng)開始行動(dòng)，他們利用Mythos掃描Firefox瀏覽器，僅在2026年4月一個(gè)月內(nèi)就修復(fù)了破紀(jì)錄的423個(gè)安全問(wèn)題。

這說(shuō)明，AI也是最強(qiáng)的盾，但前提是你要比攻擊者跑得更快。

我們必須接受一個(gè)殘酷的現(xiàn)實(shí)：舊時(shí)代的防御節(jié)奏已經(jīng)徹底失效。

檢測(cè)響應(yīng)時(shí)間不能再以「小時(shí)」計(jì)，必須縮短到「分鐘」甚至「秒」；安全不再是人的審計(jì)，而是「用AI對(duì)抗AI」的自動(dòng)化博弈。

與此同時(shí)，資本側(cè)也已經(jīng)allin。

在過(guò)去5個(gè)月里，英偉達(dá)向自己的客戶注資約400億美金：

300億給OpenAI，20億給算力商CoreWeave，32億給光纖商康寧……

本圖由AI生成、數(shù)據(jù)來(lái)源于網(wǎng)絡(luò)由AI收集

這些錢轉(zhuǎn)了一圈，最后全部變成了英偉達(dá)芯片的訂單。

顯然，黃仁勛正在用錢投票，強(qiáng)行拉拽全產(chǎn)業(yè)鏈加速撞向奇點(diǎn)。

但這套永動(dòng)機(jī)最可怕的地方在于，它在奇點(diǎn)墜落前根本無(wú)法停下。

Chase Brower指出，Anthropic的年化收入已經(jīng)遠(yuǎn)高于此前260億美元的預(yù)測(cè)線。資本市場(chǎng)已經(jīng)在用腳投票——錢在押注那條曲線不會(huì)拐彎。

2027年，按照METR趨勢(shì)圖上那條中央軌跡線，是多家機(jī)構(gòu)聯(lián)合預(yù)測(cè)的AGI門檻年份。Mythos已經(jīng)跑在這條線的上方。

如果接下來(lái)18個(gè)月不出現(xiàn)根本性的技術(shù)斷崖——不是減速，不是瓶頸，而是物理定律級(jí)別的硬墻——那么2027不再是一個(gè)需要辯論的預(yù)測(cè)。

本圖由AI生成

它是一個(gè)需要準(zhǔn)備的倒計(jì)時(shí)。

AGI的奇點(diǎn)不再是預(yù)測(cè)，而是正在發(fā)生的沖擊。外星文明已經(jīng)來(lái)臨，我們能做什么？

參考資料：

https://www.paloaltonetworks.com/blog/2026/05/frontier-ai-defense/

https://metr.org/time-horizons/

https://x.com/ChaseBrowe32432/status/2053159533862908019

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.