![]()
新智元報(bào)道
編輯:Aeneas KingHZ
【新智元導(dǎo)讀】就在剛剛,Claude Mythos把評(píng)測(cè)干「失效」了:METR第一次測(cè)不準(zhǔn),AI攻防拐點(diǎn)到了!AI 進(jìn)化已成「外星文明」降臨,超越指數(shù)增長(zhǎng),2027 AGI 奇點(diǎn)正加速撞向人類。
剛剛,Claude Mythos干爆METR評(píng)測(cè)上限!超指數(shù)級(jí)進(jìn)化已經(jīng)逼近AGI奇點(diǎn)。
就在今天,一張趨勢(shì)圖刷屏全網(wǎng)。
![]()
國(guó)際最權(quán)威的AI評(píng)測(cè)機(jī)構(gòu)METR驚恐地發(fā)現(xiàn),他們的「溫度計(jì)」要被Mythos撐爆了。
Claude Mythos Preview的能力,已經(jīng)捅破了人類評(píng)測(cè)框架的天花板,進(jìn)入了「失真區(qū)」!
OpenAI超級(jí)對(duì)齊團(tuán)隊(duì)前成員Leopold Aschenbrenner曾預(yù)測(cè)2027年是AGI的奇點(diǎn),但現(xiàn)在的最新數(shù)據(jù)顯示:Mythos的表現(xiàn)已經(jīng)略高于2027情景的趨勢(shì)線。
![]()
「外星文明」,已經(jīng)強(qiáng)行著陸,陰影已覆蓋整片天空。
評(píng)測(cè)界的大地震
當(dāng)「滿分」不再有意義
在METR最新的測(cè)試中,他們?cè)噲D衡量AI完成長(zhǎng)周期復(fù)雜任務(wù)的能力(Time Horizons)。
METR設(shè)置了一個(gè)名為「50%成功率時(shí)間線」的指標(biāo)——即模型有50%的概率,成功獨(dú)立完成一項(xiàng)人類需要耗費(fèi)X小時(shí)才能完成的任務(wù)。
![]()
此前,此前的模型,成績(jī)是幾十分鐘或幾個(gè)小時(shí)。
但當(dāng)Claude Mythos站上考場(chǎng)時(shí),數(shù)據(jù)直接爆表了:它在人類需要16個(gè)小時(shí)才能完成的極其復(fù)雜的長(zhǎng)線任務(wù)上,輕松達(dá)到了50%的成功率!
你可能會(huì)問(wèn):那測(cè)試32小時(shí)、64小時(shí)的任務(wù)呢?
METR給出的答案讓人驚恐:「我們測(cè)不了了。」
![]()
在METR精心構(gòu)建的228個(gè)魔鬼級(jí)測(cè)試任務(wù)中,只有區(qū)區(qū)5個(gè)任務(wù)是被歸類為「16小時(shí)及以上」的。這意味著什么?
這意味著人類現(xiàn)有的、引以為傲的難題庫(kù),已經(jīng)被AI徹底掏空了。
就像用刻度只有1米的卷尺去量一棟摩天大樓,除了知道它「爆表」了,我們對(duì)其真實(shí)的深度一無(wú)所知。
「外星文明」已降臨?
在16小時(shí)以上的區(qū)間,METR根本沒(méi)有足夠的樣本來(lái)對(duì)Mythos進(jìn)行準(zhǔn)確的定量比較。
METR坦言,在這個(gè)閾值之上,數(shù)據(jù)的測(cè)算變得「不穩(wěn)定且失去意義」。
這是人類歷史上極為罕見的一幕:創(chuàng)造者失去了丈量被創(chuàng)造物能力的工具。
當(dāng)「考官」已經(jīng)出不出題的時(shí)候,「考生」的真實(shí)實(shí)力到底有多恐怖?
這不僅僅是一次常規(guī)的AI模型迭代,而是一次「超指數(shù)級(jí)」的物種變異。舊的法則正在崩塌,AI已成「外星文明」降臨!
![]()
AI從業(yè)者、硅谷著名觀察家Chase Brower直言,AI發(fā)展遠(yuǎn)超行業(yè)預(yù)期:根據(jù)SemiAnalysis的數(shù)據(jù),AI行業(yè)的年化營(yíng)收已經(jīng)遠(yuǎn)超此前對(duì)2026年第二季度約260億美元的預(yù)測(cè)。
![]()
當(dāng)前的AI技術(shù)已如「清晰可見的外星飛船」一樣懸浮在人類文明的天空中。
人類已經(jīng)無(wú)法理解AI的超指數(shù)增長(zhǎng)!
![]()
這不再是實(shí)驗(yàn)室里的數(shù)據(jù),標(biāo)志著AGI的征兆已經(jīng)完全顯現(xiàn)!
超指數(shù),比指數(shù)增長(zhǎng)還快
把METR那張趨勢(shì)圖拉出來(lái)細(xì)看。
縱軸是AI能自主完成的編碼任務(wù)時(shí)長(zhǎng),從8秒到5年,對(duì)數(shù)刻度。橫軸是模型發(fā)布時(shí)間,2021到2028。每一個(gè)點(diǎn)是一個(gè)模型版本。
把點(diǎn)連起來(lái),畫出來(lái)的不是一條直線,不是一條指數(shù)曲線,而是一條比指數(shù)還陡的弧。
![]()
AI在超指數(shù)增長(zhǎng),AI增速本身在加速。
2021年,最好的模型能自主完成8秒級(jí)別的任務(wù)——寫一行代碼,修一個(gè)拼寫錯(cuò)誤。
2023年初,推到了1分鐘量級(jí)——一個(gè)小函數(shù)、一段簡(jiǎn)單調(diào)試。
2024年中,沖到了大約1小時(shí)——一個(gè)完整feature的實(shí)現(xiàn)、一次多文件重構(gòu)。
2025年4月,Mythos Preview落點(diǎn):16小時(shí)——一個(gè)完整的工程子項(xiàng)目,讀代碼、理解架構(gòu)、制定方案、編寫實(shí)現(xiàn)、調(diào)試測(cè)試,一氣呵成,不需要人類盯著。
每一代的躍升幅度都比上一代更大。間隔時(shí)間都比上一代更短。
![]()
本圖由AI生成
人類的演化是為了讓我們?cè)诓菰嫌?jì)算果實(shí)和獵物的距離,大腦天生是線性的。
我們好不容易理解了「指數(shù)增長(zhǎng)」,現(xiàn)在卻被迫面對(duì)指數(shù)之上的指數(shù)。
猿類的大腦面對(duì)超指數(shù),直接集體宕機(jī)。
![]()
本圖由AI生成
METR在圖上畫了幾條參考線。
其中一條是「AI 2027情景」的中央軌跡——基于多家機(jī)構(gòu)聯(lián)合預(yù)測(cè),假設(shè)AI能力按目前最主流的預(yù)期持續(xù)增長(zhǎng),大約在2027年前后觸達(dá)通用人工智能門檻。
Mythos的數(shù)據(jù)點(diǎn)落在這條線的上方。
![]()
不是偏了一點(diǎn)。是在時(shí)間軸還沒(méi)走到2027的位置上,能力值已經(jīng)超過(guò)了2027的預(yù)測(cè)值。
AI基礎(chǔ)設(shè)施從業(yè)者Chase Brower看完METR報(bào)告后在推特上判斷:那個(gè)預(yù)計(jì)在2026年初出現(xiàn)的"Agent-1"描述,其實(shí)有點(diǎn)低估了當(dāng)前最好模型的能力。整個(gè)行業(yè)對(duì)AI發(fā)展速度的預(yù)估都偏保守了。
![]()
這里有個(gè)細(xì)節(jié)容易被忽略。
METR的縱軸不是跑分,不是準(zhǔn)確率,不是某個(gè)benchmark上的百分比。那條曲線目前沒(méi)有任何減速的跡象。
安全圈原子彈時(shí)刻
從「助手」到「自主攻擊者」
如果說(shuō)METR的煩惱還是學(xué)術(shù)性的,那么Palo Alto Networks的預(yù)警則是帶血的實(shí)戰(zhàn)報(bào)告。
![]()
近期,Palo Alto獲得了Mythos、GPT-5.5-Cyber等前沿模型的早期無(wú)限制訪問(wèn)權(quán)限。
測(cè)試結(jié)論讓所有防御者脊背發(fā)涼:AI已經(jīng)跨過(guò)了那道名為「自主」的門檻。
當(dāng)模型能自主工作16小時(shí)的時(shí)候,它在安全領(lǐng)域能干什么?
時(shí)間坍縮:3周=1年
Palo Alto的報(bào)告中有一個(gè)令人震撼的數(shù)據(jù):使用Mythos輔助進(jìn)行漏洞分析,僅僅3周時(shí)間,其完成的工作深度和覆蓋廣度,等同于一整個(gè)頂級(jí)滲透測(cè)試團(tuán)隊(duì)整整1年的工作量。
![]()
鏈接:https://www.paloaltonetworks.com/blog/2026/05/frontier-ai-defense/
這直接是降維打擊。
![]()
本圖由AI生成
以往的AI只能幫你寫個(gè)腳本、搜個(gè)代碼片段。但Mythos展現(xiàn)出了一種近乎恐怖的「軟件漏洞直覺」。
![]()
它能識(shí)別出上萬(wàn)行代碼中那些零散、低危的小漏洞。
更要命的是,它能像頂級(jí)黑客一樣,將這些原本不起眼的漏洞串聯(lián)成一條致命的攻擊鏈。
從初步入侵到數(shù)據(jù)拖庫(kù),在AI輔助下,整個(gè)過(guò)程被壓縮到了25分鐘。
而在過(guò)去,這種級(jí)別的攻擊可能需要一個(gè)團(tuán)隊(duì)潛伏數(shù)周才能完成。
![]()
本圖由AI生成
在奇點(diǎn)撞向我們之前,
如何自救?
Anthropic曾因?yàn)橛X得Claude Mythos「太危險(xiǎn)」而拒絕全面發(fā)布,一度被嘲諷為PR手段。但現(xiàn)在看來(lái),這更像是一種對(duì)未知的敬畏。
Mozilla已經(jīng)開始行動(dòng),他們利用Mythos掃描Firefox瀏覽器,僅在2026年4月一個(gè)月內(nèi)就修復(fù)了破紀(jì)錄的423個(gè)安全問(wèn)題。
![]()
這說(shuō)明,AI也是最強(qiáng)的盾,但前提是你要比攻擊者跑得更快。
我們必須接受一個(gè)殘酷的現(xiàn)實(shí):舊時(shí)代的防御節(jié)奏已經(jīng)徹底失效。
檢測(cè)響應(yīng)時(shí)間不能再以「小時(shí)」計(jì),必須縮短到「分鐘」甚至「秒」;安全不再是人的審計(jì),而是「用AI對(duì)抗AI」的自動(dòng)化博弈。
與此同時(shí),資本側(cè)也已經(jīng)allin。
在過(guò)去5個(gè)月里,英偉達(dá)向自己的客戶注資約400億美金:
300億給OpenAI,20億給算力商CoreWeave,32億給光纖商康寧……
![]()
本圖由AI生成、數(shù)據(jù)來(lái)源于網(wǎng)絡(luò)由AI收集
這些錢轉(zhuǎn)了一圈,最后全部變成了英偉達(dá)芯片的訂單。
顯然,黃仁勛正在用錢投票,強(qiáng)行拉拽全產(chǎn)業(yè)鏈加速撞向奇點(diǎn)。
但這套永動(dòng)機(jī)最可怕的地方在于,它在奇點(diǎn)墜落前根本無(wú)法停下。
Chase Brower指出,Anthropic的年化收入已經(jīng)遠(yuǎn)高于此前260億美元的預(yù)測(cè)線。資本市場(chǎng)已經(jīng)在用腳投票——錢在押注那條曲線不會(huì)拐彎。
2027年,按照METR趨勢(shì)圖上那條中央軌跡線,是多家機(jī)構(gòu)聯(lián)合預(yù)測(cè)的AGI門檻年份。Mythos已經(jīng)跑在這條線的上方。
如果接下來(lái)18個(gè)月不出現(xiàn)根本性的技術(shù)斷崖——不是減速,不是瓶頸,而是物理定律級(jí)別的硬墻——那么2027不再是一個(gè)需要辯論的預(yù)測(cè)。
![]()
本圖由AI生成
它是一個(gè)需要準(zhǔn)備的倒計(jì)時(shí)。
AGI的奇點(diǎn)不再是預(yù)測(cè),而是正在發(fā)生的沖擊。外星文明已經(jīng)來(lái)臨,我們能做什么?
參考資料:
https://www.paloaltonetworks.com/blog/2026/05/frontier-ai-defense/
https://metr.org/time-horizons/
https://x.com/ChaseBrowe32432/status/2053159533862908019
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.