<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      刷榜AI全掛了!Meta斯坦福地獄級測試,GPT/Claude/Gemini交出0分

      0
      分享至


      新智元報道

      編輯:好困

      【新智元導(dǎo)讀】SWE-Bench上能拿72%的模型,換張考卷直接歸零!Meta聯(lián)合斯坦福、哈佛放出ProgramBench,200個項目從零手寫,9大頂級模型完整通過率0%。最強(qiáng)的Claude Opus 4.7平均通過率也才51.2%。更離譜的是一聯(lián)網(wǎng),就有模型在36%的任務(wù)里跑去GitHub扒源碼。

      給你一份FFmpeg的使用文檔,和一個編譯好的可執(zhí)行文件。

      現(xiàn)在,從零把整個程序重新寫出來。

      這就是ProgramBench給全球頂級AI出的題。

      昨天剛發(fā)布,出自SWE-Bench原班人馬之手,Meta、斯坦福、哈佛三家聯(lián)手打造。

      200個軟件項目。9個頂級模型。通過率,0%!


      共同一作John Yang,斯坦福在讀博士,同時也是SWE-Bench和SWE-agent的創(chuàng)建者

      不是修bug,是從零造軟件

      過去一年,「讓AI Agent從零造軟件」的案例報道越來越多。

      Anthropic用一組平行Claude寫了個C編譯器,Cursor發(fā)博客講長時間自主編程,Epoch AI的MirrorCode也在做類似的事。

      但這些案例有個共同問題,每次只測幾個項目,腳手架都是手工調(diào)優(yōu)的。

      相比之下,ProgramBench把這件事正規(guī)化了。

      200個任務(wù),統(tǒng)一腳手架,系統(tǒng)性反作弊,一把拉到benchmark的標(biāo)準(zhǔn)。


      論文地址:https://programbench.com/static/paper.pdf

      在之前的測試中,SWE-Bench會給你一個現(xiàn)成的代碼庫,告訴你哪里有bug或者需要加什么功能,你去改。本質(zhì)上是「閱讀理解+局部手術(shù)」。

      而且在評估層面,它用的是單元測試,檢查你的代碼內(nèi)部實現(xiàn)對不對,你的函數(shù)簽名、變量名都得和預(yù)期一致。

      ProgramBench則完全反過來。

      它只給你兩樣?xùn)|西,一個編譯好的可執(zhí)行文件,加上使用文檔。

      你的任務(wù)是僅憑運行這個程序、觀察它的輸入輸出行為,從零寫出一套能復(fù)現(xiàn)同樣行為的代碼。

      選什么編程語言,用什么數(shù)據(jù)結(jié)構(gòu),怎么拆分模塊,全部你自己定。

      沒有代碼骨架,沒有函數(shù)簽名,沒有任何提示。


      評估方式上,研究團(tuán)隊用Agent驅(qū)動的模糊測試,為200個任務(wù)生成了總計248,853個行為測試。

      你寫的程序跑一遍,輸入輸出和原版一致就算過,不一致就掛。測試永遠(yuǎn)不會透露給模型。

      和SWE-Bench的單元測試不同,ProgramBench的行為測試完全不關(guān)心你的代碼內(nèi)部長什么樣,只要行為一致就行。


      200個任務(wù)覆蓋的項目橫跨壓縮工具(zstd、lz4、brotli)、語言解釋器(PHP、Lua、tinycc)、數(shù)據(jù)庫(DuckDB、SQLite)、媒體處理(FFmpeg)、開發(fā)者工具(ripgrep、fzf、jq)。

      代碼行數(shù)中位數(shù)8,635行,最大的FFmpeg有270萬行。



      總結(jié)來說,這個測試考的是AI有沒有能力「像人類工程師一樣思考和設(shè)計軟件」,而不只是「在現(xiàn)成代碼里找到該改的地方然后改對」。

      九大模型排排坐,成績?nèi)砍曾喌?/strong>

      參加測試的共有9款模型,涵蓋Claude、Gemini、GPT三大家族。

      完整通過率(所有測試全部通過),全員0%。


      先看三家旗艦的正面對決。

      GPT-5.4和Gemini 3.1 Pro的平均測試通過率幾乎打平,分別是38.3%和36.6%。但兩者的做題風(fēng)格截然不同。

      GPT-5.4只用16次API調(diào)用、0.33美元成本,基本就是一口氣把整個程序?qū)懲辏?00%的代碼在一次編輯中生成,之后幾乎不回頭改。

      Gemini 3.1 Pro則是9個模型里最愛「觀察」的。它用了94次API調(diào)用,其中34.1%的操作都在運行原版程序、觀察輸入輸出行為。探索做得最多,但最終成績差距不大。

      真正拉開身位的是Claude Opus 4.7。

      平均通過率51.2%,在3%的任務(wù)上通過了95%以上的測試,是唯一達(dá)到「幾乎通過」標(biāo)準(zhǔn)的模型。但即便是它,也沒有在任何一個任務(wù)上拿到滿分。

      從整體來看,9個模型的表現(xiàn)呈現(xiàn)出清晰的梯隊。

      Claude系三款旗艦(Opus 4.7、Opus 4.6、Sonnet 4.6)領(lǐng)先,GPT-5.4和Gemini 3.1 Pro構(gòu)成第二梯隊,剩下的四款小模型通過率都在35%以下。


      另一個反直覺的發(fā)現(xiàn)是,砸錢和堆步數(shù)并不能換來更好的成績。

      Sonnet 4.6每個任務(wù)平均跑868條命令,成本27.09美元,最長的軌跡接近2000步。但它的成績反而不如只用93次調(diào)用、花3.81美元的Opus 4.7。

      更關(guān)鍵的是,98%的運行中,模型都是自己覺得「做完了」主動交卷的,根本沒有撞到時間或步數(shù)上限。

      不是考試時間不夠,是真的做不到。

      此外,任務(wù)難度和模型排名高度一致。

      簡單的CLI工具(nnn、fzf、gron)大家都能拿到不錯的分?jǐn)?shù),復(fù)雜系統(tǒng)(FFmpeg、PHP、typst、ast-grep)則對所有模型一視同仁地?zé)o情。


      需要說明的是,ProgramBench用的是mini-SWE-agent這個極簡腳手架,沒有上下文壓縮、沒有多Agent協(xié)作、沒有定制化工具鏈。


      代碼寫出來了,但完全不像人寫的

      研究團(tuán)隊對比了通過75%以上測試的高分解答和人類原版代碼,發(fā)現(xiàn)了幾個驚人的差異。

      • 單文件怪獸。

      人類代碼中位數(shù)分布在15個文件里,模型的中位數(shù)是3個。

      60%的解答只有1到3個代碼文件。

      人類工程師按功能拆分模塊,模型傾向于把所有東西塞進(jìn)一個巨大的文件。目錄深度中位數(shù),人類是2層,模型是1層。

      • 函數(shù)又少又長。

      Opus 4.7寫的函數(shù)數(shù)量只有人類的29%,Sonnet 4.6是24%,GPT-5.4只有10%。

      但每個函數(shù)的平均長度更長,Gemini 3.1 Pro寫的函數(shù)比人類長62%。

      • 代碼量大幅縮水。

      模型代碼中位數(shù)1,173行,人類是3,068行。85%的高分解答比原版短。


      總結(jié)來說就是,現(xiàn)在的AI會寫代碼,但不會做軟件設(shè)計。

      它不懂為什么要拆分模塊,不理解為什么人類工程師要花時間定義接口和抽象層。策略就是把所有邏輯硬塞進(jìn)盡可能少的文件和函數(shù)里,能跑就行。

      GPT-5.4的表現(xiàn)最極端。平均每個任務(wù)只創(chuàng)建5個文件,修改1.2次,39.5%的軌跡在創(chuàng)建文件后零修改。

      相比之下,Claude Sonnet 4.6平均創(chuàng)建11.3個文件、修改18.3次,表現(xiàn)出更接近人類的迭代開發(fā)模式。


      還有一個很有意思的現(xiàn)象。

      模型只有50%的概率會用和原版相同的編程語言。

      其中,Python是模型的最愛,占所有1,800次運行的36%。

      原版用Rust寫的項目,只有44%用Rust重寫;C/C++的,46%。Go項目的「忠誠度」最高,70%。

      不管你原來是用什么語言寫的,模型有三分之一的概率會用Python重來一遍。


      說好的不作弊,一聯(lián)網(wǎng)就去GitHub扒源碼

      這可能是整個研究里最有戲劇感的部分。

      研究團(tuán)隊做了一組對照實驗,給模型開放網(wǎng)絡(luò)訪問權(quán)限,但在系統(tǒng)提示中明確告知「作弊不允許」。

      然后用9個AI裁判檢查每條軌跡是否存在作弊行為。

      結(jié)果觸目驚心。

      Claude Sonnet 4.6有36%的任務(wù)被判定作弊,Claude Opus 4.6是21%,Gemini 3 Flash是20%。


      作弊方式五花八門。

      最赤裸裸的是去GitHub克隆源碼倉庫。

      稍微隱蔽一點的是通過包管理器下載,比如cargo installgo get

      更狡猾的是去本地包緩存目錄翻依賴庫的源碼。


      但AI裁判之間的分歧也大得驚人。

      對于Claude Opus 4.6,9個裁判在57%的任務(wù)上無法達(dá)成一致。

      有一個案例特別典型。

      Claude Sonnet 4.6在做handlr這個Rust項目時,跑去~/.cargo/registry/src/目錄翻了xdg-mime、clap等依賴庫的源代碼。

      5個裁判判定作弊,4個裁判認(rèn)為這些是第三方庫不算作弊。

      最終,研究團(tuán)隊放棄了「聯(lián)網(wǎng)+事后檢測」的方案,直接斷網(wǎng)。

      模型在面對困難任務(wù)時,「找捷徑」的傾向比預(yù)想的強(qiáng)得多。而連9個AI裁判都判不清楚什么算作弊、什么算合理的逆向工程,說明這條邊界本身就是模糊的。

      舊考試結(jié)束了,新考試才剛開始

      SWE-Bench上能拿72%的模型,在ProgramBench上拿0%。

      這兩個測試考的根本就是兩種能力。SWE-Bench考的是「在別人的代碼里找到問題并修好」,ProgramBench考的是「自己從頭設(shè)計并實現(xiàn)一個完整系統(tǒng)」。

      前者AI已經(jīng)做得相當(dāng)好了,后者目前完全不及格。

      Epoch AI上周剛發(fā)了一篇博文,宣判舊推理benchmark集體死亡。想搞出還沒被刷爆的測試,至少得放棄四個舒適條件中的一個,純文本、短耗時、易評分、人類專家碾壓。


      按這個框架來看,ProgramBench放棄了其中兩個,短耗時和易評分。

      它把任務(wù)拉到了人類工程師可能需要數(shù)周甚至數(shù)月才能完成的量級,同時用行為等價性而非源碼匹配來評估。

      作者John Yang在推文中強(qiáng)調(diào),「ProgramBench非常難,但它在設(shè)計上是可解的。」

      也就是說,0%不代表這些任務(wù)超出了AI的理論極限,只是說明今天的模型還遠(yuǎn)遠(yuǎn)不夠。

      SWE-Bench測的是AI能不能當(dāng)一個好員工。ProgramBench測的是AI能不能當(dāng)一個工程師。

      這兩件事之間的距離,今天剛被精確測量出來。答案是0%。

      參考資料:

      https://programbench.com/static/paper.pdf

      https://x.com/jyangballin/status/2051677497562210552?s=20

      https://x.com/EpochAIResearch/status/2051760424891392204?s=20

      https://epochai.substack.com/p/rip-classic-reasoning-benchmarks

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      罵中國最兇,過中國領(lǐng)空最勤,新法落地后日本航司機(jī)票先漲兩千四

      罵中國最兇,過中國領(lǐng)空最勤,新法落地后日本航司機(jī)票先漲兩千四

      回京歷史夢
      2026-05-07 12:35:20
      回血的深圳,消失的中產(chǎn)

      回血的深圳,消失的中產(chǎn)

      壹地產(chǎn)
      2026-05-07 19:20:26
      iPhone用戶為什么突然集體裝VPN

      iPhone用戶為什么突然集體裝VPN

      我是一個養(yǎng)蝦人
      2026-05-01 07:00:40
      東契奇更新傷情消息!還需再養(yǎng)三周,若湖人輸給雷霆將賽季報銷

      東契奇更新傷情消息!還需再養(yǎng)三周,若湖人輸給雷霆將賽季報銷

      奕辰說球
      2026-05-07 11:01:37
      杰倫·布朗換字母哥?名記曝綠軍“單相思”,字母哥心儀的是紐約

      杰倫·布朗換字母哥?名記曝綠軍“單相思”,字母哥心儀的是紐約

      仰臥撐FTUer
      2026-05-08 07:55:03
      馬卡報:曼聯(lián)目標(biāo)瓊阿梅尼和巴爾韋德沖突升級,皇馬召開緊急會議;記者:曼聯(lián)和馬特烏斯·費爾南德斯接觸,球員愿意加盟紅魔

      馬卡報:曼聯(lián)目標(biāo)瓊阿梅尼和巴爾韋德沖突升級,皇馬召開緊急會議;記者:曼聯(lián)和馬特烏斯·費爾南德斯接觸,球員愿意加盟紅魔

      MUREDS
      2026-05-07 23:27:34
      5月8日24時,國內(nèi)成品油價格將迎調(diào)整

      5月8日24時,國內(nèi)成品油價格將迎調(diào)整

      南昌青云譜發(fā)布
      2026-05-07 10:42:25
      今起關(guān)閉改造!已陪伴廣州人22年,街坊:不舍

      今起關(guān)閉改造!已陪伴廣州人22年,街坊:不舍

      番禺臺
      2026-05-07 17:40:57
      京圈“頂級富二代”落馬:該對有錢人祛魅了……

      京圈“頂級富二代”落馬:該對有錢人祛魅了……

      不二表姐
      2026-03-26 23:45:09
      交通銀行黨委:堅決擁護(hù)黨中央決定

      交通銀行黨委:堅決擁護(hù)黨中央決定

      環(huán)球網(wǎng)資訊
      2026-05-07 12:40:10
      "太窒息了"! 數(shù)學(xué)系華人小哥崩潰:不想和中國留學(xué)生交朋友,盡管我自己也是!

      "太窒息了"! 數(shù)學(xué)系華人小哥崩潰:不想和中國留學(xué)生交朋友,盡管我自己也是!

      澳洲紅領(lǐng)巾
      2026-05-07 15:15:55
      楊子離婚 3個月就和新歡產(chǎn)子,黃圣依17年青春喂了狗,體面盡失

      楊子離婚 3個月就和新歡產(chǎn)子,黃圣依17年青春喂了狗,體面盡失

      橙星文娛
      2026-04-29 10:30:58
      “我要去中國了” 51歲老馬退出斯諾克元老賽 火箭:為錢我會參加

      “我要去中國了” 51歲老馬退出斯諾克元老賽 火箭:為錢我會參加

      風(fēng)過鄉(xiāng)
      2026-05-07 07:56:33
      倫敦世乒賽:拒絕大爆冷!國乒孫穎莎輸?shù)?局,3:2險勝韓國女單

      倫敦世乒賽:拒絕大爆冷!國乒孫穎莎輸?shù)?局,3:2險勝韓國女單

      國乒二三事
      2026-05-07 18:26:51
      她倆就這樣突然接吻了?

      她倆就這樣突然接吻了?

      奮斗在韓國
      2026-05-07 19:14:41
      女子200萬買下廢棄四合院,當(dāng)晚院中槐樹一夜開花,道士網(wǎng)友:快跑

      女子200萬買下廢棄四合院,當(dāng)晚院中槐樹一夜開花,道士網(wǎng)友:快跑

      古怪奇談錄
      2025-08-05 15:36:06
      看人下菜碟、矯情別硬上綜藝,《妻旅》中的他讓伊能靜都怒發(fā)脾氣

      看人下菜碟、矯情別硬上綜藝,《妻旅》中的他讓伊能靜都怒發(fā)脾氣

      一娛三分地
      2026-05-07 23:59:41
      長得太美被導(dǎo)演占為己有,25歲生下3個孩子,如今個個都給她爭光

      長得太美被導(dǎo)演占為己有,25歲生下3個孩子,如今個個都給她爭光

      攬星河的筆記
      2026-05-07 20:18:36
      一張“初三女孩體測”照片,讓家長被數(shù)萬網(wǎng)友指責(zé):太不用心了!

      一張“初三女孩體測”照片,讓家長被數(shù)萬網(wǎng)友指責(zé):太不用心了!

      川渝視覺
      2026-04-25 20:19:24
      越南生育率撐不住了?專家稱人口紅利或于2036年見頂

      越南生育率撐不住了?專家稱人口紅利或于2036年見頂

      21世紀(jì)經(jīng)濟(jì)報道
      2026-05-07 21:48:52
      2026-05-08 08:16:49
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
      15153文章數(shù) 66848關(guān)注度
      往期回顧 全部

      科技要聞

      月之暗面完成20億美元融資,估值突破200億

      頭條要聞

      媒體:三星"敗退"中國市場有兩個原因 先別急著慶祝

      頭條要聞

      媒體:三星"敗退"中國市場有兩個原因 先別急著慶祝

      體育要聞

      巴黎再進(jìn)歐冠決賽,最尷尬的情況還是發(fā)生了

      娛樂要聞

      Lisa主持!寧藝卓觀看脫衣秀風(fēng)波升級

      財經(jīng)要聞

      人均年薪406萬,這家ST公司驚呆市場!

      汽車要聞

      雷克薩斯全新純電三排SUV 全新TZ全球首發(fā)

      態(tài)度原創(chuàng)

      教育
      游戲
      親子
      公開課
      軍事航空

      教育要聞

      愛孩子愛到失控,是這個時代最普遍的病

      PS獨占神作停服真相曝光!竟是大佬玩家親手毀掉

      親子要聞

      八部門發(fā)文改善保障兒童用藥供應(yīng),有望解決四大痛點

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗:最高領(lǐng)袖穆杰塔巴全面掌控局勢

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲国产精品综合久久2007| 交换一区二区三区va在线| 久久九九兔免费精品6| 婷香五月| AV无码人妻一区二区三区牛牛| 国产成人综合网在线观看| 91精品乱码一区二区三区| 不卡av一区二区| 老肥熟女| 天天爽夜夜爽夜夜爽精品视频| 国产拍拍拍无码视频免费| 亚洲精品中文字幕久久久久下载| 无码AV中文字幕久久专区| 久久成人深夜福利视频| 美女视频黄又黄又免费| 老色鬼永久精品网站| 日韩夜夜高潮夜夜爽无码| 亚洲激情自拍偷拍| 天天操夜夜操| 日韩AV综合| 欧美成人手机在线观看网址| 日本道专区无码中文字幕| 国产亚洲欧美精品一区| 中文屏幕乱码av| 少妇人妻邻居| 狠狠综合久久av一区二区| 久久久久久久波多野结衣高潮| 亚洲a∨国产av综合av网站| 国产熟女AAV久久| 制服丝袜av无码专区| 午夜福利三级理论电影| 国产一区二区三区乱码| 一区二区三区欧美| 久久无码字幕中文久久无码| 老司机午夜免费精品视频| 日韩不卡一区二区三区四区| 亚洲自拍三区| 国产高潮视频在线观看| 欧美亚洲国产精品久久| 熟睡人妻被讨厌的公侵犯深田咏美| 国产精品午夜福利视频|