<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      AI編程進入下半場!新基準不測補丁,拷問真正的工程能力

      0
      分享至


      新智元報道


      【新智元導讀】AI寫代碼已從補丁階段進入全流程工程評估,SWE Atlas 首次系統(tǒng)評測代碼理解、測試編寫與重構(gòu)等核心能力。結(jié)果顯示,盡管GPT-5.4等模型能完成基礎功能,但在代碼健康、邊界覆蓋和跨文件協(xié)調(diào)上仍有明顯不足。

      當全世界都在用SWE-Bench類基準為編程智能體封神時,Scale AI拋出了一顆深水炸彈:SWE Atlas

      在這套由資深工程師手寫的284道考題里,前沿模型集體掉檔,Pass@1 最高僅43.49%,做三次能全對的比例驟降30~50%。

      更扎心的是,模型們寫代碼修bug的能力一騎絕塵,但在代碼理解、測試編寫、重構(gòu)這些專業(yè)工程師真正在做的事情上,幾乎全員翻車。論文戳穿了一個殘酷真相:當前最強的AI編程智能體,是優(yōu)秀的補丁工,卻仍然是糟糕的工程師。

      過去兩年,AI寫代碼的敘事被反復刷新,OpenHands、Agentless、SWE-Bench、SWE-Bench Pro、TerminalBench……每一次榜單更新,都伴隨著新一輪AI替代程序員的喧囂。

      但你有沒有想過一個問題:所有這些基準,幾乎都在做同一件事,修bug和加feature

      而真實世界里的軟件工程,遠遠不止這兩件事。一位工程師真正的日常,是閱讀陌生代碼庫、為新功能寫測試、對歷史代碼做重構(gòu)、回答隊友的架構(gòu)問題、debug一個只在生產(chǎn)環(huán)境復現(xiàn)的運行時異常……這些上游和下游的能力,幾乎被所有主流benchmark集體無視。

      Scale AI團隊近期發(fā)布的SWE Atlas正是要把這塊評測盲區(qū)補上。


      論文鏈接:https://arxiv.org/pdf/2605.08366v1

      修bug不等于會工程

      論文一開篇就給出了一個犀利的判斷:

      把軟件工程等同于功能修復,會制造一個關鍵盲區(qū)。專業(yè)的軟件工程,是維護代碼健康、防止未來回歸、理解復雜架構(gòu),而這些能力在現(xiàn)有基準中幾乎都沒有被有效評估。

      研究團隊進一步指出,過度專注于功能解決,會讓 Agent 被訓練成excellent patchers(優(yōu)秀的補丁工),卻是poor engineers(糟糕的工程師),能修 bug 能加功能,但寫不出可維護的代碼、留不住一個倉庫的長期健康。

      為此,SWE Atlas 選擇了三個被嚴重低估、卻在職業(yè)開發(fā)中無處不在的工作流:

      • Codebase Q&A(代碼庫問答,124題):上游能力,深度理解陌生代碼庫,回答架構(gòu)、運行時行為、安全相關的問題;

      • Test Writing(測試編寫,90題):下游能力,為指定行為撰寫生產(chǎn)級測試,覆蓋單元測試、集成測試和端到端驗收測試;

      • Refactoring(代碼重構(gòu),70題):橫向能力,在不改變可觀測行為的前提下重組代碼,處理重復、遷移、模塊化等問題。

      全部284道任務,由資深工程師手寫,取材自18個活躍維護的開源倉庫。


      圖 1:SWE Atlas一覽。左:三大工作流及子類目的任務分布(共 284 題);右:三個工作流的真實任務樣例。

      不止跑測試

      量化工程素養(yǎng)

      SWE Atlas 與以往基準最關鍵的差異,在評估方式上。

      傳統(tǒng)基準用 test suite 跑通與否來判定 Pass/Fail,本質(zhì)上只是衡量能不能用。而 SWE Atlas 引入了rubric-based LLM-as-a-Judge,讓 LLM 按照專家編寫的結(jié)構(gòu)化打分表,對答案的工程嚴謹度逐項打分。

      每道題平均有多少條打分項?答案讓人咋舌:

      • Codebase Q&A 平均 10.5 條 rubric

      • Test Writing 平均 17.1 條 rubric

      • Refactoring 平均 17.4 條 rubric + 平均 18 條測試

      這些rubric涵蓋的是真正的代碼評審視角:測試是否覆蓋了邊界條件?重構(gòu)后是否清除了舊定義?文檔是否同步更新?是否引入了反模式?是否破壞了接口?這些問題,傳統(tǒng) Pass/Fail 測試根本看不見。

      更進一步,所有任務都經(jīng)過獨立專家三審,3 位專家中至少 2 位認為有效,rubric 才會保留。整套數(shù)據(jù)集、評測腳本、judge prompt 已全部開源。

      GPT-5.4摘冠

      但全員剛剛及格

      研究團隊把當前最強的前沿模型與頂級開源模型一同送上考場,分別在廠商自家 scaffold(Codex CLI、Claude Code、Gemini CLI)和極簡 mini-SWE-Agent兩套環(huán)境下運行,跑 3 次取平均。


      表 1:SWE Atlas 各模型綜合通過率。Pass@1 為單次平均通過率,Pass3 為三次試驗全部通過的比例(一致性指標)。

      幾個非常扎眼的結(jié)論:

      1. 第一檔:GPT-5.4 與 Opus 4.7 幾乎并駕齊驅(qū)。

      在 native scaffold 下,GPT-5.4(Codex)以43.49%的 Pass@1 拿下第一,Opus 4.7(Claude Code)以41.89%緊隨其后,兩者在統(tǒng)計意義上幾乎打平。

      2. 開源模型仍有顯著差距。

      在 mini-SWE-Agent 這套裸跑環(huán)境下,開源最佳 GLM 5 拿到 24.03%,而前沿模型最高(Opus 4.7)能跑到 38.94%,15 個點的鴻溝依然清晰。Kimi K2.5、Minimax M2.5 落在 15–19% 區(qū)間。

      3. 真正震撼的,是Pass3。

      三次都通過的比例,相對單次成績普遍下滑 30~50%。GPT-5.4 的 Pass3 僅 29.2%,Opus 4.6 跌到 22.9%,開源模型大多在個位數(shù)。換句話說,當前 SOTA 模型在做這些任務時,運氣成分依然很大,多跑一次就可能不會做了

      功能對了,為什么分數(shù)還是不高?

      論文最有意思的部分,是揭示了功能正確和工程合格之間那道巨大的鴻溝。


      圖 2:工程質(zhì)量明顯落后于功能正確性。上:所有模型通過功能檢查(變異測試 / 回歸測試)的比例都高于通過 rubric 的比例;下:rubric 類目細分,Test Comprehensiveness、Code Maintainability、Artifact Cleanup 是前沿與開源拉開差距的關鍵。

      在Test Writing任務上,模型們寫出的測試套件,通過變異測試(Mutation Test)的比例普遍高于通過rubric的比例,差距在10–15個點。也就是說,模型能寫出看起來能跑、能抓bug的測試,但嚴謹度上仍有明顯缺陷。

      而Refactoring任務的差距更夸張:

      如果只看回歸測試是否通過,每個模型的得分都能高達 60–80%,看上去都很能打。但一旦拉上 rubric 打分,分數(shù)立刻被腰斬,這正是當前飽和型基準的盲點。

      翻譯過來就是:模型能在保持行為不變這件事上蒙混過關,但真正完成重構(gòu)的結(jié)構(gòu)性工作(如清理舊定義、提取模塊、修正反模式)大多沒做到位。前沿模型與開源模型的差距,正好集中在Code Maintainability(代碼可維護性)Artifact Cleanup(舊產(chǎn)物清理)兩項上。

      Codebase Q&A:高分模型,都在跑代碼


      圖 3:Codebase Q&A 任務的失敗模式。左:解決率與代碼執(zhí)行次數(shù) / 答案長度的關系,會跑代碼的模型更能贏;右:四類失敗模式的分布,不同廠商模型各有各的病灶。

      團隊發(fā)現(xiàn)了一個非常有意思的相關性:在 Codebase Q&A 任務上得分最高的模型,往往擁有最高的平均代碼執(zhí)行次數(shù)

      人工審查這些代碼調(diào)用后他們發(fā)現(xiàn),最強模型不是在靜態(tài)看代碼,而是在真正把應用跑起來、發(fā)請求、做運行時分析。這種實驗型行為模式,跟一個資深工程師 debug 時的直覺驚人地相似。

      反之,失敗的模式可以拆成四類:信息缺失、答案錯誤、無運行時證據(jù)、跑偏目標。GPT 系列模型主要敗在信息不完整(Missing Info),做了實驗但沒覆蓋完所有 rubric 子問題;Claude 系列則主要敗在缺乏運行時證據(jù)(46%),明明是運行時問題,卻選擇只讀靜態(tài)代碼。

      Test Writing:測試寫得多 ≠ 測試寫得好


      圖 4:Test Writing 任務下,模型在 Manifest / Mutation / Rubric 三類檢查上的成功率,以及測試數(shù)量與質(zhì)量的關系。

      另一個反直覺的發(fā)現(xiàn)來自 Test Writing:

      寫得越多,不一定寫得越好。論文觀察到一個清晰的模式:較弱的模型傾向于堆數(shù)量,但這些測試大多只驗證函數(shù)應該做什么,幾乎從不測函數(shù)不應該做什么什么應該保持不變,以及那些會暴露細微行為偏差的邊界場景

      結(jié)果就是:測試套件看起來很豐滿,但變異測試一打就漏,一個 mutant 改了代碼,測試照樣全綠。

      研究團隊指出,越強的模型反而寫得越少、越精準,每個測試都瞄準一個具體的回歸點。這才是專業(yè)測試工程師該有的寫法。

      Refactoring:跨文件重構(gòu),前沿模型也會漏掉調(diào)用點


      圖 5:重構(gòu)任務的能力隨改動規(guī)模衰減。左:按 gold patch 的代碼行數(shù)分桶,所有模型在改動量增大時全線崩潰;右:file-edit recall 上前沿模型覆蓋更多文件,但仍會漏掉關鍵調(diào)用點。

      SWE Atlas 中的重構(gòu)任務,gold patch 改動從 35 行到 2073 行不等。結(jié)果如圖 5 所示:所有模型的解決率,都隨著改動規(guī)模增大而顯著下降

      更精細的分析揭示,前沿模型確實能覆蓋更高比例的需要修改的文件,但即便是最強的 Opus 4.7,也會在跨文件的調(diào)用點(call sites)上漏掉一部分。換句話說,它們看到了主要的修改入口,卻沒能把改動一致地傳播到整個調(diào)用圖。

      這意味著:當一次重構(gòu)需要在多個文件之間做協(xié)調(diào)一致的改動時,當前最強模型仍然是不可靠的

      補丁工與工程師

      還差一個SWE Atlas

      SWE Atlas 給出的結(jié)論并不絕望,前沿模型在這套更嚴苛的考試上能拿到 40% 以上的分數(shù),本身已經(jīng)是驚人的能力躍遷。

      但它也清晰地告訴我們:能修 bug 和是工程師,是兩件不同的事

      當前的最優(yōu)模型已經(jīng)學會探索代碼庫跑通應用做運行時分析覆蓋多文件的修改,這些已經(jīng)遠超 18 個月前的狀態(tài)。但在邊界條件覆蓋、可維護性把控、跨文件協(xié)調(diào)修改、舊代碼的清理這些專業(yè)工程的軟實力上,AI 仍有相當長的路要走。

      Scale AI的這項工作,本質(zhì)上是給整個行業(yè)重新校準了一把尺子。別再只盯著SWE-Bench的issue resolution跑分了,真正的軟件工程,遠比修bug復雜得多

      值得一提的是,第三方評測機構(gòu)Artificial Analysis近期推出的 Coding Agent Index 已經(jīng)把SWE-Atlas-QnA與 SWE-Bench-Pro-Hard-AA、Terminal-Bench v2一同納入,作為完整AI編程棧的三大評測之一。即便是當前榜首組合 Cursor CLI + Claude Opus 4.7,綜合 pass@1 也僅有61分,整個榜單的頂尖系統(tǒng)均聚集在40~60分區(qū)間,無一突破70 分,這從外部視角再次印證了SWE Atlas評測的嚴苛度。

      而下一代的編程智能體如果想真正接管工程師的工作,得先在 SWE Atlas 上拿到一個像樣的分數(shù)。

      參考資料:

      https://arxiv.org/pdf/2605.08366v1

      編輯:LRST

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      廣西皮卡墜落漫水橋的背后:婦女老人留守大山就近打零工|封面深鏡

      廣西皮卡墜落漫水橋的背后:婦女老人留守大山就近打零工|封面深鏡

      封面新聞
      2026-05-23 11:54:07
      許家印的靠山,被起訴了

      許家印的靠山,被起訴了

      哲空空
      2026-05-22 13:40:53
      漳州楊梅事件升級!“奢侈品”會長道歉底褲被扒,滿屏要求追責他

      漳州楊梅事件升級!“奢侈品”會長道歉底褲被扒,滿屏要求追責他

      火山詩話
      2026-05-23 06:10:29
      60歲阿姨在蘋果手機下載“指南針”后馬上卸載,半年被扣1608元!兒子申訴后平臺只退9.57元,App評論區(qū)全是一星差評“亂扣費”“搶錢”

      60歲阿姨在蘋果手機下載“指南針”后馬上卸載,半年被扣1608元!兒子申訴后平臺只退9.57元,App評論區(qū)全是一星差評“亂扣費”“搶錢”

      都市快報橙柿互動
      2026-05-23 00:35:05
      航天員黎家盈簡歷公布,我國第四名女航天員,承載700萬港人期待

      航天員黎家盈簡歷公布,我國第四名女航天員,承載700萬港人期待

      光電科技君
      2026-05-23 11:08:00
      最新進展!山西沁源煤礦瓦斯爆炸事故傷者主要是受到有毒氣體傷害;村民:礦井是斜井,有工人聽到爆炸聲后逃生

      最新進展!山西沁源煤礦瓦斯爆炸事故傷者主要是受到有毒氣體傷害;村民:礦井是斜井,有工人聽到爆炸聲后逃生

      大象新聞
      2026-05-23 15:43:53
      景甜代孕協(xié)議曝光?網(wǎng)傳景甜借代孕生子向男友索要3億,男友準備好后,景甜又以各種理由拒絕配合取卵,并再次向男友索要五千萬美金。

      景甜代孕協(xié)議曝光?網(wǎng)傳景甜借代孕生子向男友索要3億,男友準備好后,景甜又以各種理由拒絕配合取卵,并再次向男友索要五千萬美金。

      貼小君
      2026-05-23 00:06:19
      中央開始嚴查!多地機關,事業(yè)單位大整頓!這幾類人受影響最大

      中央開始嚴查!多地機關,事業(yè)單位大整頓!這幾類人受影響最大

      職場資深秘書
      2026-05-23 11:09:48
      瑞士媒體調(diào)查:昂跑出廠20歐元的鞋,在瑞士賣約500歐元,加價幅度超阿迪達斯

      瑞士媒體調(diào)查:昂跑出廠20歐元的鞋,在瑞士賣約500歐元,加價幅度超阿迪達斯

      爆角追蹤
      2026-05-23 09:45:18
      鄭麗文的話刺痛大陸心臟:兩岸未來發(fā)展不接受任何形式強迫或戰(zhàn)爭

      鄭麗文的話刺痛大陸心臟:兩岸未來發(fā)展不接受任何形式強迫或戰(zhàn)爭

      娛樂圈的筆娛君
      2026-05-23 13:22:12
      諷刺!出局賽后陳盈駿悲傷到暈厥,周琦陷入自閉,趙睿卻笑開了花

      諷刺!出局賽后陳盈駿悲傷到暈厥,周琦陷入自閉,趙睿卻笑開了花

      后仰大風車
      2026-05-23 07:10:10
      上海男籃抵滬!眾人接機,李弘權(quán)開心,盧偉洛夫頓淡定,白邊圈粉

      上海男籃抵滬!眾人接機,李弘權(quán)開心,盧偉洛夫頓淡定,白邊圈粉

      籃球資訊達人
      2026-05-23 15:05:06
      一張英偉達員工的個稅單火了!年入1680萬,天價分紅,評論區(qū)炸鍋

      一張英偉達員工的個稅單火了!年入1680萬,天價分紅,評論區(qū)炸鍋

      譚談社會
      2026-05-23 12:18:30
      6支國家礦山應急救援隊伍赴山西通洲集團留神峪煤礦瓦斯爆炸事故現(xiàn)場參與救援

      6支國家礦山應急救援隊伍赴山西通洲集團留神峪煤礦瓦斯爆炸事故現(xiàn)場參與救援

      界面新聞
      2026-05-23 13:36:19
      招商局集團黨委:堅決擁護黨中央決定

      招商局集團黨委:堅決擁護黨中央決定

      環(huán)球網(wǎng)資訊
      2026-05-22 19:56:21
      突發(fā)! 伊朗關閉西部空域 特朗普取消出席兒子婚禮 急返白宮 部分美軍取消休假

      突發(fā)! 伊朗關閉西部空域 特朗普取消出席兒子婚禮 急返白宮 部分美軍取消休假

      每日經(jīng)濟新聞
      2026-05-23 13:19:00
      網(wǎng)傳酉陽女商人色誘十數(shù)名官員以視頻要挾拿工程賺千萬資產(chǎn)被抓!

      網(wǎng)傳酉陽女商人色誘十數(shù)名官員以視頻要挾拿工程賺千萬資產(chǎn)被抓!

      兵叔評說
      2026-05-23 12:57:43
      越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內(nèi)這么簡單

      越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內(nèi)這么簡單

      觀史搜尋著
      2026-05-21 05:41:15
      電投研辟謠后樊父身份藏不住了!交大樊院長成最大嫌疑?她全完了

      電投研辟謠后樊父身份藏不住了!交大樊院長成最大嫌疑?她全完了

      社會日日鮮
      2026-05-23 11:03:10
      馮德萊恩沒想到,先等來的不是加稅50%,中國用歐盟的方式反制歐

      馮德萊恩沒想到,先等來的不是加稅50%,中國用歐盟的方式反制歐

      共工之錨
      2026-05-23 00:12:49
      2026-05-23 16:27:00
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺領航智能+時代
      15285文章數(shù) 66881關注度
      往期回顧 全部

      科技要聞

      爆炸聲中又邁一步!拆解馬斯克“十二飛”

      頭條要聞

      總投資8億的項目違規(guī) 民營建筑巨頭訴廣西貴港城管局

      頭條要聞

      總投資8億的項目違規(guī) 民營建筑巨頭訴廣西貴港城管局

      體育要聞

      少年意氣,正在改變中國足球

      娛樂要聞

      歌手2026首播:胡彥斌破音 張碧晨跑調(diào)

      財經(jīng)要聞

      股價暴跌!富途老虎是什么來頭?

      汽車要聞

      與眾07上市限時權(quán)益價10.99萬起 首搭CEA架構(gòu)

      態(tài)度原創(chuàng)

      教育
      本地
      親子
      公開課
      軍事航空

      教育要聞

      志愿填報別錯過!黃埔區(qū)這所實力派黑馬高中

      本地新聞

      用云錦的方式,打開江蘇南京

      親子要聞

      兒童補腦DHA哪款好?熱門補腦產(chǎn)品實測:磷脂酰絲氨酸PS與神經(jīng)酸健腦益智

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普再醞釀對伊打擊 美伊談判連放信號

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 伊人精品久久久大香线蕉| 日本边添边摸边做边爱喷水| 国产女人18毛片水真多1| 久久精品av一区二区三| 亚洲国产激情五月色丁香小说| www.一区二区| 少妇高潮惨叫久久久久电影 | 亚洲成a人在线播放www| 日本一区二区三区东京热| 久久久久人妻精品一区三寸| 精品久久久久88久久久| 蜜臀av一区二区三区精品| 艳妇乳肉豪妇荡乳xxx| 好吊色欧美一区二区三区四区| 久热这里只有精品12| www.XXXX国产精品| 国产高潮又爽又刺激的视频| 国产成本人片无码免费2020| 综合人妻久久一区二区精品| 国产成人免费一区二区三区| 久久成人深夜福利视频| 亚洲中文字幕无码中文字在线| 小污女小欲女导航| 伊人九九网香蕉精品| 国产AV无码专区亚洲AV蜜芽| 99久热re在线精品视频| 国产在线午夜不卡精品影院| 欧美一线天| 日韩卡一区二区三区| 府谷县| 中国老太婆video| 中国激情网| 爽到无码高潮喷水aV无码| 一品二品三品中文字幕| 精品精品国产高清a毛片| 国产日韩欧美妖亚欧在线| 久久黄色小视频| 国内精品少妇在线播放| 小婕子伦流澡到高潮h| 国产天美传媒性色av| 国产婷婷色综合av蜜臀av|