網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

刷榜只是體力活！清華消費(fèi)10萬塊，一周「肝」出105個(gè)SOTA

女生28歲攢到10萬塊開心到想哭

2026-04-29 21:13:06　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：LRST

【新智元導(dǎo)讀】AutoSOTA通過多智能體協(xié)作，將AI研究中繁瑣的性能優(yōu)化過程自動(dòng)化，使科研從「手工藝」轉(zhuǎn)向「工業(yè)流水線」。只需5小時(shí)即可完成人類需數(shù)月的工作，極大釋放科學(xué)家的創(chuàng)造力，推動(dòng)更多原創(chuàng)性探索。

在當(dāng)今的人工智能研究領(lǐng)域，實(shí)驗(yàn)室的燈火往往見證了無數(shù)次為了提升1%性能而進(jìn)行的徹夜調(diào)參。這種被戲稱為「煉丹」的過程，雖然最終產(chǎn)出了當(dāng)前的最佳水平（State-of-the-Art，簡(jiǎn)稱SOTA），但也將人類科學(xué)家最寶貴的直覺與創(chuàng)造力，困在了無止境的「增量式優(yōu)化」勞動(dòng)中。

面對(duì)這種高強(qiáng)度的競(jìng)爭(zhēng)壓力，清華大學(xué)徐豐力助理教授團(tuán)隊(duì)與北京中關(guān)村學(xué)院推出了AutoSOTA項(xiàng)目。這不僅是一個(gè)技術(shù)工具的發(fā)布，更是試圖改寫AI研究領(lǐng)域的「工業(yè)節(jié)拍」，將AI科研從低效的「手工藝模式」推向高效的「工業(yè)流水線模式」。

論文網(wǎng)址：https://arxiv.org/abs/2604.05550

項(xiàng)目網(wǎng)站：https://tsinghua-fib-lab.github.io/AutoSOTA/

研究背景

要理解AutoSOTA的必要性，首先要看當(dāng)前AI科研的殘酷現(xiàn)狀。

以頂級(jí)AI學(xué)術(shù)會(huì)議為例，頂會(huì)論文海量的投稿和最終能夠脫穎而出的口頭報(bào)告（Oral）極低的比率使得SOTA性能指標(biāo)成為了衡量研究?jī)r(jià)值的「金標(biāo)準(zhǔn)」。

然而，攀登這一高峰需要投入巨量的研究力量。一個(gè)頂尖成果或許始于少數(shù)幾個(gè)大膽的直覺，但后續(xù)往往涉及數(shù)千次的持續(xù)打磨。

以著名的Transformer架構(gòu)為例，自2017年問世以來，全球科研人員投入了海量算力與人力，歷經(jīng)數(shù)年的變體研究與打磨，才將其在通用語言理解評(píng)測(cè)集（GLUE）上的性能從約75%提升至90%以上。

這種迭代優(yōu)化雖然必要，卻占用了人類科學(xué)家本可用于原創(chuàng)性探索的大量精力。

圖1 Transformer架構(gòu)在GLUE評(píng)測(cè)集上的性能爬升

全自動(dòng)刷榜

不同于現(xiàn)有只能在沙盒里做局部代碼優(yōu)化的框架，AutoSOTA 并不是對(duì)單一實(shí)驗(yàn)環(huán)節(jié)的局部加速。

它將智能體的作用范圍大幅拓寬，向下延伸至環(huán)境準(zhǔn)備、代碼運(yùn)行等基礎(chǔ)瑣碎任務(wù)，向上則觸達(dá)研究靈感激發(fā)等核心構(gòu)想步驟，旨在實(shí)現(xiàn)「從舊SOTA到新SOTA」、「從舊代碼庫到新代碼庫」的全面科研自動(dòng)化。

圖2 AutoSOTA研究問題框架

借鑒人類算法研究中的分工流程與協(xié)作邏輯，使不同科研智能體能夠圍繞同一目標(biāo)推進(jìn)方案設(shè)計(jì)、實(shí)驗(yàn)操作、數(shù)據(jù)分析與優(yōu)化迭代，研究團(tuán)隊(duì)設(shè)計(jì)了8個(gè)各司其職的Agent：

圖3 AutoSOTA端到端AI科研自動(dòng)化系統(tǒng)

在資源準(zhǔn)備與目標(biāo)設(shè)定階段，AgentResource負(fù)責(zé)物理落地，從PDF提取官方代碼庫，并自動(dòng)搞定海量外部數(shù)據(jù)集和權(quán)重的下載，AgentObjective負(fù)責(zé)識(shí)別目標(biāo)，通過樹狀結(jié)構(gòu)分解將論文宏觀目標(biāo)轉(zhuǎn)化為密集的評(píng)估標(biāo)準(zhǔn)，精準(zhǔn)鎖定要超越的目標(biāo)。

在構(gòu)建環(huán)境和實(shí)驗(yàn)評(píng)估階段，AgentInit負(fù)責(zé)初始化環(huán)境，根據(jù)論文概念補(bǔ)全代碼庫中缺失的腳本，AgentMonitor作為外部監(jiān)控者，實(shí)時(shí)追蹤執(zhí)行軌跡。一旦發(fā)現(xiàn)agent陷入了死循環(huán)調(diào)試，會(huì)立刻介入打斷并提供高級(jí)指導(dǎo)，AgentFix專治各種報(bào)錯(cuò)。它帶著失敗記憶庫來修復(fù)CUDA不匹配、缺包等環(huán)境問題。

在深度反思與突破創(chuàng)新階段，AgentIdeator是核心創(chuàng)新大腦，它結(jié)合外部文獻(xiàn)先驗(yàn)知識(shí)，提出架構(gòu)重組的優(yōu)化假設(shè) ，AgentScheduler作為系統(tǒng)調(diào)度中樞，管理實(shí)驗(yàn)的GPU資源和節(jié)點(diǎn)狀態(tài)，并在每次改代碼前自動(dòng)打好Git快照以便隨時(shí)回滾，AgentSupervisor作為監(jiān)督者，嚴(yán)格執(zhí)行由禁止修改評(píng)估腳本、禁止更改數(shù)據(jù)集劃分等規(guī)則組成的紅線系統(tǒng)，所有生成的Idea必須經(jīng)過它的嚴(yán)格審計(jì)。

與此同時(shí)，AutoSOTA 配備了完善的工具庫（Toolkit）與技能集（Skill Set），既能處理實(shí)驗(yàn)運(yùn)行中的突發(fā)狀況，又能勝任查閱文獻(xiàn)、頭腦風(fēng)暴和方案謀劃等高級(jí)工作，真正打通了從頂層規(guī)劃到底層執(zhí)行的閉環(huán)。

這意味著，AutoSOTA的野心不僅是「跑實(shí)驗(yàn)快一點(diǎn)」，更是引領(lǐng)AI科研自動(dòng)化從單一環(huán)節(jié)的輔助工具，蛻變?yōu)橐惶紫到y(tǒng)化、常態(tài)化且高度智能的科研協(xié)作生態(tài)。

一周斬獲105個(gè)SOTA

在最近進(jìn)行的一場(chǎng)為期一周的真實(shí)壓力測(cè)試中，AutoSOTA展示了令人震撼的工業(yè)產(chǎn)出能力。該實(shí)驗(yàn)以前一年的AI頂會(huì)論文成果為基礎(chǔ)，在完全無人干預(yù)的條件下持續(xù)運(yùn)行。

一周（168小時(shí)）內(nèi)累計(jì)消耗約220億Token（約10.4萬美元，75萬元人民幣），最終成功發(fā)現(xiàn)了105個(gè)性能顯著提升的SOTA模型。這意味著系統(tǒng)在這周內(nèi)，平均每隔約1.6小時(shí)就能完成一次性能飛躍。這105個(gè)新模型平均實(shí)現(xiàn)了近10%的性能提升。

更令人驚訝的是，這些成果并非簡(jiǎn)單的超參數(shù)微調(diào)，其中超過60%的模型涉及新穎的結(jié)構(gòu)設(shè)計(jì)，展現(xiàn)了系統(tǒng)在復(fù)雜設(shè)計(jì)空間中的挖掘能力。AutoSOTA并非機(jī)械搜索，它能在已有研究的基礎(chǔ)上進(jìn)行一定程度的結(jié)構(gòu)創(chuàng)新。

圖4 AutoSOTA實(shí)驗(yàn)結(jié)果

AutoSOTA的吞吐量與人類科研路徑形成了極其鮮明的代差。對(duì)于一名經(jīng)驗(yàn)豐富的人類研究者或人類博士而言，完成一個(gè)SOTA模型的完整迭代優(yōu)化——包括精讀文獻(xiàn)、準(zhǔn)備算力資源、安裝工具搭建平臺(tái)、模型訓(xùn)練評(píng)估、深入調(diào)研創(chuàng)新構(gòu)思以及持續(xù)調(diào)優(yōu)——通常需要數(shù)個(gè)月的時(shí)間。

相比之下，AutoSOTA走完從閱讀論文到迭代優(yōu)化的全流程，平均耗時(shí)僅為5小時(shí)。

這種百倍速的提升，不僅是效率的飛躍，更是科研范式維度的「降維打擊」。系統(tǒng)通過「算力換智能」，在相對(duì)穩(wěn)定的條件下，持續(xù)產(chǎn)出具備學(xué)術(shù)競(jìng)爭(zhēng)力的工作。它具備完善的工具庫與技能集，能夠獨(dú)立處理那些讓研究者頭疼的底層繁瑣任務(wù)。

總結(jié)

AutoSOTA帶給我們的震撼，不僅是產(chǎn)出了一批嶄新的SOTA指標(biāo)，更深層的意義在于它促使學(xué)界反思科研創(chuàng)新的初衷：單純刷高SOTA分?jǐn)?shù)，真的等同于實(shí)現(xiàn)了重大的科學(xué)突破嗎？

它為我們拋出了一個(gè)極具啟發(fā)性的命題：如何才能把人類科學(xué)家最稀缺的注意力，從機(jī)械的實(shí)驗(yàn)試錯(cuò)中釋放出來，重新聚焦到更具原創(chuàng)價(jià)值、更考驗(yàn)長(zhǎng)遠(yuǎn)判斷的研究課題上？

未來理想的「人機(jī)協(xié)作」圖景或許是這樣的：由科研智能體系統(tǒng)去死磕那些重復(fù)度高、勞動(dòng)密集的漫長(zhǎng)優(yōu)化流程；而人類科學(xué)家則專職負(fù)責(zé)提出好問題、錨定大方向、敏銳捕捉機(jī)遇并構(gòu)思底層機(jī)制。

從這個(gè)角度來看，AutoSOTA更像是一個(gè)加持在科研流程上的「創(chuàng)造力放大器」。

它的初衷決不是為了取代學(xué)者的原創(chuàng)智慧，而是要把這種原創(chuàng)性從低效繁雜的苦力活里徹底解放出來。

圖5 AutoSOTA啟發(fā)的人智協(xié)同科研范式

歸根結(jié)底，真正關(guān)乎科研未來的，絕非讓學(xué)者們陷入「把舊模型分?jǐn)?shù)再推高一點(diǎn)」的循環(huán)，而是賦予他們探索那些未被定義、未被解釋且未被系統(tǒng)深挖之難題的機(jī)會(huì)。

在這條探索之路上，AutoSOTA已經(jīng)邁出了極具標(biāo)志性的一步。它不僅論證了智能體在AI科研自動(dòng)化領(lǐng)域的磅礴潛力，更為我們描繪了一個(gè)充滿希望的明天：當(dāng)繁重的「性能優(yōu)化」被智能體接管，科學(xué)研究終將回歸其最純粹、最珍貴的起點(diǎn)——大膽地提出問題，勇敢地駛向未知，去追尋真正無可替代的原始創(chuàng)新突破。

AutoSOTA的意義在于它重新定義了SOTA的價(jià)值。

當(dāng)性能優(yōu)化可以被大規(guī)模自動(dòng)化發(fā)現(xiàn)時(shí)，我們必須反思：SOTA性能的刷新是否等同于重大的科學(xué)突破？

AutoSOTA給出的答案是：它應(yīng)當(dāng)成為人類科學(xué)家的「創(chuàng)造力放大器」。

通過將工程實(shí)現(xiàn)與科學(xué)發(fā)現(xiàn)解耦，AutoSOTA讓研究者能夠面對(duì)那些尚未被解釋、尚未被系統(tǒng)探索的科學(xué)無人區(qū)。

參考資料：

https://arxiv.org/abs/2604.05550

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.