![]()
新智元報(bào)道
編輯:LRST
【新智元導(dǎo)讀】AutoSOTA通過多智能體協(xié)作,將AI研究中繁瑣的性能優(yōu)化過程自動(dòng)化,使科研從「手工藝」轉(zhuǎn)向「工業(yè)流水線」。只需5小時(shí)即可完成人類需數(shù)月的工作,極大釋放科學(xué)家的創(chuàng)造力,推動(dòng)更多原創(chuàng)性探索。
在當(dāng)今的人工智能研究領(lǐng)域,實(shí)驗(yàn)室的燈火往往見證了無數(shù)次為了提升1%性能而進(jìn)行的徹夜調(diào)參。這種被戲稱為「煉丹」的過程,雖然最終產(chǎn)出了當(dāng)前的最佳水平(State-of-the-Art,簡(jiǎn)稱SOTA),但也將人類科學(xué)家最寶貴的直覺與創(chuàng)造力,困在了無止境的「增量式優(yōu)化」勞動(dòng)中。
面對(duì)這種高強(qiáng)度的競(jìng)爭(zhēng)壓力,清華大學(xué)徐豐力助理教授團(tuán)隊(duì)與北京中關(guān)村學(xué)院推出了AutoSOTA項(xiàng)目。這不僅是一個(gè)技術(shù)工具的發(fā)布,更是試圖改寫AI研究領(lǐng)域的「工業(yè)節(jié)拍」,將AI科研從低效的「手工藝模式」推向高效的「工業(yè)流水線模式」。
![]()
論文網(wǎng)址:https://arxiv.org/abs/2604.05550
項(xiàng)目網(wǎng)站:https://tsinghua-fib-lab.github.io/AutoSOTA/
研究背景
要理解AutoSOTA的必要性,首先要看當(dāng)前AI科研的殘酷現(xiàn)狀。
以頂級(jí)AI學(xué)術(shù)會(huì)議為例,頂會(huì)論文海量的投稿和最終能夠脫穎而出的口頭報(bào)告(Oral)極低的比率使得SOTA性能指標(biāo)成為了衡量研究?jī)r(jià)值的「金標(biāo)準(zhǔn)」。
然而,攀登這一高峰需要投入巨量的研究力量。一個(gè)頂尖成果或許始于少數(shù)幾個(gè)大膽的直覺,但后續(xù)往往涉及數(shù)千次的持續(xù)打磨。
以著名的Transformer架構(gòu)為例,自2017年問世以來,全球科研人員投入了海量算力與人力,歷經(jīng)數(shù)年的變體研究與打磨,才將其在通用語言理解評(píng)測(cè)集(GLUE)上的性能從約75%提升至90%以上。
這種迭代優(yōu)化雖然必要,卻占用了人類科學(xué)家本可用于原創(chuàng)性探索的大量精力。
![]()
圖1 Transformer架構(gòu)在GLUE評(píng)測(cè)集上的性能爬升
全自動(dòng)刷榜
不同于現(xiàn)有只能在沙盒里做局部代碼優(yōu)化的框架,AutoSOTA 并不是對(duì)單一實(shí)驗(yàn)環(huán)節(jié)的局部加速。
它將智能體的作用范圍大幅拓寬,向下延伸至環(huán)境準(zhǔn)備、代碼運(yùn)行等基礎(chǔ)瑣碎任務(wù),向上則觸達(dá)研究靈感激發(fā)等核心構(gòu)想步驟,旨在實(shí)現(xiàn)「從舊SOTA到新SOTA」、「從舊代碼庫到新代碼庫」的全面科研自動(dòng)化。
![]()
圖2 AutoSOTA研究問題框架
借鑒人類算法研究中的分工流程與協(xié)作邏輯,使不同科研智能體能夠圍繞同一目標(biāo)推進(jìn)方案設(shè)計(jì)、實(shí)驗(yàn)操作、數(shù)據(jù)分析與優(yōu)化迭代,研究團(tuán)隊(duì)設(shè)計(jì)了8個(gè)各司其職的Agent:
![]()
圖3 AutoSOTA端到端AI科研自動(dòng)化系統(tǒng)
在資源準(zhǔn)備與目標(biāo)設(shè)定階段,AgentResource負(fù)責(zé)物理落地,從PDF提取官方代碼庫,并自動(dòng)搞定海量外部數(shù)據(jù)集和權(quán)重的下載,AgentObjective負(fù)責(zé)識(shí)別目標(biāo),通過樹狀結(jié)構(gòu)分解將論文宏觀目標(biāo)轉(zhuǎn)化為密集的評(píng)估標(biāo)準(zhǔn),精準(zhǔn)鎖定要超越的目標(biāo)。
在構(gòu)建環(huán)境和實(shí)驗(yàn)評(píng)估階段,AgentInit負(fù)責(zé)初始化環(huán)境,根據(jù)論文概念補(bǔ)全代碼庫中缺失的腳本,AgentMonitor作為外部監(jiān)控者,實(shí)時(shí)追蹤執(zhí)行軌跡 。一旦發(fā)現(xiàn)agent陷入了死循環(huán)調(diào)試,會(huì)立刻介入打斷并提供高級(jí)指導(dǎo),AgentFix專治各種報(bào)錯(cuò)。它帶著失敗記憶庫來修復(fù)CUDA不匹配、缺包等環(huán)境問題。
在深度反思與突破創(chuàng)新階段,AgentIdeator是核心創(chuàng)新大腦,它結(jié)合外部文獻(xiàn)先驗(yàn)知識(shí),提出架構(gòu)重組的優(yōu)化假設(shè) ,AgentScheduler作為系統(tǒng)調(diào)度中樞,管理實(shí)驗(yàn)的GPU資源和節(jié)點(diǎn)狀態(tài),并在每次改代碼前自動(dòng)打好Git快照以便隨時(shí)回滾,AgentSupervisor作為監(jiān)督者,嚴(yán)格執(zhí)行由禁止修改評(píng)估腳本、禁止更改數(shù)據(jù)集劃分等規(guī)則組成的紅線系統(tǒng),所有生成的Idea必須經(jīng)過它的嚴(yán)格審計(jì)。
與此同時(shí),AutoSOTA 配備了完善的工具庫(Toolkit)與技能集(Skill Set),既能處理實(shí)驗(yàn)運(yùn)行中的突發(fā)狀況,又能勝任查閱文獻(xiàn)、頭腦風(fēng)暴和方案謀劃等高級(jí)工作,真正打通了從頂層規(guī)劃到底層執(zhí)行的閉環(huán)。
這意味著,AutoSOTA的野心不僅是「跑實(shí)驗(yàn)快一點(diǎn)」,更是引領(lǐng)AI科研自動(dòng)化從單一環(huán)節(jié)的輔助工具,蛻變?yōu)橐惶紫到y(tǒng)化、常態(tài)化且高度智能的科研協(xié)作生態(tài)。
一周斬獲105個(gè)SOTA
在最近進(jìn)行的一場(chǎng)為期一周的真實(shí)壓力測(cè)試中,AutoSOTA展示了令人震撼的工業(yè)產(chǎn)出能力。該實(shí)驗(yàn)以前一年的AI頂會(huì)論文成果為基礎(chǔ),在完全無人干預(yù)的條件下持續(xù)運(yùn)行。
一周(168小時(shí))內(nèi)累計(jì)消耗約220億Token(約10.4萬美元,75萬元人民幣),最終成功發(fā)現(xiàn)了105個(gè)性能顯著提升的SOTA模型。這意味著系統(tǒng)在這周內(nèi),平均每隔約1.6小時(shí)就能完成一次性能飛躍。這105個(gè)新模型平均實(shí)現(xiàn)了近10%的性能提升。
更令人驚訝的是,這些成果并非簡(jiǎn)單的超參數(shù)微調(diào),其中超過60%的模型涉及新穎的結(jié)構(gòu)設(shè)計(jì),展現(xiàn)了系統(tǒng)在復(fù)雜設(shè)計(jì)空間中的挖掘能力。AutoSOTA并非機(jī)械搜索,它能在已有研究的基礎(chǔ)上進(jìn)行一定程度的結(jié)構(gòu)創(chuàng)新。
![]()
圖4 AutoSOTA實(shí)驗(yàn)結(jié)果
AutoSOTA的吞吐量與人類科研路徑形成了極其鮮明的代差。對(duì)于一名經(jīng)驗(yàn)豐富的人類研究者或人類博士而言,完成一個(gè)SOTA模型的完整迭代優(yōu)化——包括精讀文獻(xiàn)、準(zhǔn)備算力資源、安裝工具搭建平臺(tái)、模型訓(xùn)練評(píng)估、深入調(diào)研創(chuàng)新構(gòu)思以及持續(xù)調(diào)優(yōu)——通常需要數(shù)個(gè)月的時(shí)間。
相比之下,AutoSOTA走完從閱讀論文到迭代優(yōu)化的全流程,平均耗時(shí)僅為5小時(shí)。
這種百倍速的提升,不僅是效率的飛躍,更是科研范式維度的「降維打擊」。系統(tǒng)通過「算力換智能」,在相對(duì)穩(wěn)定的條件下,持續(xù)產(chǎn)出具備學(xué)術(shù)競(jìng)爭(zhēng)力的工作。它具備完善的工具庫與技能集,能夠獨(dú)立處理那些讓研究者頭疼的底層繁瑣任務(wù)。
總結(jié)
AutoSOTA帶給我們的震撼,不僅是產(chǎn)出了一批嶄新的SOTA指標(biāo),更深層的意義在于它促使學(xué)界反思科研創(chuàng)新的初衷:單純刷高SOTA分?jǐn)?shù),真的等同于實(shí)現(xiàn)了重大的科學(xué)突破嗎?
它為我們拋出了一個(gè)極具啟發(fā)性的命題:如何才能把人類科學(xué)家最稀缺的注意力,從機(jī)械的實(shí)驗(yàn)試錯(cuò)中釋放出來,重新聚焦到更具原創(chuàng)價(jià)值、更考驗(yàn)長(zhǎng)遠(yuǎn)判斷的研究課題上?
未來理想的「人機(jī)協(xié)作」圖景或許是這樣的:由科研智能體系統(tǒng)去死磕那些重復(fù)度高、勞動(dòng)密集的漫長(zhǎng)優(yōu)化流程;而人類科學(xué)家則專職負(fù)責(zé)提出好問題、錨定大方向、敏銳捕捉機(jī)遇并構(gòu)思底層機(jī)制。
從這個(gè)角度來看,AutoSOTA更像是一個(gè)加持在科研流程上的「創(chuàng)造力放大器」 。
它的初衷決不是為了取代學(xué)者的原創(chuàng)智慧,而是要把這種原創(chuàng)性從低效繁雜的苦力活里徹底解放出來。
![]()
圖5 AutoSOTA啟發(fā)的人智協(xié)同科研范式
歸根結(jié)底,真正關(guān)乎科研未來的,絕非讓學(xué)者們陷入「把舊模型分?jǐn)?shù)再推高一點(diǎn)」的循環(huán),而是賦予他們探索那些未被定義、未被解釋且未被系統(tǒng)深挖之難題的機(jī)會(huì)。
在這條探索之路上,AutoSOTA已經(jīng)邁出了極具標(biāo)志性的一步 。它不僅論證了智能體在AI科研自動(dòng)化領(lǐng)域的磅礴潛力,更為我們描繪了一個(gè)充滿希望的明天:當(dāng)繁重的「性能優(yōu)化」被智能體接管,科學(xué)研究終將回歸其最純粹、最珍貴的起點(diǎn)——大膽地提出問題,勇敢地駛向未知,去追尋真正無可替代的原始創(chuàng)新突破。
AutoSOTA的意義在于它重新定義了SOTA的價(jià)值。
當(dāng)性能優(yōu)化可以被大規(guī)模自動(dòng)化發(fā)現(xiàn)時(shí),我們必須反思:SOTA性能的刷新是否等同于重大的科學(xué)突破?
AutoSOTA給出的答案是:它應(yīng)當(dāng)成為人類科學(xué)家的「創(chuàng)造力放大器」。
通過將工程實(shí)現(xiàn)與科學(xué)發(fā)現(xiàn)解耦,AutoSOTA讓研究者能夠面對(duì)那些尚未被解釋、尚未被系統(tǒng)探索的科學(xué)無人區(qū)。
參考資料:
https://arxiv.org/abs/2604.05550
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.