![]()
編輯丨ScienceAI
對(duì)于每一位在實(shí)驗(yàn)室徹夜調(diào)參的研究者來(lái)說(shuō),最繁瑣的部分往往不是靈光一現(xiàn),而是其后的環(huán)境配置、Bug 修復(fù)與實(shí)驗(yàn)迭代。現(xiàn)在的 AI 科研就像是一場(chǎng)追求極致性能的漫漫征途。
看看近年 AI 頂會(huì)的投稿數(shù)據(jù)就知道了:NeurIPS 投稿量高達(dá) 21575 篇,其中口頭報(bào)告(Oral)僅占 0.4% ;ICML 投稿 12107篇,Oral 占比 0.9% ;ICLR 投稿 11603 篇,Oral 也不過(guò) 1.8%。
在這樣千軍萬(wàn)馬過(guò)獨(dú)木橋的競(jìng)爭(zhēng)中,SOTA(當(dāng)前最佳水平)成為了衡量研究?jī)r(jià)值的唯一金標(biāo)準(zhǔn)。但攀登這座高峰需要巨量的研究力量投入,一個(gè)好的 Idea 可能只占研究過(guò)程的一小部分,剩下的全是漫長(zhǎng)而痛苦的打磨優(yōu)化。
近期,清華大學(xué)電子工程系助理教授、北京中關(guān)村學(xué)院兼職導(dǎo)師徐豐力課題組與北京中關(guān)村學(xué)院聯(lián)合發(fā)布了AutoSOTA 項(xiàng)目,為這一難題提供了一套工業(yè)級(jí)的解決方案。目前,AutoSOTA 項(xiàng)目已發(fā)布預(yù)印本論文。
![]()
論文地址:https://arxiv.org/abs/2604.05550
AutoSOTA 致力于實(shí)現(xiàn)端到端的 AI 科研自動(dòng)化,其核心理念是將 AI 智能體的賦能邊界延伸到實(shí)驗(yàn)的每一個(gè)底層細(xì)節(jié)。不同于那些局部加速的工具,AutoSOTA 構(gòu)建了一個(gè)完整的閉環(huán)流程,涵蓋了從原始論文輸入到最終優(yōu)化方法產(chǎn)出的全生命周期。
一支永不疲倦的超級(jí)研究團(tuán)隊(duì)
![]()
圖 1:AutoSOTA 流程。
在架構(gòu)層面,AutoSOTA 采用了精密的“多智能體協(xié)作”邏輯。整個(gè)系統(tǒng)由一個(gè)強(qiáng)大的認(rèn)知架構(gòu)驅(qū)動(dòng),具備規(guī)劃、推理、記憶和工作流管理能力。我們可以把它想象成一個(gè)分工明確的超級(jí)研究團(tuán)隊(duì),具體分工如下:
第一步:資源準(zhǔn)備與目標(biāo)設(shè)置
這一環(huán)節(jié)由AgentResource和 AgentObjective 負(fù)責(zé)。它們會(huì)從海量的 AI 頂會(huì)研究(如 ICML、KDD、The Web Conf、AAAI 等)中提取原始論文和代碼庫(kù)。
AgentResource 負(fù)責(zé)管理 PDF 文檔和模型參數(shù),而 AgentObjective 則根據(jù)論文目標(biāo)構(gòu)建評(píng)價(jià)指標(biāo)體系(Rubric Construction),確立優(yōu)化方向。簡(jiǎn)單來(lái)說(shuō),它們負(fù)責(zé)搞清楚要研究什么,以及怎么才算研究得好。
第二步:實(shí)驗(yàn)評(píng)估閉環(huán)
這可能是最讓研究者頭疼的環(huán)節(jié),但在AutoSOTA 里,一切都是全自動(dòng)的。AgentInit 負(fù)責(zé)底層的環(huán)境初始化,AgentMonitor 實(shí)時(shí)追蹤實(shí)驗(yàn)狀態(tài),而 AgentFix 則負(fù)責(zé)接收反饋并執(zhí)行修復(fù)指令(Repair Command),直至代碼通過(guò)各種復(fù)雜的測(cè)試與調(diào)試。這個(gè)過(guò)程就像是有個(gè)永不疲倦的師兄在幫你改 Bug、配環(huán)境,不僅高效而且零出錯(cuò)。
第三步:代碼優(yōu)化引擎
AutoSOTA 利用程序數(shù)據(jù)庫(kù)(Program Database)與提示詞采樣(Prompt Sampler),結(jié)合大模型集成(LLMs Ensemble)和評(píng)估器池(Evaluators pool),實(shí)現(xiàn)算法實(shí)現(xiàn)的持續(xù)精煉。通過(guò)不斷地反饋(Feedback)與執(zhí)行(Execution),模型性能在一次次迭代中穩(wěn)步提升。
第四步:反思構(gòu)思引擎
這是AutoSOTA 最像“人類科學(xué)家”的地方。AgentScheduler 會(huì)協(xié)調(diào) AgentIdeator 進(jìn)行文獻(xiàn)檢索與創(chuàng)新構(gòu)思(Ideation),并由 AgentSupervisor 進(jìn)行監(jiān)督驗(yàn)證(Supervision & Validation),確保方案的創(chuàng)新性與合規(guī)性。這套受人類研究啟發(fā)的創(chuàng)新構(gòu)思引擎,使得系統(tǒng)不再是盲目地調(diào)參,而是具備了頂層設(shè)計(jì)的思考能力。
為了支撐這一復(fù)雜的協(xié)作模式,AutoSOTA 配備了完善的工具庫(kù)(Toolkit)與技能集(Skill Set),這使得智能體能夠獨(dú)立完成原本需要人類干預(yù)的繁重任務(wù)。
![]()
圖 2:AutoSOTA多智能體架構(gòu)。
5小時(shí) vs 數(shù)月
在一周的密集實(shí)驗(yàn)中,這套系統(tǒng)交出了一份驚人的成績(jī)單。在消耗了約220 億 Token、約 10 萬(wàn)元人民幣成本的前提下,系統(tǒng)基于前一年的頂會(huì)論文成功發(fā)現(xiàn)了 105 個(gè)性能顯著提升的模型。
最令人興奮的是,這些發(fā)現(xiàn)中超過(guò) 60% 具備新穎的 AI 模型結(jié)構(gòu)設(shè)計(jì),平均性能提升接近 10%。這證明了 AutoSOTA 并非只是在既有路徑上機(jī)械搜索,而是展現(xiàn)出了真正的算法創(chuàng)新能力。
更具沖擊力的數(shù)據(jù)在于研發(fā)周期的縮減。在傳統(tǒng)路徑下,一名博士生要閱讀論文、準(zhǔn)備資源、配置環(huán)境、修正評(píng)測(cè)、調(diào)研構(gòu)思再到迭代優(yōu)化,通常需要數(shù)月時(shí)間才能完成一個(gè)SOTA 模型的迭代優(yōu)化。然而,AutoSOTA 將這一閉環(huán)流程的時(shí)間壓縮到了 5 小時(shí)以內(nèi)。這意味著系統(tǒng)可以在同一時(shí)間內(nèi)開(kāi)展數(shù)百個(gè)并行的研究任務(wù),實(shí)現(xiàn)科研產(chǎn)出的爆發(fā)式增長(zhǎng)。
![]()
圖 3:AutoSOTA實(shí)驗(yàn)結(jié)果。
項(xiàng)目網(wǎng)站:https://tsinghua-fib-lab.github.io/AutoSOTA/
AutoSOTA 的價(jià)值不僅在于刷新了性能數(shù)據(jù),更在于它為科研范式提供了全新的可能。它證明,通過(guò)多智能體系統(tǒng)的賦能,可以將繁瑣的科研流程從“手工打磨”升級(jí)為“智能制造”。正如徐豐力課題組所強(qiáng)調(diào)的,AutoSOTA 更像是一個(gè)“創(chuàng)造力放大器”。它通過(guò)接管那“1到100”的高強(qiáng)度迭代過(guò)程,讓人類研究者能夠?qū)⒆顚氋F的注意力重新投入到“0到1”的顛覆式創(chuàng)新中。
這一項(xiàng)目的發(fā)布,不僅展示了科研智能體在端到端優(yōu)化中的巨大潛力,也標(biāo)志著人類進(jìn)入了人智協(xié)同科學(xué)研究的新階段。
未來(lái),當(dāng)AI 可以大規(guī)模自動(dòng)發(fā)現(xiàn) SOTA 模型時(shí),我們或許該重新思考:科學(xué)突破的本質(zhì)到底是什么?答案可能就藏在那些大膽的問(wèn)題和未知的方向中。
如果你覺(jué)得每天調(diào)參、配環(huán)境太辛苦,不妨讓 AutoSOTA 這位“超級(jí)研究員”來(lái)幫你。與我們一起讓科研回歸創(chuàng)新本質(zhì)!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.