<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      AI從論文走到實(shí)驗(yàn)室:人大高瓴提出長(zhǎng)程研究工程系統(tǒng)AiScientist

      0
      分享至



      作者 | 論文團(tuán)隊(duì)

      編輯丨ScienceAI

      如果說 AI for Science 的一個(gè)長(zhǎng)期目標(biāo),是讓模型不只回答科學(xué)問題、解釋實(shí)驗(yàn)現(xiàn)象,而是真正幫助研究者完成一整條研究流程,那么機(jī)器學(xué)習(xí)研究工程無疑是最具挑戰(zhàn)性的場(chǎng)景之一。

      因?yàn)樵谶@里,系統(tǒng)面對(duì)的并不是一道題、一次生成,或者某個(gè)孤立的編碼任務(wù),而是一條跨越論文理解、環(huán)境搭建、資源獲取、代碼實(shí)現(xiàn)、實(shí)驗(yàn)運(yùn)行、結(jié)果診斷與反復(fù)修復(fù)的連續(xù)任務(wù)鏈。每個(gè)環(huán)節(jié)本身都很難,而把這些環(huán)節(jié)在數(shù)十小時(shí)的跨度中真正接起來、持續(xù)推進(jìn),則更難。

      近日,中國(guó)人民大學(xué)高瓴人工智能學(xué)院提出了一個(gè)名為 AiScientist 的系統(tǒng),嘗試解決這一設(shè)定:long-horizon ML research engineering。



      論文地址:https://arxiv.org/pdf/2604.13018

      代碼地址:https://github.com/AweAI-Team/AiScientist

      它試圖回答一個(gè)更具體、也更接近真實(shí)科研的問題:如果給 AI 一篇論文或者一道科學(xué)任務(wù)、一個(gè)基礎(chǔ)環(huán)境和有限預(yù)算,它能否從頭開始,把研究工程一步一步做下去?

      答案正在變得越來越清晰。

      在 MLE-Bench Lite 的 Detecting Insults 任務(wù)上,AiScientist 在 23 小時(shí)內(nèi)自主完成了 74 輪實(shí)驗(yàn)循環(huán),將 validation AUC 從 0.903 提升到 0.982。在更具挑戰(zhàn)性的 PaperBench 上,它相對(duì)最佳匹配基線平均提升 10.54 分;在 MLE-Bench Lite 上,系統(tǒng)達(dá)到 81.82% Any Medal。進(jìn)一步的機(jī)制分析還表明,真正決定長(zhǎng)程研究工程能否持續(xù)推進(jìn)的,關(guān)鍵不只是單步推理夠不夠強(qiáng),而是系統(tǒng)能否在跨階段迭代中維護(hù)、繼承并利用不斷演化的項(xiàng)目狀態(tài)。



      為什么研究工程比「會(huì)寫代碼」更難?

      過去一年,AI for Research 的進(jìn)展非常快。從 idea generation、literature synthesis,到代碼實(shí)現(xiàn)、實(shí)驗(yàn)輔助、科學(xué)寫作,越來越多系統(tǒng)已經(jīng)展現(xiàn)出實(shí)用價(jià)值。

      但研究工程和單點(diǎn)能力不同。它不是把幾個(gè)能力模塊簡(jiǎn)單拼起來就能完成的任務(wù),而是一種典型的「長(zhǎng)程、延遲反饋、狀態(tài)敏感」問題。

      論文把這種困難概括得很準(zhǔn)確。首先,研究規(guī)格往往是不完備的。論文不會(huì)把所有實(shí)現(xiàn)細(xì)節(jié)都寫清楚,模型需要自己補(bǔ)足缺失決策。其次,系統(tǒng) setup 本身就很重,環(huán)境、依賴、數(shù)據(jù)和模型資源都可能成為阻塞點(diǎn)。再次,真正有價(jià)值的反饋往往要等實(shí)驗(yàn)跑起來之后才會(huì)出現(xiàn),而且問題來源常常是混雜的:可能是理解偏差,也可能是代碼實(shí)現(xiàn)、數(shù)據(jù)處理、超參選擇,甚至是基礎(chǔ)設(shè)施配置。

      更關(guān)鍵的是,項(xiàng)目狀態(tài)必須被持續(xù)保留。一輪實(shí)驗(yàn)產(chǎn)出的日志、配置、結(jié)果和診斷,都會(huì)直接影響下一輪決策。如果這些狀態(tài)在多輪推進(jìn)中丟失,系統(tǒng)就很難判斷「哪里出了問題」,更難真正進(jìn)入后續(xù) refinement。

      也正因如此,ML research engineering 不只是很多 local problem 的疊加,它本身還是一個(gè)更難的 systems problem。

      AiScientist 的核心,不僅僅是「更會(huì)分工」,而且是「更會(huì)把狀態(tài)存住」



      AiScientist 的核心思路,可以用論文中的一句話概括:thin control over thick state。

      直白來說,就是把「控制」和「狀態(tài)」拆開。

      一方面,系統(tǒng)保留一個(gè)輕量的頂層 Orchestrator,負(fù)責(zé)階段級(jí)決策與流程推進(jìn);另一方面,真正承載項(xiàng)目記憶的,不是不斷膨脹的對(duì)話上下文,而是 workspace 中持續(xù)演化的分析、計(jì)劃、代碼、實(shí)驗(yàn)日志和結(jié)果記錄。

      這套設(shè)計(jì)包含兩個(gè)互相配合的關(guān)鍵部分。

      第一,是層級(jí)化 orchestration。

      AiScientist 并不是把所有事都交給同一個(gè) agent 去完成,而是讓不同角色分別處理論文理解、任務(wù)規(guī)劃、代碼實(shí)現(xiàn)、實(shí)驗(yàn)執(zhí)行與診斷修復(fù)等環(huán)節(jié)。這樣做的目的,不只是「多幾個(gè) agent」,而是讓每個(gè)角色都在更合適的局部上下文里工作。

      第二,是 File-as-Bus。

      這是 AiScientist 更有辨識(shí)度的一點(diǎn)。它把共享工作區(qū)視為系統(tǒng)的「外部記憶」。論文分析、任務(wù)計(jì)劃、實(shí)現(xiàn)代碼、實(shí)驗(yàn)日志、錯(cuò)誤記錄等,都被持續(xù)寫回文件系統(tǒng),成為后續(xù)階段可以重新讀取和利用的 durable artifacts。系統(tǒng)因此不需要每一輪都把歷史重新塞回 prompt,而是可以圍繞真實(shí)存在的項(xiàng)目證據(jù)繼續(xù)推進(jìn)。

      換句話說,AiScientist 的關(guān)鍵,不只是多智能體組織形式本身,而是它把狀態(tài)連續(xù)性做成了系統(tǒng)能力。

      結(jié)果之外,更值得注意的是什么?

      在 PaperBench 上,AiScientist 相對(duì)最佳匹配基線平均提升約 10.54 分。這意味著,它并不是只在個(gè)別 case 上有效,而是在從論文復(fù)現(xiàn)到完整工程實(shí)現(xiàn)的高難度任務(wù)中,穩(wěn)定拉開了與現(xiàn)有方法的差距。



      在 MLE-Bench Lite 上,AiScientist 達(dá)到了 81.82% Any Medal,說明它不只擅長(zhǎng)「先跑出一個(gè)版本」,也能在更接近真實(shí)實(shí)驗(yàn)優(yōu)化的場(chǎng)景中持續(xù)改進(jìn)結(jié)果。



      但論文里最值得注意的,其實(shí)不只是這些數(shù)字,還有一個(gè)很重要的判斷:More interaction alone is not enough.

      這句話背后對(duì)應(yīng)的是一個(gè)常見誤解:很多人會(huì)自然地以為,只要讓系統(tǒng)多試幾次、多跑幾輪,就能自動(dòng)獲得更強(qiáng)的長(zhǎng)程能力。但論文的結(jié)論恰恰相反。額外的輪次只有建立在前面正確積累的狀態(tài)之上,才會(huì)真正轉(zhuǎn)化為有效進(jìn)步;否則,更多交互反而可能意味著更高成本和更多噪聲。

      File-as-Bus 為什么值得單獨(dú)看?

      論文的消融實(shí)驗(yàn)給出了一個(gè)非常清晰的信號(hào)。

      移除 File-as-Bus 后,AiScientist 在 PaperBench 上下降 6.41 分,在 MLE-Bench Lite 上 Any Medal 下降 31.82 個(gè)百分點(diǎn)。這說明,狀態(tài)連續(xù)性并不是一個(gè)「有更好、沒有也行」的輔助設(shè)計(jì),而是長(zhǎng)程研究工程里真正決定系統(tǒng)能否持續(xù)推進(jìn)的重要機(jī)制。



      更有意思的是,這種退化并不是平均落在所有階段上。論文顯示,去掉 File-as-Bus 后,系統(tǒng)未必立刻連基礎(chǔ)可運(yùn)行性都失去,但在更依賴后期 refinement 的指標(biāo)上,退化會(huì)更明顯。

      這意味著,F(xiàn)ile-as-Bus 的價(jià)值不只是幫助系統(tǒng)先搭一個(gè)能跑的腳手架,更重要的是讓系統(tǒng)在后續(xù)的診斷、修補(bǔ)、結(jié)果對(duì)齊與迭代優(yōu)化中,真正把每一輪試錯(cuò)都建立在前一輪留下的有效證據(jù)之上。

      從這個(gè)角度看,它解決的并不只是 executability,更是 fidelity。

      這項(xiàng)工作對(duì) AI for Science 意味著什么?

      AiScientist 之所以值得 AI for Science 社區(qū)關(guān)注,并不只是因?yàn)樗谀硞€(gè) benchmark 上拿到了更高分?jǐn)?shù),而是因?yàn)樗|及了一個(gè)更深層的問題:

      如果 AI 想真正進(jìn)入科學(xué)研究流程,它需要的不只是更強(qiáng)的單步能力,還需要在長(zhǎng)程任務(wù)中維持項(xiàng)目狀態(tài)、銜接異構(gòu)階段、持續(xù)吸收實(shí)驗(yàn)反饋。

      對(duì)于科學(xué)研究而言,這一點(diǎn)非常關(guān)鍵。因?yàn)檎嬲邇r(jià)值的科研任務(wù),很少是一次生成就結(jié)束的。無論是算法復(fù)現(xiàn)、實(shí)驗(yàn)設(shè)計(jì)、參數(shù)迭代,還是結(jié)果分析與修正,研究者都在和一種「不斷演化的項(xiàng)目狀態(tài)」打交道。

      也正因?yàn)槿绱?,AiScientist 給出的啟示并不局限于機(jī)器學(xué)習(xí)研究工程本身。它更像是在提醒整個(gè) AI for Science 社區(qū):未來更強(qiáng)的科學(xué)智能體,也許不僅要「會(huì)推理、會(huì)生成、會(huì)調(diào)用工具」,還要學(xué)會(huì)在長(zhǎng)時(shí)間跨度里記住什么、保留什么、繼承什么、繼續(xù)推進(jìn)什么。

      從 benchmark 走向研究工具

      論文還有一點(diǎn)值得注意:團(tuán)隊(duì)并沒有把 AiScientist 停留在 benchmark 評(píng)測(cè)對(duì)象上,而是在繼續(xù)把它推進(jìn)為真實(shí)可用的軟件系統(tǒng)。



      這件事很重要。因?yàn)?benchmark 回答的是「能不能做」,而工具真正回答的是「能不能被用起來」。

      如果 AI 研究系統(tǒng)未來真的要進(jìn)入實(shí)驗(yàn)、復(fù)現(xiàn)、調(diào)參與迭代的日常流程,那么它最終必須以工具形態(tài)存在,成為研究者工作流的一部分,而不只是論文中的一個(gè)分?jǐn)?shù)。

      小結(jié)

      AiScientist 試圖推動(dòng)的,并不只是一個(gè)更強(qiáng)的科研 agent,而是一種對(duì)長(zhǎng)程研究工程的新理解:在真實(shí)科研任務(wù)中,真正重要的往往不是單次生成得多漂亮,而是系統(tǒng)能否在跨階段、跨輪次、跨文件的任務(wù)鏈中,把項(xiàng)目狀態(tài)穩(wěn)定存住,并據(jù)此持續(xù)推進(jìn)。

      如果這一點(diǎn)成立,那么 AI 進(jìn)入科研流程的方式,也將從「輔助某一步」逐漸走向「接手整條鏈路」。

      聲明:包含AI生成內(nèi)容

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      富時(shí)中國(guó)A50指數(shù)期貨漲幅擴(kuò)大至1%

      富時(shí)中國(guó)A50指數(shù)期貨漲幅擴(kuò)大至1%

      界面新聞
      2026-05-21 09:50:05
      振奮人心!歐盟聯(lián)合起來打中國(guó),想制裁中國(guó)卻被反將一手,真解氣

      振奮人心!歐盟聯(lián)合起來打中國(guó),想制裁中國(guó)卻被反將一手,真解氣

      地球記
      2026-05-21 23:48:25
      U17晉級(jí)決賽紀(jì)錄片:球隊(duì)在肇慶就進(jìn)行過專項(xiàng)耐熱適應(yīng)訓(xùn)練

      U17晉級(jí)決賽紀(jì)錄片:球隊(duì)在肇慶就進(jìn)行過專項(xiàng)耐熱適應(yīng)訓(xùn)練

      懂球帝
      2026-05-21 17:25:56
      寧德時(shí)代:25萬以上用磷酸鐵鋰是減配!比亞迪:你沒資格定義高端

      寧德時(shí)代:25萬以上用磷酸鐵鋰是減配!比亞迪:你沒資格定義高端

      混沌錄
      2026-05-20 18:16:09
      3年8700萬美金!聯(lián)盟第1!NBA新惡人把話挑明,文班亞馬沒有退路

      3年8700萬美金!聯(lián)盟第1!NBA新惡人把話挑明,文班亞馬沒有退路

      世界體育圈
      2026-05-21 21:58:43
      樊同學(xué)的“超能力”!

      樊同學(xué)的“超能力”!

      梳子姐
      2026-05-21 11:18:38
      正常人可以偶爾偷吃一顆偉哥嗎?有什么副作用?本文為你講出實(shí)情

      正常人可以偶爾偷吃一顆偉哥嗎?有什么副作用?本文為你講出實(shí)情

      健康科普365
      2026-05-09 21:05:04
      公開亮相,亞馬爾攜新女友參加巴薩賽季慶功宴

      公開亮相,亞馬爾攜新女友參加巴薩賽季慶功宴

      懂球帝
      2026-05-21 03:17:06
      巨嬰!孫楊采訪中途突然打斷主持人說到飯點(diǎn)了,直接拿手機(jī)點(diǎn)起外賣

      巨嬰!孫楊采訪中途突然打斷主持人說到飯點(diǎn)了,直接拿手機(jī)點(diǎn)起外賣

      818體育
      2026-05-19 17:52:24
      電車會(huì)不會(huì)替代油車還不知道,但不得不承認(rèn),油混車“快完蛋了”

      電車會(huì)不會(huì)替代油車還不知道,但不得不承認(rèn),油混車“快完蛋了”

      原來仙女不講理
      2026-05-20 22:10:29
      3批禁足名單匯總:201人被罰!133人遭終身禁足 13隊(duì)扣分+梅州2次

      3批禁足名單匯總:201人被罰!133人遭終身禁足 13隊(duì)扣分+梅州2次

      我愛英超
      2026-05-21 16:00:37
      上海高校男生發(fā)飆喊殺后續(xù):室友連夜發(fā)帖,知情人爆料,透露隱情

      上海高校男生發(fā)飆喊殺后續(xù):室友連夜發(fā)帖,知情人爆料,透露隱情

      李晚書
      2026-05-20 16:23:46
      于娜節(jié)目公開胖到230斤的原因,和媽媽同住,不吃主食一頓吃5個(gè)菜

      于娜節(jié)目公開胖到230斤的原因,和媽媽同住,不吃主食一頓吃5個(gè)菜

      大魚簡(jiǎn)科
      2026-05-21 19:33:49
      看了許利民抽象的賽后采訪,才知道,北京慘敗趙睿為啥敢笑得出來

      看了許利民抽象的賽后采訪,才知道,北京慘敗趙睿為啥敢笑得出來

      后仰大風(fēng)車
      2026-05-21 08:15:09
      穆里尼奧還沒上任就炸鍋!皇馬更衣室徹底分裂!姆巴佩被無視

      穆里尼奧還沒上任就炸鍋!皇馬更衣室徹底分裂!姆巴佩被無視

      奶蓋熊本熊
      2026-05-21 04:41:15
      神舟二十三號(hào)女航天員曝光,香港女警司首飛,要太空住一年

      神舟二十三號(hào)女航天員曝光,香港女警司首飛,要太空住一年

      至死不渝的愛情
      2026-05-20 11:09:56
      二十多年來首次!普京訪華打破慣例,德媒:中國(guó)正在成為世界中心

      二十多年來首次!普京訪華打破慣例,德媒:中國(guó)正在成為世界中心

      今墨緣
      2026-05-20 19:47:11
      最兇小三,把原配制作成燒肉出售,當(dāng)時(shí)辦案人員至今不敢吃肉

      最兇小三,把原配制作成燒肉出售,當(dāng)時(shí)辦案人員至今不敢吃肉

      莫地方
      2026-05-21 02:00:03
      今年榴蓮為啥這么便宜?不是商超良心發(fā)現(xiàn),而是東南亞供應(yīng)鏈崩了

      今年榴蓮為啥這么便宜?不是商超良心發(fā)現(xiàn),而是東南亞供應(yīng)鏈崩了

      嘴角上翹的弧度
      2026-05-19 03:18:52
      海南發(fā)現(xiàn)一山頭長(zhǎng)得像毛主席,孔令華跪地流淚,李訥也都感嘆很像

      海南發(fā)現(xiàn)一山頭長(zhǎng)得像毛主席,孔令華跪地流淚,李訥也都感嘆很像

      青史煙雨
      2026-05-21 00:26:06
      2026-05-22 00:39:00
      ScienceAI incentive-icons
      ScienceAI
      關(guān)注人工智能與其他前沿技術(shù)
      1307文章數(shù) 227關(guān)注度
      往期回顧 全部

      科技要聞

      小米YU7 GT正式發(fā)布:售價(jià)38.99萬元

      頭條要聞

      叔侄倆將溺亡男子送回家離開 3天后男子被發(fā)現(xiàn)已腐爛

      頭條要聞

      叔侄倆將溺亡男子送回家離開 3天后男子被發(fā)現(xiàn)已腐爛

      體育要聞

      常住人口7000的小鎮(zhèn),擁有了一支德甲球隊(duì)

      娛樂要聞

      反轉(zhuǎn)!金秀賢與金賽綸未成年時(shí)交往不實(shí)

      財(cái)經(jīng)要聞

      潮水退去,裸泳的一定不止五糧液

      汽車要聞

      專訪雷軍:YU7標(biāo)準(zhǔn)版回歸對(duì)特斯拉更有競(jìng)爭(zhēng)力

      態(tài)度原創(chuàng)

      本地
      時(shí)尚
      教育
      公開課
      軍事航空

      本地新聞

      用云錦的方式,打開江蘇南京

      今年夏天最流行的4組搭配,誰穿誰好看!

      教育要聞

      高考地理核心題型及“解題密碼”

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗警告:任何新襲擊將促使戰(zhàn)場(chǎng)擴(kuò)大到中東以外

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 久久综合综合久久综合| 国产欧美精品午夜在线播放| 国产一区二区av在线| 亚欧成人精品一区二区| 国产精品第一区| 色墦五月丁香| 久久狠狠高潮亚洲精品| 天天躁夜夜躁狠狠躁图片 | 福利姬视频在线观看| 伊人久久大香线蕉AV五月天| 狠狠88综合久久久久综合网| 中文字幕在线不卡视频| 在线精品自偷自拍无码中文| 欧美亚洲综合另类色妞网| 国产91精品丝袜美腿在线| 国产精品无码不卡一区二区三区| 特黄特色大片免费播放| 玩弄放荡人妻一区二区三区| 亚洲精品一区国产| 九九精品视频99精品视频| 韩日成人| 无码人妻丰满熟妇啪啪网不卡 | 日本丰满熟妇bbxbbxhd| 亚洲人ⅴsaⅴ国产精品| 97久久精品人人槡人妻人人玩| 中文字幕国产精品资源| 亚洲aⅴ片| 久久精品成人无码观看不卡| 3atv精品不卡视频| 亚洲VA中文字幕无码久久| 变态另类一区| 免费人成年激情视频在线观看 | 最新免费av在线播放| 亚洲av有码在线天堂| 亚洲国产精品自在在线观看| 亚洲中文字幕久久精品无码喷水| 一区二区亚洲精品| 国产一区二区三区内射高清| 免费人成黄页在线观看国际 | 三女一男囗交视频| 欧美日韩一区二区三区视频播放|