網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Auto Research 來了：當 AI 開始接管科研里最苦的活，意味著什么

2026-05-13 16:06:36　來源: 人工智能學(xué)家

北京舉報

分享至

Frontier-Eng Bench 揭示了一種新的 Agent 范式：真正的智能不在于一次性生成答案，而在于長期反饋中的持續(xù)優(yōu)化能力。

來源：極客公園

如果幾年前有人告訴我，AI 不僅能寫代碼、生成論文摘要，還能像一個真正的工程師那樣，在實驗室里反復(fù)尋找可行的策略、持續(xù)優(yōu)化一個方案——我大概會覺得這個人科幻片看多了。

但最近讀到一篇論文的時候，我的想法變了。

過去兩年，大模型的能力突飛猛進，從寫詩到寫代碼，從做數(shù)學(xué)題到跑實驗流程，AI 擅長的事情越來越多。但真正做過科研和工程的人都清楚，最耗人的部分，往往不是提出第一個可行方案，而是后面那段漫長的「長期優(yōu)化」——一個實驗跑通了，但指標還差一點；一個算法能用了，但速度還不夠快；一個電池快充策略成立了，但溫度、壽命和析鋰之間還需要反復(fù)平衡。

現(xiàn)實中的高價值成果，很多都不是「做出來」的，而是被持續(xù)優(yōu)化出來的。而這，恰恰是過去大多數(shù) AI Agent 系統(tǒng)最缺失的一環(huán)。

最近，Einsia AI 旗下 Navers Lab 發(fā)布了一個叫 Frontier-Eng Bench 的新基準測試，正試圖衡量這種能力。它沒有再把 AI 放進「一問一答」的選擇題里，而是直接把 Agent 扔進真實工程優(yōu)化環(huán)境——Agent 必須不斷提出方案、運行仿真器、讀取反饋、修改策略，在長期迭代中持續(xù)逼近更優(yōu)解。

論文題目：Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization

Arxiv: https://arxiv.org/abs/2604.12290

Github: https://github.com/EinsiaLab/Frontier-Engineering

這讓我想到一個歷史參照：AlphaGo 之所以強大，并不在于它每一步棋都能算對，而在于它能在數(shù)百萬次自我對弈中持續(xù)進化。某種程度上，F(xiàn)rontier-Eng 試圖回答的，也是同一個問題——當 AI 開始進入真實世界的長期反饋循環(huán)后，智能的本質(zhì)，究竟該怎么衡量？

從「一次性答對」到「持續(xù)優(yōu)化」，

范式正在切換

要理解 Frontier-Eng Bench 的意義，得先看清楚它在反對什么。

過去幾年，大模型領(lǐng)域的 benchmark 越來越多，但本質(zhì)上都在評估同一件事：模型能不能「一次性生成正確答案」。無論是代碼生成、數(shù)學(xué)推理，還是任務(wù)執(zhí)行，大多數(shù)測試的邏輯仍然是——答案對，或者錯；任務(wù)完成，或者失敗。

Frontier-Eng Bench 總覽

但這里有一個被忽視的問題：真實的科研與工程，從來不是一個「對或錯」的過程。

一個量子線路已經(jīng)正確了，但保真度還能不能再往上摳一點？一個 GPU kernel 已經(jīng)可用了，但速度還不夠快？這些問題沒有「標準答案」，只有「更優(yōu)解」。而找到更優(yōu)解的過程，往往需要成百上千次的迭代、試錯和微調(diào)。

事實上，這正是 Frontier-Eng Bench 提出的核心命題——論文將其定義為「Generative Optimization」（生成式優(yōu)化）。它認為，下一代 Agent 的核心能力，不應(yīng)該只是「一次性給出看起來合理的答案」，而是能否在環(huán)境反饋里持續(xù)修正自己的軌跡，并在有限預(yù)算下不斷優(yōu)化結(jié)果。

換句話說，真正的 intelligence，可能本質(zhì)上是一種長期反饋閉環(huán)中的持續(xù)優(yōu)化能力。

這個判斷并不只是理論推演。Frontier-Eng 設(shè)計了 47 個橫跨五大領(lǐng)域的實驗任務(wù)——量子計算與信息、運籌與決策科學(xué)、機器人與控制系統(tǒng)、光學(xué)與通信、物理科學(xué)與工程設(shè)計。在每一個任務(wù)中，Agent 都不是簡單地「回答問題」，而是需要提出優(yōu)化方案、運行仿真器、獲取真實反饋、修改代碼與策略，并在固定的計算預(yù)算里持續(xù)迭代。

Frontier-Eng Bench 體系概覽

不只有「答對題」的聰明，更有「不斷變好」的韌性。這可能才是真正長程智能的起點。

深度 vs 寬度：Agent 架構(gòu)的關(guān)鍵抉擇

在 Frontier-Eng 揭示的所有發(fā)現(xiàn)中，有一個結(jié)論讓我印象最深：關(guān)于「推理算力分配」的討論。

論文通過大量實驗發(fā)現(xiàn)，Agent 的性能提升遵循一套雙重冪律衰減規(guī)律——隨著任務(wù)進入「深水區(qū)」，獲得顯著性能提升的難度呈指數(shù)級上升。這是一個殘酷但真實的規(guī)律：越往后優(yōu)化，每一個百分點的進步都越來越貴。

工程優(yōu)化的雙重冪律衰減

但更有意思的發(fā)現(xiàn)在于一個架構(gòu)層面的核心爭議：到底是讓 Agent 并行嘗試 100 種可能性（寬度），還是讓它在 1 個路徑上通過「反思—修正」遞歸 100 次（深度）？

Frontier-Eng 給出了一個非常清晰的信號：深度才是那個能撬動真正突破的杠桿。

深度 vs 寬度

這讓我想到一個日常的類比。面對一道難題，是同時翻開十本參考書碰運氣更有效，還是沿著一條思路反復(fù)推敲、不斷修正更容易找到答案？大多數(shù)有經(jīng)驗的工程師和科學(xué)家都會選后者。Frontier-Eng 的數(shù)據(jù)，某種程度上用實驗驗證了這種直覺。

論文將這種能力稱為「Deep Iterative Reasoning」（深度迭代推理）。在這背后，其實指向了一個更大的趨勢：下一代 Agent 的核心競爭力，可能正在從「知道多少知識」轉(zhuǎn)向「能不能在長期反饋中持續(xù)自我修正」。

一個有趣的現(xiàn)象是，這個結(jié)論和人類專家解決復(fù)雜問題的方式高度一致。頂級的工程師和科學(xué)家，幾乎從來不靠「靈光一閃」解決核心難題，而是在漫長的試錯循環(huán)中一步步逼近最優(yōu)解。某種程度上，F(xiàn)rontier-Eng 證明了：AI 要變得真正聰明，也得學(xué)會這種「慢功夫」。

更重要的是，這個發(fā)現(xiàn)正在直接改變 Agent 架構(gòu)設(shè)計的方向。過去，開發(fā)者們的注意力大多放在 prompt engineering 上——怎么寫出更好的提示詞，讓模型一次就給出好答案。但如果深度迭代推理才是關(guān)鍵，那么未來真正重要的可能是 reasoning architecture——如何構(gòu)建更強的推理側(cè)架構(gòu)，讓模型能夠像人類專家一樣進行「慢思考」。

推理側(cè)的算力紅利，才剛剛開始

從產(chǎn)業(yè)角度看，F(xiàn)rontier-Eng 釋放出的信號其實非常強烈。

過去幾年，大模型行業(yè)的核心護城河主要來自三件事：參數(shù)規(guī)模、訓(xùn)練算力、高質(zhì)量數(shù)據(jù)。誰的模型更大、訓(xùn)練數(shù)據(jù)更多、GPU 集群更強，誰就占據(jù)優(yōu)勢。

但 Frontier-Eng 的實驗結(jié)果暗示，護城河可能正在發(fā)生轉(zhuǎn)移——從訓(xùn)練側(cè)轉(zhuǎn)向推理側(cè)。

不同模型的詳細評測結(jié)果

換句話說，未來真正重要的，可能不只是模型「知道什么」，而是它能否在長期環(huán)境反饋中持續(xù)優(yōu)化、在復(fù)雜搜索空間里穩(wěn)定收斂、在有限算力下完成遞歸推理、在真實仿真器中不斷自我修正。

這會直接改變整個 Agent 基礎(chǔ)設(shè)施的競爭方向。因為一旦智能開始更多地來自 inference-time optimization（推理時優(yōu)化），而不是一次性的預(yù)訓(xùn)練，那么幾件事將同時發(fā)生：

首先，AI for Science 可能將迎來真正的爆發(fā)?？茖W(xué)研究本身就是最完美的「生成式優(yōu)化」場景——提出假設(shè)、實驗驗證、修正假設(shè)、再驗證，這個循環(huán)和 Frontier-Eng 測試的過程幾乎完全一致。

其次，Agent 的開發(fā)范式會從 prompt engineering 轉(zhuǎn)向 reasoning architecture。開發(fā)者將不再僅僅盯著提示詞的措辭，而是去思考如何構(gòu)建更強的推理鏈、更高效的搜索策略、更智能的反思機制。

此外，長程記憶、工具調(diào)用、搜索和反思能力將變得越來越關(guān)鍵，而算力分配本身也會成為一種新的基礎(chǔ)設(shè)施能力。

從這個角度看，F(xiàn)rontier-Eng 不只是一個學(xué)術(shù) benchmark，它更像是一張路線圖——告訴整個行業(yè)，下一階段的競爭焦點在哪里。

尾聲

回到開頭那個問題：AI 做科研，最難替代人類的是哪個環(huán)節(jié)？

在讀 Frontier-Eng 這篇論文之前，我的回答可能是「直覺」和「創(chuàng)造力」。但現(xiàn)在我覺得，答案可能正在被改寫。

Frontier-Eng 告訴我們，Agent 正在走出文字游戲的「溫室」，進入物理規(guī)律的「競技場」。它們開始學(xué)習(xí)的，不再只是如何給出一個漂亮的答案，而是如何在成千上萬次失敗中，一點一點地摳出那 1% 的性能突破。

而身處其中，我們往往后知后覺。但把時間維度拉長，也許多年后回看，2025 年前后這段時間，正是 AI 從「聰明的回答者」變成「執(zhí)著的優(yōu)化者」的轉(zhuǎn)折點。

不只有聚光燈下的 OpenAI、Google DeepMind 們在推動這個進程，更有像 Einsia AI 這樣的團隊，在用嚴謹?shù)膶嶒灴蚣苷闪恐悄艿恼鎸嵾吔纭?/p>

而下一代 Agent 真正比拼的，可能不再是誰「知道得多」，而是誰能在長期環(huán)境反饋中，持續(xù)逼近最優(yōu)解。這場關(guān)于「深度」與「反饋」的競賽，才剛剛鳴槍。

*頭圖來源：Frontier-Eng Bench

閱讀最新前沿科技趨勢報告，請訪問21世紀關(guān)鍵技術(shù)研究院的“未來知識庫”

未來知識庫是 “21世紀關(guān)鍵技術(shù)研究院”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能，數(shù)智大腦、能源、軍事、經(jīng)濟、人類風險等等領(lǐng)域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

（加入未來知識庫，全部資料免費閱讀和下載）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.