<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Auto Research 來了:當 AI 開始接管科研里最苦的活,意味著什么

      0
      分享至


      Frontier-Eng Bench 揭示了一種新的 Agent 范式:真正的智能不在于一次性生成答案,而在于長期反饋中的持續(xù)優(yōu)化能力。

      來源:極客公園

      如果幾年前有人告訴我,AI 不僅能寫代碼、生成論文摘要,還能像一個真正的工程師那樣,在實驗室里反復(fù)尋找可行的策略、持續(xù)優(yōu)化一個方案——我大概會覺得這個人科幻片看多了。

      但最近讀到一篇論文的時候,我的想法變了。

      過去兩年,大模型的能力突飛猛進,從寫詩到寫代碼,從做數(shù)學(xué)題到跑實驗流程,AI 擅長的事情越來越多。但真正做過科研和工程的人都清楚,最耗人的部分,往往不是提出第一個可行方案,而是后面那段漫長的「長期優(yōu)化」——一個實驗跑通了,但指標還差一點;一個算法能用了,但速度還不夠快;一個電池快充策略成立了,但溫度、壽命和析鋰之間還需要反復(fù)平衡。

      現(xiàn)實中的高價值成果,很多都不是「做出來」的,而是被持續(xù)優(yōu)化出來的。而這,恰恰是過去大多數(shù) AI Agent 系統(tǒng)最缺失的一環(huán)。

      最近,Einsia AI 旗下 Navers Lab 發(fā)布了一個叫 Frontier-Eng Bench 的新基準測試,正試圖衡量這種能力。它沒有再把 AI 放進「一問一答」的選擇題里,而是直接把 Agent 扔進真實工程優(yōu)化環(huán)境——Agent 必須不斷提出方案、運行仿真器、讀取反饋、修改策略,在長期迭代中持續(xù)逼近更優(yōu)解。


      論文題目:Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization

      Arxiv: https://arxiv.org/abs/2604.12290

      Github: https://github.com/EinsiaLab/Frontier-Engineering

      這讓我想到一個歷史參照:AlphaGo 之所以強大,并不在于它每一步棋都能算對,而在于它能在數(shù)百萬次自我對弈中持續(xù)進化。某種程度上,F(xiàn)rontier-Eng 試圖回答的,也是同一個問題——當 AI 開始進入真實世界的長期反饋循環(huán)后,智能的本質(zhì),究竟該怎么衡量?

      01

      從「一次性答對」到「持續(xù)優(yōu)化」,

      范式正在切換

      要理解 Frontier-Eng Bench 的意義,得先看清楚它在反對什么。

      過去幾年,大模型領(lǐng)域的 benchmark 越來越多,但本質(zhì)上都在評估同一件事:模型能不能「一次性生成正確答案」。無論是代碼生成、數(shù)學(xué)推理,還是任務(wù)執(zhí)行,大多數(shù)測試的邏輯仍然是——答案對,或者錯;任務(wù)完成,或者失敗。


      Frontier-Eng Bench 總覽

      但這里有一個被忽視的問題:真實的科研與工程,從來不是一個「對或錯」的過程。

      一個量子線路已經(jīng)正確了,但保真度還能不能再往上摳一點?一個 GPU kernel 已經(jīng)可用了,但速度還不夠快?這些問題沒有「標準答案」,只有「更優(yōu)解」。而找到更優(yōu)解的過程,往往需要成百上千次的迭代、試錯和微調(diào)。

      事實上,這正是 Frontier-Eng Bench 提出的核心命題——論文將其定義為「Generative Optimization」(生成式優(yōu)化)。它認為,下一代 Agent 的核心能力,不應(yīng)該只是「一次性給出看起來合理的答案」,而是能否在環(huán)境反饋里持續(xù)修正自己的軌跡,并在有限預(yù)算下不斷優(yōu)化結(jié)果。

      換句話說,真正的 intelligence,可能本質(zhì)上是一種長期反饋閉環(huán)中的持續(xù)優(yōu)化能力。

      這個判斷并不只是理論推演。Frontier-Eng 設(shè)計了 47 個橫跨五大領(lǐng)域的實驗任務(wù)——量子計算與信息、運籌與決策科學(xué)、機器人與控制系統(tǒng)、光學(xué)與通信、物理科學(xué)與工程設(shè)計。在每一個任務(wù)中,Agent 都不是簡單地「回答問題」,而是需要提出優(yōu)化方案、運行仿真器、獲取真實反饋、修改代碼與策略,并在固定的計算預(yù)算里持續(xù)迭代。


      Frontier-Eng Bench 體系概覽

      不只有「答對題」的聰明,更有「不斷變好」的韌性。這可能才是真正長程智能的起點。

      02

      深度 vs 寬度:Agent 架構(gòu)的關(guān)鍵抉擇

      在 Frontier-Eng 揭示的所有發(fā)現(xiàn)中,有一個結(jié)論讓我印象最深:關(guān)于「推理算力分配」的討論。

      論文通過大量實驗發(fā)現(xiàn),Agent 的性能提升遵循一套雙重冪律衰減規(guī)律——隨著任務(wù)進入「深水區(qū)」,獲得顯著性能提升的難度呈指數(shù)級上升。這是一個殘酷但真實的規(guī)律:越往后優(yōu)化,每一個百分點的進步都越來越貴。


      工程優(yōu)化的雙重冪律衰減

      但更有意思的發(fā)現(xiàn)在于一個架構(gòu)層面的核心爭議:到底是讓 Agent 并行嘗試 100 種可能性(寬度),還是讓它在 1 個路徑上通過「反思—修正」遞歸 100 次(深度)?

      Frontier-Eng 給出了一個非常清晰的信號:深度才是那個能撬動真正突破的杠桿。


      深度 vs 寬度

      這讓我想到一個日常的類比。面對一道難題,是同時翻開十本參考書碰運氣更有效,還是沿著一條思路反復(fù)推敲、不斷修正更容易找到答案?大多數(shù)有經(jīng)驗的工程師和科學(xué)家都會選后者。Frontier-Eng 的數(shù)據(jù),某種程度上用實驗驗證了這種直覺。

      論文將這種能力稱為「Deep Iterative Reasoning」(深度迭代推理)。在這背后,其實指向了一個更大的趨勢:下一代 Agent 的核心競爭力,可能正在從「知道多少知識」轉(zhuǎn)向「能不能在長期反饋中持續(xù)自我修正」。

      一個有趣的現(xiàn)象是,這個結(jié)論和人類專家解決復(fù)雜問題的方式高度一致。頂級的工程師和科學(xué)家,幾乎從來不靠「靈光一閃」解決核心難題,而是在漫長的試錯循環(huán)中一步步逼近最優(yōu)解。某種程度上,F(xiàn)rontier-Eng 證明了:AI 要變得真正聰明,也得學(xué)會這種「慢功夫」。

      更重要的是,這個發(fā)現(xiàn)正在直接改變 Agent 架構(gòu)設(shè)計的方向。過去,開發(fā)者們的注意力大多放在 prompt engineering 上——怎么寫出更好的提示詞,讓模型一次就給出好答案。但如果深度迭代推理才是關(guān)鍵,那么未來真正重要的可能是 reasoning architecture——如何構(gòu)建更強的推理側(cè)架構(gòu),讓模型能夠像人類專家一樣進行「慢思考」。

      03

      推理側(cè)的算力紅利,才剛剛開始

      從產(chǎn)業(yè)角度看,F(xiàn)rontier-Eng 釋放出的信號其實非常強烈。

      過去幾年,大模型行業(yè)的核心護城河主要來自三件事:參數(shù)規(guī)模、訓(xùn)練算力、高質(zhì)量數(shù)據(jù)。誰的模型更大、訓(xùn)練數(shù)據(jù)更多、GPU 集群更強,誰就占據(jù)優(yōu)勢。

      但 Frontier-Eng 的實驗結(jié)果暗示,護城河可能正在發(fā)生轉(zhuǎn)移——從訓(xùn)練側(cè)轉(zhuǎn)向推理側(cè)。


      不同模型的詳細評測結(jié)果

      換句話說,未來真正重要的,可能不只是模型「知道什么」,而是它能否在長期環(huán)境反饋中持續(xù)優(yōu)化、在復(fù)雜搜索空間里穩(wěn)定收斂、在有限算力下完成遞歸推理、在真實仿真器中不斷自我修正。

      這會直接改變整個 Agent 基礎(chǔ)設(shè)施的競爭方向。因為一旦智能開始更多地來自 inference-time optimization(推理時優(yōu)化),而不是一次性的預(yù)訓(xùn)練,那么幾件事將同時發(fā)生:

      首先,AI for Science 可能將迎來真正的爆發(fā)??茖W(xué)研究本身就是最完美的「生成式優(yōu)化」場景——提出假設(shè)、實驗驗證、修正假設(shè)、再驗證,這個循環(huán)和 Frontier-Eng 測試的過程幾乎完全一致。

      其次,Agent 的開發(fā)范式會從 prompt engineering 轉(zhuǎn)向 reasoning architecture。開發(fā)者將不再僅僅盯著提示詞的措辭,而是去思考如何構(gòu)建更強的推理鏈、更高效的搜索策略、更智能的反思機制。

      此外,長程記憶、工具調(diào)用、搜索和反思能力將變得越來越關(guān)鍵,而算力分配本身也會成為一種新的基礎(chǔ)設(shè)施能力。

      從這個角度看,F(xiàn)rontier-Eng 不只是一個學(xué)術(shù) benchmark,它更像是一張路線圖——告訴整個行業(yè),下一階段的競爭焦點在哪里。

      04

      尾聲

      回到開頭那個問題:AI 做科研,最難替代人類的是哪個環(huán)節(jié)?

      在讀 Frontier-Eng 這篇論文之前,我的回答可能是「直覺」和「創(chuàng)造力」。但現(xiàn)在我覺得,答案可能正在被改寫。

      Frontier-Eng 告訴我們,Agent 正在走出文字游戲的「溫室」,進入物理規(guī)律的「競技場」。它們開始學(xué)習(xí)的,不再只是如何給出一個漂亮的答案,而是如何在成千上萬次失敗中,一點一點地摳出那 1% 的性能突破。

      而身處其中,我們往往后知后覺。但把時間維度拉長,也許多年后回看,2025 年前后這段時間,正是 AI 從「聰明的回答者」變成「執(zhí)著的優(yōu)化者」的轉(zhuǎn)折點。

      不只有聚光燈下的 OpenAI、Google DeepMind 們在推動這個進程,更有像 Einsia AI 這樣的團隊,在用嚴謹?shù)膶嶒灴蚣苷闪恐悄艿恼鎸嵾吔纭?/p>

      而下一代 Agent 真正比拼的,可能不再是誰「知道得多」,而是誰能在長期環(huán)境反饋中,持續(xù)逼近最優(yōu)解。這場關(guān)于「深度」與「反饋」的競賽,才剛剛鳴槍。

      *頭圖來源:Frontier-Eng Bench

      閱讀最新前沿科技趨勢報告,請訪問21世紀關(guān)鍵技術(shù)研究院的“未來知識庫”


      未來知識庫是 “21世紀關(guān)鍵技術(shù)研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟、人類風險等等領(lǐng)域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

      截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

      (加入未來知識庫,全部資料免費閱讀和下載)

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      為什么還有人在替商鞅辯護?

      為什么還有人在替商鞅辯護?

      胖胖說他不胖
      2026-05-04 10:00:26
      超越賈巴爾,文班亞馬成為NBA季后賽歷史最年輕40+20先生

      超越賈巴爾,文班亞馬成為NBA季后賽歷史最年輕40+20先生

      懂球帝
      2026-05-19 12:43:41
      央視《主角》火了,誰都沒想到,片酬最高的即不是張嘉益,也不是北電院長?

      央視《主角》火了,誰都沒想到,片酬最高的即不是張嘉益,也不是北電院長?

      東方不敗然多多
      2026-05-17 14:21:23
      腦梗與洗頭有關(guān)?提醒:中老年人,洗頭一定謹記“6要點”

      腦梗與洗頭有關(guān)?提醒:中老年人,洗頭一定謹記“6要點”

      芹姐說生活
      2026-05-18 19:53:50
      特朗普推遲打擊但拒不讓步 伊朗再提開辟新戰(zhàn)線 美伊局勢最新速覽→

      特朗普推遲打擊但拒不讓步 伊朗再提開辟新戰(zhàn)線 美伊局勢最新速覽→

      海外網(wǎng)
      2026-05-19 07:12:23
      動手了!中國海警抵近中業(yè)島人員登礁,菲律賓內(nèi)部抓69名中國人!

      動手了!中國海警抵近中業(yè)島人員登礁,菲律賓內(nèi)部抓69名中國人!

      阿龍聊軍事
      2026-05-19 11:28:54
      周口市港航管理局黨組成員、副局長李濤接受紀律審查和監(jiān)察調(diào)查

      周口市港航管理局黨組成員、副局長李濤接受紀律審查和監(jiān)察調(diào)查

      大象新聞
      2026-05-19 11:02:10
      普京訪華俄方代表團名單公布 含5位副總理8位部長

      普京訪華俄方代表團名單公布 含5位副總理8位部長

      閃電新聞
      2026-05-19 17:00:54
      今晚鎖定央視!5月19日直播中超第13輪,四場精彩賽事輪番上演

      今晚鎖定央視!5月19日直播中超第13輪,四場精彩賽事輪番上演

      林子說事
      2026-05-19 16:07:42
      潮汕一女子與男友同居懷孕后準備結(jié)婚,沒想到男方父母做法很過分

      潮汕一女子與男友同居懷孕后準備結(jié)婚,沒想到男方父母做法很過分

      愛下廚的阿釃
      2026-05-19 04:19:45
      俄總統(tǒng)新聞秘書:俄方希望恢復(fù)烏克蘭和平進程

      俄總統(tǒng)新聞秘書:俄方希望恢復(fù)烏克蘭和平進程

      新華社
      2026-05-18 20:32:45
      特朗普訪華顆粒無收?沒簽協(xié)議,卻堵死了中美擦槍走火的可能

      特朗普訪華顆粒無收?沒簽協(xié)議,卻堵死了中美擦槍走火的可能

      范賒舍長
      2026-05-19 17:00:01
      京東官宣今年618從5月30日晚8點開始,未來有望實現(xiàn)包裹全流程無人配送直達用戶手中

      京東官宣今年618從5月30日晚8點開始,未來有望實現(xiàn)包裹全流程無人配送直達用戶手中

      極目新聞
      2026-05-18 16:25:23
      CBA最新消息!最佳外援賽季報銷,遼寧男籃續(xù)約鄢手騏

      CBA最新消息!最佳外援賽季報銷,遼寧男籃續(xù)約鄢手騏

      體壇瞎白話
      2026-05-19 17:19:46
      帶外孫女5年才看透:沒孫輩的晚年,看似輕松自在,現(xiàn)實卻很凄涼

      帶外孫女5年才看透:沒孫輩的晚年,看似輕松自在,現(xiàn)實卻很凄涼

      小馬達情感故事
      2026-05-18 18:18:11
      快訊!我國或?qū)⒉辉倜赓M允許日本飛機飛越領(lǐng)空!

      快訊!我國或?qū)⒉辉倜赓M允許日本飛機飛越領(lǐng)空!

      達文西看世界
      2026-05-19 10:02:14
      陜西男子用2條毒蛇泡酒,12年后打開本想品嘗美酒,誰知釀成慘劇

      陜西男子用2條毒蛇泡酒,12年后打開本想品嘗美酒,誰知釀成慘劇

      紅豆講堂
      2025-03-26 10:05:43
      按太慢!護士跪床搶救,被家屬扇耳光,反手投訴:態(tài)度冷漠!

      按太慢!護士跪床搶救,被家屬扇耳光,反手投訴:態(tài)度冷漠!

      川渝視覺
      2026-05-19 12:57:00
      只要100塊就能驗證一個生意能不能賺錢,能不能做。

      只要100塊就能驗證一個生意能不能賺錢,能不能做。

      流蘇晚晴
      2026-05-15 22:10:29
      卡魯索:就是全力以赴爭勝 這可能是我在賽季末打得更好的原因

      卡魯索:就是全力以赴爭勝 這可能是我在賽季末打得更好的原因

      北青網(wǎng)-北京青年報
      2026-05-19 14:45:53
      2026-05-19 19:12:49
      人工智能學(xué)家 incentive-icons
      人工智能學(xué)家
      人工智能領(lǐng)域權(quán)威媒體
      4745文章數(shù) 37464關(guān)注度
      往期回顧 全部

      科技要聞

      馬斯克敗訴,法院判他起訴OpenAI太晚了

      頭條要聞

      菲總統(tǒng)稱不希望卷入任何與臺灣有關(guān)的戰(zhàn)爭 外交部回應(yīng)

      頭條要聞

      菲總統(tǒng)稱不希望卷入任何與臺灣有關(guān)的戰(zhàn)爭 外交部回應(yīng)

      體育要聞

      文班亞馬:沒拿到MVP,就證明自己是MVP

      娛樂要聞

      姚晨刪博難平眾怒,為什么她還能蹦噠

      財經(jīng)要聞

      從賣流量到賣Token,運營商算力生意破局

      汽車要聞

      配置全家桶 全新海獅05這次升級全在點上

      態(tài)度原創(chuàng)

      親子
      本地
      時尚
      手機
      軍事航空

      親子要聞

      小兒抽動癥 并不是絕癥 家長們不要慌

      本地新聞

      別搜晉江小說了,去看真的晉江

      休閑闊腿褲怎么穿才美?看看這些穿搭公式,解鎖不重樣的造型

      手機要聞

      萬元旗艦參數(shù)造假 索尼Xperia 1 VIII厚度虛標:實測整機更厚

      軍事要聞

      特朗普暫緩打擊伊朗 稱系應(yīng)中東三國請求

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 69久蜜桃人妻无码精品一区| 中文字幕无码视频手机免费看| 中文字幕人妻无码一夲道| 亚洲国产精品色一区二区| 性色欲情网站iwww| 一二三四视频高清在线观看3| 久久久久中文字幕无码少妇| 2021久久超碰国产精品最新| 国产成人午夜一区二区三区 | 波多野结衣一区二区三区高清| 国内精品久久久久影院日本| 蜜桃av色欲a片精品一区| 日韩中文字幕一区二区高清| 久久久久久伊人高潮影院| 亚洲色图偷拍| 亚洲国产一区二区a毛片日本 | 一本一道精品欧美中文字幕| 亚洲自拍中文字幕| 粗大猛烈进出高潮视频| 日韩欧美在线看| jiZZ国产在线女人水多| 亚洲第一福利视频导航| 久久中文字幕人妻熟av女| 小明福利社| 少妇久久久久久被弄到高潮| 亚洲精品国模一区二区| 极品人妻在线一区二区| 亚洲无线观看| 亚洲精品高清国产一久久| 亚洲手机在线播放| 窝窝午夜看片| 手机免费A?V网站| 亚洲少妇人妻无码视频| 国产在线无码视频一区二区三区| 乱码av麻豆丝袜熟女系列| 日本亚洲国产| 无码h片在线观看网站| 日韩人妻无码一区二区三区综合| 天天日天天摸| 久久久精品人妻一区二区三区四| 十八禁午夜福利免费网站|