<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      科研問題變AI反復試錯環境,斯坦福等提出的自動循環執行LLM流程

      0
      分享至



      編輯丨%

      為了加速各類生產研究的進度,使用 AI 大模型來進行決策或者提出新穎的想法已經不算少見。但絕大部分研究思路本身看似合理,實際是否有用還有待商榷。

      過去一年,多項系統評測已經反復驗證一個事實:LLM 生成的研究構想,往往“看起來很對”,但一執行就失效。它們善于組合概念,卻很少真正接受過“實驗結果”的懲罰。

      來自斯坦福大學等的研究團隊選擇了一條更為激進的路線。他們構建了一套自動執行器的循環,通過進化搜索與獎勵學習,來強化 LLM 生成更為有效的想法。相關內容以「Towards Execution-Grounded Automated AI Research」為題,于 2026 年 1 月 20 日刊登在 arxiv。



      論文鏈接:https://arxiv.org/abs/2601.14525

      進入反復試錯的環境

      研究團隊的設想可以這么總結:將 AI 生成的想法付諸于代碼,并從實驗結果中汲取經驗回滾想法。如果成功,這些自動化 AI 研究人員可以在龐大的搜索空間中自動開發和識別有效的研究想法,從而將計算轉化為科學發現;這些發現的理念反過來又可能改進前沿 AI 模型本身,實現遞歸自我改進。

      這也正是本研究中提出的核心系統:Execution-Grounded Automated AI Research(執行落地型自動科研)

      它基于特定的環境,并在構建時力求開放式的研究問題,以此空出足夠的空間容納創新算法,并建立完善的基線與基準指標。



      圖 1:自動化的執行器。

      為了避免空談,團隊將研究場景壓縮為兩個高度真實、但可控的執行環境

      一個是預訓練:

      • 任務:加速 nanoGPT 的預訓練過程
      • 指標:在固定 GPU 預算下,更快達到目標驗證損失
      • 對照基線:nanoGPT speedrun(35.9 分鐘)

      另一個是后訓練:

      • 任務:改進 GRPO 算法的后訓練效果
      • 指標:數學推理任務(MATH)驗證準確率
      • 對照基線:48.0%

      執行反饋與強化學習

      執行反饋的核心引導部分在于,它融合了探索與利用,用這兩者模擬科研迭代過程。

      作為核心的自動化創意執行器由三個核心模塊組成:Implementer 實現者、Scheduler 調度器、Worker 工作單位



      圖 2:GRPO 和 nanoGPT 環境中自執行(上行)與 GPT-5(下行)的模型性能比較。

      通過這三個模塊,AI 輸出的想法都會轉化為實際的數值反饋,反復自我修正,通過不斷控制執行,直到確認想法可行或失敗。在這個環節,初始探索 / 利用比例 5:5,后續逐步提高利用比例,共進行十次迭代

      而在其后的獎勵強化學習部分,則以實驗性能為獎勵,這與實驗效果直接關聯。這種應用模式可通過梯度更新持續提升想法質量,突破進化搜索的限制。

      實驗驗證里,后訓練在僅有50 個想法采樣的情況下,Claude-4.5-Sonnet 的最大準確率為 60.4%,遠超 48.0% 的基線標準。并且在 nanoGPT 上,Claude-4.5-Opus 的損耗最低,為 3.237,低于基線的 3.255。

      在預訓練環境里,模型達到目標損失的訓練時間 19.7 分鐘,遠超 nanoGPT 基線(35.9 分鐘),僅落后人類頂尖解(2.1 分鐘),但無需人工干預。

      表 1:在整個執行引導搜索中,超參數調優與算法思想的細分。



      更多的實驗思路此處不做過多贅述。

      探索算法直覺的道路

      在執行日志的分析中,研究團隊發現一個耐人尋味的現象:模型并非只是在簡單地調參,它嘗試在算法層間進行修改,這其中包括訓練流程,更新策略,資源調度等方式。但這也凸顯了當下比較明顯的幾個問題,比如多數模型早期就出現的性能飽和,與少數模型才擁有的較清晰的“搜索隨規模提升”的趨勢。

      未來的更新中,可能需要針對 RL 的模式崩潰引入多種獎勵補丁,平衡有效性與創新性。執行器也需要進一步升級,以應對復雜任務帶來的處理能力需要。

      聲明:包含AI生成內容

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      男子買1萬多元榴蓮錯付成11萬多元,幾個月后才發現,原是銷售員謊稱辦退款偷偷侵占,商家:員工已被警方抓獲,自己先墊付了10萬余元給買家

      男子買1萬多元榴蓮錯付成11萬多元,幾個月后才發現,原是銷售員謊稱辦退款偷偷侵占,商家:員工已被警方抓獲,自己先墊付了10萬余元給買家

      極目新聞
      2026-05-21 17:07:16
      法網男單簽表出爐!辛納半決賽或再戰梅總,德約遇地獄簽表

      法網男單簽表出爐!辛納半決賽或再戰梅總,德約遇地獄簽表

      搏擊江湖
      2026-05-21 21:29:51
      我國界碑屢遭移動,本以為是領土被侵,得知原因后,讓人哭笑不得

      我國界碑屢遭移動,本以為是領土被侵,得知原因后,讓人哭笑不得

      抽象派大師
      2026-05-20 01:18:00
      兆易創新,天降橫財!

      兆易創新,天降橫財!

      投研邦V
      2026-05-21 19:43:02
      《主角》:茍存忠舞臺猝死,3位老師傅出走,這劇的味道又要變了

      《主角》:茍存忠舞臺猝死,3位老師傅出走,這劇的味道又要變了

      阿纂看事
      2026-05-21 09:36:06
      人不會無故大腦萎縮!醫生提醒:大腦萎縮的人,多半有這些習慣

      人不會無故大腦萎縮!醫生提醒:大腦萎縮的人,多半有這些習慣

      蜉蝣說
      2026-01-29 15:15:16
      索羅斯基金會宣布3億美元計劃:我們不會因恐嚇而沉默

      索羅斯基金會宣布3億美元計劃:我們不會因恐嚇而沉默

      硬核玩家2哈
      2026-05-21 00:41:01
      520大瓜!曝網紅白冰婚內出軌,大尺度聊天曝光,女方錄音威脅

      520大瓜!曝網紅白冰婚內出軌,大尺度聊天曝光,女方錄音威脅

      180視角
      2026-05-20 13:13:48
      梅拉尼婭白宮國會野餐會亮相,粉裙造型優雅又亮眼

      梅拉尼婭白宮國會野餐會亮相,粉裙造型優雅又亮眼

      述家娛記
      2026-05-21 10:43:38
      利物浦賺翻!世界級王牌主動來投!2000 萬救回 1.3 億水貨伊薩克

      利物浦賺翻!世界級王牌主動來投!2000 萬救回 1.3 億水貨伊薩克

      瀾歸序
      2026-05-21 05:46:23
      罕見表態!魯比奧公開發聲:若萬斯參選2028總統,我第一個支持

      罕見表態!魯比奧公開發聲:若萬斯參選2028總統,我第一個支持

      探源歷史
      2026-05-22 00:33:02
      上海“喊殺哥”火了!舍友送茶自保,老師親自陪餐,已被家長帶回

      上海“喊殺哥”火了!舍友送茶自保,老師親自陪餐,已被家長帶回

      小鋭有話說
      2026-05-21 16:06:46
      14歲開演唱會,23歲一首歌狂賺2億,29歲成教授,他如今怎樣了?

      14歲開演唱會,23歲一首歌狂賺2億,29歲成教授,他如今怎樣了?

      飄飄然的娛樂匯
      2026-05-18 19:45:05
      一個“過氣”APP,吃透已婚女人的錢包

      一個“過氣”APP,吃透已婚女人的錢包

      DT商業觀察
      2026-04-21 11:58:59
      美國大滿貫格局大變!林詩棟扛大旗,王曼昱帶小將,王皓動真格了

      美國大滿貫格局大變!林詩棟扛大旗,王曼昱帶小將,王皓動真格了

      老塕是個手藝人
      2026-05-22 04:41:30
      網紅韓景楓全家搬離北京!在北京購買千萬別墅,已賣掉多輛豪車

      網紅韓景楓全家搬離北京!在北京購買千萬別墅,已賣掉多輛豪車

      眼界縱橫
      2026-05-21 15:29:23
      鐘南山發現:能活到90歲的老人,基本在60歲,就已經不做這6事了

      鐘南山發現:能活到90歲的老人,基本在60歲,就已經不做這6事了

      醫學科普匯
      2026-05-13 23:30:08
      5月14號晚上,劉大錘那場直播直接把全網炸翻了!

      5月14號晚上,劉大錘那場直播直接把全網炸翻了!

      星娛叨叨社
      2026-05-20 16:26:47
      蔚來李斌:每輛車成本漲超一萬,堅持不打價格戰

      蔚來李斌:每輛車成本漲超一萬,堅持不打價格戰

      野生運營
      2026-05-22 00:01:54
      80后家長發明“防早戀”發型,女兒面如死灰,網友都看不下去了

      80后家長發明“防早戀”發型,女兒面如死灰,網友都看不下去了

      妍妍教育日記
      2026-04-27 09:20:13
      2026-05-22 06:47:00
      ScienceAI incentive-icons
      ScienceAI
      關注人工智能與其他前沿技術
      1307文章數 227關注度
      往期回顧 全部

      科技要聞

      小米YU7 GT正式發布:售價38.99萬元

      頭條要聞

      特朗普再威脅伊朗交出濃縮鈾 稱到手后或銷毀

      頭條要聞

      特朗普再威脅伊朗交出濃縮鈾 稱到手后或銷毀

      體育要聞

      常住人口7000的小鎮,擁有了一支德甲球隊

      娛樂要聞

      反轉!金秀賢與金賽綸未成年時交往不實

      財經要聞

      潮水退去,裸泳的一定不止五糧液

      汽車要聞

      雷軍:YU7首戰Model Y八敗兩勝 輸給全球銷冠不丟人

      態度原創

      游戲
      藝術
      家居
      健康
      時尚

      一個前妻味兒拉滿的重女莊方宜,讓終末地的角色設計再次封神

      藝術要聞

      海市蜃樓水中樹

      家居要聞

      風格碰撞 個性與藝術

      外泌體與干細胞竟是“快遞”與“工廠”的關系?

      今年夏天最流行的4組搭配,誰穿誰好看!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲自偷精品视频自拍| 99热这里只有精品免费| 精东A片成人影视| 亚洲国产一区在线二区三区| 国产精品国产三级国产专播| 精美人妻与无码人妻| 丰满少妇惨叫在线播放一区二区| 人妻少妇久久中文字幕一区二区| 一区二区三区不卡免费av| 国产精品一区二区久久国产 | 在线观看国产精品自拍| 无码人妻AⅤ一区二区三区三级| 手机看片国产日韩| 国产美女在线观看| 中文字幕熟妇人| 中文无码精品一区二区三区| 天天躁日日躁狠狠躁视频2021| 免费看国产美女裸体视频| 一区二区三区国产| 亚洲线精品一区二区三区影音先锋 | 免费又黄又爽又色的视频 | 色偷偷亚洲av男人的天堂| 日本色综合网| 少妇真人直播免费视频| 亚洲国产在一区二区三区 | 国产精品欧美久久久久老妞| 窝窝午夜色视频国产精品破| 乱伦HD| 激情文学亚洲| 日韩人妻不卡一区二区三区| 国产精品无码一区二区三区| 福利cosplayh裸体の福利| 岛国片免费在线观看| 日韩国产精品无码一区二区三区| 国产V片| 真实播放国产乱子伦视频| 无码人妻精品一区二区三区66| 精品国产av色一区二区深夜久久| 亚洲精品久久麻豆蜜桃| 亚洲自拍日韩视频一区| 国产精品一区二区久久国产|