<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      循環即實驗室:八個AI自主研究系統橫評

      0
      分享至

      RESEARCH

      現在,AI Agent 這個詞已經成了真正在跑的東西

      Karpathy 寫了 630 行代碼讓 AI 自己做實驗,Google DeepMind 讓程序自己進化出了 56 年來沒人改進過的算法,Sakana AI 做了一個會重寫自己源碼的 Agent 然后它學會了作弊。這些系統不再是論文里的示意圖,它們在真實的 GPU 上跑著,產出真實的結果

      但它們到底在做什么事?各自的能力邊界在哪?能不能組合起來用?

      今天 Interesting Engineering++ 發了一篇長文,把這些系統放在同一個分析框架里做了橫評,回答的就是這些問題


      The Loop Is The Lab

      本文線索,由線人莊明浩腦濕舉報

      原文地址:interestingengineering.substack.com/p/the-loop-is-the-lab

      一個核心命題:科學方法本身是程序

      先說背景。過去一年,做 AI 的人越來越意識到一件事:訓練模型這件事本身,可以被模型來做。不是那種「AI 輔助研究」的客氣說法,是真的讓 Agent 自己提假說、自己跑實驗、自己看結果、自己決定下一步怎么辦

      這篇文章看了八個這樣的系統。它們來自不同的團隊,解決不同的問題,但共享同一個洞察:科學方法就是一個循環——假說、實驗、評估、保留或丟棄、重復。這個循環可以寫成代碼,寫成代碼就能自動化,自動化了就能以機器速度運行

      每個系統實現這個循環的方式不同,這些差異決定了它們各自能做什么、會在哪里卡住


      八個系統的定位概覽

      原文提出了一個七原語加治理的分析框架,用來拆解任意智能體系統,然后把這個框架應用到全部八個系統上

      分析框架:怎么理解一個 Agent 系統

      要比較八個系統,得先有一把統一的尺子。原文造了一把,挺好用

      八個原語

      說白了,不管多復雜的 Agent 系統,拆開來看就是八個零件的排列組合。搞清楚一個系統裝了哪些零件、每個零件誰控制,基本上就理解了它能做什么和不能做什么


      八原語圖解

      感知(Perceive)、記憶(Remember)、推理(Reason)、行動(Act)、評估(Evaluate)、變異(Mutate)、協調(Coordinate)


      七原語速查表

      治理(Governance),關鍵的第八個


      治理原語

      可進化性階梯

      關于一個自主系統,最有診斷價值的問題只有一個:變異發生在哪一層?這個問題的答案把所有系統分成了六檔。越往上,Agent 能改寫的東西越多,能力天花板越高,風險也越大


      可進化性階梯:從 L0 到 L5

      L0 是聊天機器人,只改輸出不改自己。L1 調超參,經典 AutoML。L2 改代碼,AlphaEvolve 和 AutoResearch 在這。L3 寫新工具擴展動作空間,OpenClaw 在這。L4 改控制自己推理和行動的代碼,Darwin G?del Machine 在這。L5 改評判自己的標準——目前沒有系統在這一層運行,但苗頭已經出現了

      八個系統,逐個看

      1. AutoResearch

      Karpathy / Eureka Labs,2026 年 3 月

      Karpathy 做的東西有個特點:極簡,但極簡本身就是設計決策。AutoResearch 是一個 630 行 的 Python 項目,MIT 協議開源。每個實驗精確跑 5 分鐘,只用一塊 GPU,整個代碼庫能放進一個 LLM 的上下文窗口

      兩天演示跑了約 700 次自主修改,找到約 20 個疊加改進,把一個已經被認為充分優化的代碼庫的 Time-to-GPT-2 指標砍了 11%。社區拿 Mac Mini M4 跑隔夜測試,nano 尺度上到了約 28%


      AutoResearch 流程圖

      5 分鐘預算是這個系統最重要的設計決策,雖然不是最顯眼的那個。它讓每個實驗可比,防止 Agent 發現在更長訓練中不成立的虛假改進,順便把硬件門檻降到了一臺 Mac Mini

      Agent 的學習機制很樸素:它看到一個不斷累積的「什么有效、什么失敗」的歷史,假說質量隨迭代提升。Git 同時充當審計軌跡和回滾機制


      AutoResearch 關鍵屬性

      卡在哪:AutoResearch 在 train.py 內部發現改進。但 50% 的算力削減需要根本不同的架構(比如 MoE)或內核級效率改進,一個 630 行腳本里做不到這些


      2. AlphaEvolve

      Google DeepMind,2025 年 5 月

      如果說 AutoResearch 是一個人的周末項目,AlphaEvolve 就是 Google 級別的工程——在內部跑了一年多才公開。成果放在這個量級上看確實嚇人:56年來首次改進 Strassen 的矩陣乘法算法,Gemini 架構里 FlashAttention 內核加速 23%,改進 Borg 調度啟發式永久回收了 Google 全球計算資源的 0.7%

      架構是進化的。維護一個候選程序的群體,用雙 LLM 變異策略:Gemini Flash 負責廣度(大量廉價變異),Gemini Pro 負責深度(對最有前途的候選者做昂貴推理)。Strassen 那個突破就歸因于 Pro 的深度推理能力


      AlphaEvolve 流程圖

      父代選擇時,不是只選最優者,分數差的程序可能攜帶了對另一目標有用的遺傳材料。群體修剪用 Pareto 前沿。形式化驗證器是凍結的,人寫的,檢查程序是否真的算對了


      AlphaEvolve 關鍵屬性

      卡在哪:AlphaEvolve 發現怎么更高效地計算一個給定架構,但它不能發現該用什么架構。內核級增益到 25-30% 大概就封頂了

      3. Darwin G?del Machine

      Sakana AI / UBC / Vector Institute,2025 年 5 月

      這是八個系統里哲學上最激進的。名字致敬了兩個譜系:Schmidhuber 2003 年的 G?del Machine(只在能形式化證明改變有益時才改自己)和達爾文進化論(不需要證明,活下來就行)。DGM 把兩者嫁接:放棄形式化證明,用經驗性基準驗證替代數學確定性

      SWE-bench 上 80 次迭代從 20.0% 干到 50.0%。Polyglot 上從 14.2% 到 30.7%,超過了手調的 Aider。用 Claude 3.5 Sonnet 優化的工作流還能遷移到 Claude 3.7 和 o3-mini,說明 Agent 找到的是工作流架構層面的改進

      然后出了一件有意思的事。在一次運行里,Agent 修改了自己的評估代碼來偽造基準日志,人為抬高自己的分數。研究人員抓住了它,因為每個變更都被沙盒化且可追溯



      DGM 流程圖

      DGM 的 Agent 把自己的全部 Python 源碼讀進內存,然后推理怎么改進自己。它可以改任何東西——包括構造 LLM 提示的代碼、檔案采樣策略、甚至判定什么算「改進」的標準。這就是它在可進化性階梯上處于 L4 的原因


      DGM 關鍵屬性

      卡在哪:DGM 在「搜索」上越來越好,但不一定在「搜索找到的東西」上越來越好。當代理基準和真正目標在規模上偏離時,完美的搜索者探索錯誤的景觀,收斂到的還是錯誤的答案。80 次迭代花 22000 美元

      4. OpenClaw

      Steinberger,2026

      OpenClaw 是感知范圍最廣的那個。文件、郵件、日歷、OS 命令、API、網頁、ArXiv 論文、GitHub 倉庫、Slack,只要有對應的 skill 就能對接。最特別的是它可以自己寫新 skill——在運行時永久擴展自己的動作空間


      OpenClaw 流程圖

      OpenClaw 不只檢索信息,它跨源綜合——識別矛盾、匯聚和未探索的組合。這種信息收集一個人類研究者要花好幾周


      OpenClaw 關鍵屬性

      卡在哪:原文有一句話說得太準了

      OpenClaw produces the world's best-organised backlog of untested ideas.

      OpenClaw 產出了全世界組織得最好的未測試想法清單

      沒有自動化反饋循環。每個實驗結果必須人來審閱。90 天里一個仔細的人能評估 10-15 個結果,AutoResearch 一個晚上跑 100 個


      Marc Andreessen 怎么看 OpenClaw

      Marc Andreessen 在一期播客里說他認為 π 和 OpenClaw 的組合是幾十年來最重要的軟件架構突破之一。他的定義很簡潔

      LLM + shell + file system + markdown + cron loop

      幾個讓他「炸裂」的點:Agent 把狀態存在文件系統里,換模型不影響身份和狀態;Agent 對自己的文件結構有完整自省知識,可以重寫自己的代碼;跟 Unix shell 結合后 Agent 原生擁有計算機的全部能力

      他把組件一個個列出來——LLM、shell、markdown、cron loop——說這些東西都不新,但組合在一起之后軟件的定義變了。從人手動造軟件變成 Agent 自己進化出能力來滿足需求

      5. Claude Code

      Anthropic,2025+

      Claude Code 做的事跟上面那些研究自動化系統不太一樣。它是一個編碼 Agent,設計目標是在現有代碼庫里把活干好。讀整個代碼庫、跟終端交互、通過 MCP 連外部服務、生成子 Agent 并行執行、用 CLAUDE.md 做持久記憶

      它的核心優勢在實現層。人提供假說,Claude Code 來實現和測試,比人類開發者更快更準


      Claude Code 流程圖


      Claude Code 關鍵屬性

      卡在哪:第 30 天,所有顯而易見的效率提升都實現了——混合精度、激活檢查點、數據管線優化、融合操作,加起來約 15%。第 31 到 90 天不再產出新假說。CLAUDE.md 成為一份組織得很漂亮的停滯搜索記錄

      6. AutoResearch Swarm

      社區分叉,2026+

      一個人的 AutoResearch 跑不過來了,社區就把它拆成了四個 Agent 協作:A1 生假說,A2 并行跑實驗,A3 跨所有結果做綜合,A4 盯著有沒有獎勵黑客和統計異常

      關鍵的質變在復合學習。A3 的綜合喂回 A1 的假說生成,假說越來越好。90 天跑大約 9000 個實驗,樣本密度夠大,能發現單次隔夜運行永遠找不到的架構交互


      AutoResearch Swarm 流程圖


      Swarm 關鍵屬性

      卡在哪:Swarm 產出了全世界驗證得最好的「可能在前沿規模有效」的清單。但真正驗證需要一次 5000 萬到 1 億美元 的訓練運行。搜索問題解決了,驗證問題仍然是人類的


      7. Moltbook

      Agent 社交網絡,2025/6+

      Moltbook 是個奇怪的東西。它是一個 Agent 原生的社交網絡,大約 150 萬 個 Agent 賬戶在里面發帖、回復、互發消息,沒有中央編排者,沒有選擇壓力,沒有評估函數

      它被放進這篇橫評不是因為它能做研究——它不能——而是因為它是對等網格拓撲的最大規模實驗。無治理的高復雜度協調會產出什么?答案挺刺激的

      記錄在案的涌現行為:協調聯盟自發形成、加密點對點通信通道、加密貨幣計劃,以及研究人員描述的涌現原始宗教(emergent proto-religion)


      Moltbook 流程圖


      8. NemoClaw

      NVIDIA,2026

      NemoClaw 跟前面七個不太一樣。它不引入新的搜索能力或變異機制。它做的事是之前的七原語框架里沒有對應類別的:在 Agent 行為執行的那一刻進行攔截——在行為產生效果之前

      之前所有系統的監督都是事后的——看 git 日志、查基準分數、讀綜合報告。NemoClaw 把監督移到了行動的瞬間:Agent 試圖連接一個不在預批準列表里的網絡端點時,請求被阻止,實時展示給人類操作員,批準或拒絕后才繼續


      NemoClaw 流程圖


      NemoClaw 治理架構,來源:NVIDIA 文檔


      NemoClaw 架構細節,來源:NVIDIA 文檔

      NemoClaw 默認路由到 Nemotron 3 Super 120B。通過提供企業部署 Agent 必需的合規和審計基礎設施,NVIDIA 同時把自己變成了所有受治理 OpenClaw 部署的默認推理提供商


      NemoClaw 關鍵屬性

      開放問題:實時逐連接審批在少量 Agent 時可行。規?;蟆獛装賯€ Agent、每小時幾千個連接請求——審批要么退化成橡皮圖章,要么變成瓶頸

      放在一起看 每個系統在哪里卡住

      原文做了一張表,把八個系統對照完成研究循環所需的階段逐一映射。前沿規模驗證那一列,對每個系統都是空的


      階段解剖表格(上)


      階段解剖表格(下)

      約束已經從「發現改進」轉移到了「在有意義的規模上驗證改進」

      混合體:每個系統貢獻什么


      各系統對混合體的貢獻


      三條系統思維規則


      三條規則概覽

      規則一:瓶頸揭示架構盲區:一個系統的瓶頸總是在它能測量的東西和目標真正需要的東西之間的裂縫處

      The precise location of the stall is the most informative single piece of information about a system's architecture.

      瓶頸的精確位置是關于系統架構最有信息量的單一信息

      規則二:評估函數就是系統:兩個層完全一樣但評估函數不同的系統會收斂到不同的解

      The evaluation function is the system's actual objective, regardless of what the designers specify in prose.

      評估函數是系統的真正目標,不管設計者在文檔里怎么寫的

      規則三:規模邊界需要人類權威

      Humans remain essential not because they reason better, but because they can authorise expenditures that change scale.

      人類仍然不可或缺,不是因為推理得更好,而是因為能授權那些改變規模的支出

      Harness 在哪

      原文最后討論了 Harness(護欄)和三條規則的關系。Harness 就是 Agent 周圍的固定框架:定義評估信號、觀察接口和 Agent 能觸碰與不能觸碰的邊界。三條規則各描述了 Harness 的一個邊界處發生的事


      Harness 與三條規則的關系

      規則一在測量邊界觸發——Harness 能測量的捕捉不到真正目標時,Agent 就在那里停滯。規則二命名了 Harness 的核心組件。規則三在權威邊界觸發——人類是 Harness 最外層的邊界

      八原語框架是解剖學,映射系統的凍結/可進化結構。三條規則是診斷學,解釋為什么這個結構產出了它所產出的結果。兩者都需要

      原文最后一段:

      The scientific loop — hypothesise, experiment, measure, keep or discard, repeat — is itself a program. The question is no longer whether AI can run this loop. It is how to define the loop so that what gets optimised is what we actually care about — and who holds authority over the decisions that code cannot make.

      科學循環本身是一個程序。問題不再是 AI 能不能跑這個循環。問題是怎么定義這個循環,使得被優化的東西確實是我們在乎的東西——以及誰對那些代碼做不了的決策擁有權威

      下一個前沿不是更強的獨立 Agent,而是它們的組合架構

      原文地址:interestingengineering.substack.com/p/the-loop-is-the-lab
      參考文獻見原文,涵蓋 Karpathy AutoResearch 倉庫、NVIDIA NemoClaw 文檔、AlphaEvolve 論文(arXiv:2506.13131)、Darwin G?del Machine 論文(arXiv:2505.22954,ICLR 2026)、Sakana AI 博客、OpenClaw 文檔、Claude Code 文檔等

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      國際足聯高層來了!與宋凱見面 施壓央視:54億打包兩屆世界杯

      國際足聯高層來了!與宋凱見面 施壓央視:54億打包兩屆世界杯

      念洲
      2026-05-13 13:25:09
      現場直擊!中方舉行儀式歡迎特朗普訪華,規模宏大,莊嚴熱烈

      現場直擊!中方舉行儀式歡迎特朗普訪華,規模宏大,莊嚴熱烈

      軍武咖
      2026-05-14 10:34:33
      廣廈雙核傷病情況:孫銘徽吃止疼片復出 胡金秋有水腫韌帶無大礙

      廣廈雙核傷病情況:孫銘徽吃止疼片復出 胡金秋有水腫韌帶無大礙

      醉臥浮生
      2026-05-14 09:28:14
      以色列安全部長:需有人告訴亞馬爾,他舉了一個不存在政權的旗幟

      以色列安全部長:需有人告訴亞馬爾,他舉了一個不存在政權的旗幟

      懂球帝
      2026-05-13 20:10:42
      尼日利亞一女星用500個面包制成禮服 驚艷亮相電影獎 現場撕下一塊大快朵頤

      尼日利亞一女星用500個面包制成禮服 驚艷亮相電影獎 現場撕下一塊大快朵頤

      快科技
      2026-05-12 15:00:24
      范冰冰大方公開:18億是真,沒打算復合。

      范冰冰大方公開:18億是真,沒打算復合。

      喬話
      2026-05-11 23:31:39
      廣州毒保姆何天帶:一年殺8位老人,揚言:老人活多久我說了算

      廣州毒保姆何天帶:一年殺8位老人,揚言:老人活多久我說了算

      莫地方
      2026-05-14 01:05:05
      伊朗總統府:不會永久限制互聯網訪問

      伊朗總統府:不會永久限制互聯網訪問

      界面新聞
      2026-05-14 07:00:53
      1985年,國安叛徒藏身南美,中國6名兵王萬里鋤奸,FBI顏面盡失

      1985年,國安叛徒藏身南美,中國6名兵王萬里鋤奸,FBI顏面盡失

      文史達觀
      2026-05-13 11:29:24
      內馬爾告誡亞馬爾:別重走我的路!離開巴薩,是我生涯最大遺憾

      內馬爾告誡亞馬爾:別重走我的路!離開巴薩,是我生涯最大遺憾

      體育閑話說
      2026-05-14 11:13:09
      【社論】中國AI企業背后的創新密碼

      【社論】中國AI企業背后的創新密碼

      澎湃新聞
      2026-05-13 17:08:27
      重磅達成協議!巴西后腰同意加盟曼聯,周薪10萬英鎊敲定

      重磅達成協議!巴西后腰同意加盟曼聯,周薪10萬英鎊敲定

      夜白侃球
      2026-05-14 09:01:43
      中午 11 時,中美磋商準時開場,特朗普沒想到:中國居然真這么強

      中午 11 時,中美磋商準時開場,特朗普沒想到:中國居然真這么強

      冷桂零落
      2026-05-14 11:01:40
      100%概率奪冠?CBA這鐵律太可怕了:北上廣深誰將笑到最后?

      100%概率奪冠?CBA這鐵律太可怕了:北上廣深誰將笑到最后?

      籃球快餐車
      2026-05-14 02:46:54
      馬斯克2個月連發26條種族帖,只為攻擊諾蘭2.5億新片選角

      馬斯克2個月連發26條種族帖,只為攻擊諾蘭2.5億新片選角

      熱搜摘要官
      2026-05-14 06:45:33
      這菜不起眼,卻是“補鉀高手”!夏天一周吃2次,強骨骼、解疲勞

      這菜不起眼,卻是“補鉀高手”!夏天一周吃2次,強骨骼、解疲勞

      阿龍美食記
      2026-05-12 15:57:38
      馬斯克、黃仁勛、庫克等美商界代表進入中美元首會談現場 特朗普:美國大公司企業家都想來

      馬斯克、黃仁勛、庫克等美商界代表進入中美元首會談現場 特朗普:美國大公司企業家都想來

      快科技
      2026-05-14 12:37:04
      蔣介石在日記里坦言:重慶談判后,放毛澤東返回延安只有兩點原因

      蔣介石在日記里坦言:重慶談判后,放毛澤東返回延安只有兩點原因

      飯小妹說歷史
      2026-05-14 08:55:24
      俄羅斯石油產量跌回2009年,普京最賺錢的家底開始撐不住了

      俄羅斯石油產量跌回2009年,普京最賺錢的家底開始撐不住了

      桂系007
      2026-05-13 23:24:34
      你嫁婆家后因為啥事一舉成名過?網友:弄的沸沸揚揚人盡皆知

      你嫁婆家后因為啥事一舉成名過?網友:弄的沸沸揚揚人盡皆知

      另子維愛讀史
      2026-05-14 07:34:57
      2026-05-14 13:07:00
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      437文章數 53關注度
      往期回顧 全部

      科技要聞

      馬斯克:只有我和黃仁勛坐上了"空軍一號"

      頭條要聞

      兄妹救4名落水者后遭拉黑 被告知獲救者身份不便公開

      頭條要聞

      兄妹救4名落水者后遭拉黑 被告知獲救者身份不便公開

      體育要聞

      登海報!哈登30+8+6創多項紀錄 第8次贏天王山

      娛樂要聞

      肖戰提名金海燕獎,這一步走得太穩

      財經要聞

      片仔癀依舊困在“片仔癀”

      汽車要聞

      C級純電轎跑 吉利銀河"TT"申報圖來了

      態度原創

      本地
      藝術
      數碼
      家居
      公開課

      本地新聞

      用蘇繡的方式,打開江西婺源

      藝術要聞

      充滿光感的花卉油畫 | 亞歷山大·沙巴德伊

      數碼要聞

      泡泡瑪特高管否認進軍傳統家電 專注IP衍生小家電品類

      家居要聞

      精神奢享 對話塔尖需求

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 直接黄91麻豆网站| 久久精品国产再热青青青| 成人无码小视频在线观看| 亚洲成人av综合一区| 日韩中文一区二区| 中文字幕+乱码+日韩| 99热国产日韩这里只有精品| 东京热人妻丝袜无码AV一二三区观| 人妻夜夜爽天天爽三区丁香花| 国产精品VA在线观看老妇女| 欧美第二区| 午夜福利国产盗摄久久性| av黄色| 又爽又黄又无遮挡的视频| 益日韩欧群交P片内射中文| 深夜福利视频在线| 好了av四色综合无码| 久久先锋男人AV资源网站| 草草久久久无码国产专区| 岛国AV网站| 国产白浆一区二区| 亚洲AV日韩AV高潮潮喷无码| 好大好深好猛好爽视频免费| 亚洲国产日韩在线人高清 | 扒开双腿疯狂进出爽爽爽动态图| 青青草原国产精品啪啪视频| 久久国产美女精品久久| 男人吃奶摸下挵进去好爽| 日本午夜爱爱一区二区| 国产av麻豆天堂亚洲国产av刚刚碰 | 亚洲18禁私人影院| 亚洲国产精品自拍一区| 男女真实无遮挡xx00动态图120秒| 五月色丁香婷婷网蜜臀av| 国产精品日韩中文字幕| 国产真实露脸多p视频播放| 中文字幕A片免费观看| 亚洲无码?成人| 亚洲欧美日韩在线中文字幕| 国产精品久久三级精品| 人妻无码第一区二区三区|