<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Autoresearch 全自動寫代碼、寫論文,Claude、Codex、龍蝦紛紛復現

      0
      分享至

      Karpathy 最近搞了一個叫 autoresearch 的項目,一出手就在圈內炸了鍋。

      核心思路簡單到離譜:你去睡覺,AI 幫你通宵做實驗

      一覺醒來,100 多個實驗結果整整齊齊地擺在面前。

      更猛的是,社區在此基礎上迅速衍生出了好幾個項目,把這套"自主研究"的范式推向了更廣的場景——從代碼質量優化,到直接幫你寫論文。

      我覺得這可能是 2026 年最有意思的 AI Agent 落地方向之一

      Karpathy 的 autoresearch:用 Markdown 編程的研究機構

      項目地址:https://github.com/karpathy/autoresearch

      Karpathy 在 README 里寫了一段非常有畫面感的話:

      曾經,前沿 AI 研究是由肉體大腦完成的,他們在吃飯、睡覺和其他娛樂之間擠出時間做研究,偶爾通過名為"組會"的儀式用聲波互聯來同步進展。那個時代早已過去。研究現在完全屬于在天空中計算集群巨型建筑上運行的自主 AI Agent 群。
      Karpathy autoresearch 實驗進展圖

      核心玩法是什么?

      整個項目只有三個關鍵文件:

      文件

      作用

      誰來改?

      prepare.py

      數據準備、評估函數、dataloader

      ? 不能動

      train.py

      模型架構、優化器、訓練循環

      AI 改這個

      program.md

      AI Agent 的行為指令

      ? 人類改這個

      這個設計太妙了——你不再寫 Python,你寫 Markdown

      program.md就是你的"研究組織代碼",定義 AI Agent 的行為模式:怎么實驗、怎么評估、怎么決定保留還是回滾

      實驗循環長這樣:

      永遠循環:
      1. 看當前 git 狀態
      2. 改 train.py,嘗試一個想法
      3. git commit
      4. 跑實驗(5分鐘固定時長)
      5. 讀取結果:val_bpb 有沒有降低?
      6. 降了 → 保留,推進分支
      7. 沒降 → git reset 回滾
      8. 記錄到 results.tsv
      9. 繼續下一個實驗

      每次實驗固定跑 5 分鐘,一個小時跑大約 12 個實驗。你睡 8 小時,AI 就給你跑了將近 100 個實驗。每個實驗的指標、內存、狀態全部記錄在 TSV 里

      program.md里有一條非常霸氣的規則:

      NEVER STOP: 一旦實驗循環開始,不要暫停問人要不要繼續。人類可能在睡覺。你是自主的。如果沒想法了,想得更深一些。循環持續到人類手動打斷為止

      快速上手:

      # 安裝 uv 包管理器
      curl -LsSf https://astral.sh/uv/install.sh | sh

      # 安裝依賴
      uv sync

      # 下載數據和訓練 tokenizer
      uv run prepare.py

      # 手動跑一次訓練(驗證環境正常)
      uv run train.py

      然后開啟你的 Claude Code 或者 Codex,對它說一句話就行:

      Hi have a look at program.md and let's kick off a new experiment!

      醒來看results.tsv

      設計哲學上有幾點我覺得特別精彩:

      • 固定時間預算:所有實驗都是 5 分鐘,不管你怎么改架構改參數,都是公平比較

      • 簡潔性原則:同等效果下更簡單的代碼優先。刪代碼能保持效果?那就是贏

      • 單一指標:只看val_bpb(驗證集 bits per byte),越低越好

      • Git 即記憶:所有實驗都 commit,成功推進分支,失敗就 reset

      不過這個項目目前只支持 NVIDIA GPU(在 H100 上測試),對 Mac 或 CPU 用戶不太友好。好在社區已經有了 MacOS、Windows、AMD 的 fork 版本。

      Codex Autoresearch:把自主研究推廣到一切有指標的場景

      項目地址:https://github.com/leo-lilinxiao/codex-autoresearch


      Codex Autoresearch Banner

      Karpathy 的 autoresearch 只做 ML 訓練,而codex-autoresearch把這套邏輯泛化到了所有軟件工程場景。

      它是一個 OpenAI Codex 的 Skill(技能插件),核心理念:只要你有一個可以衡量的數字指標,它就能幫你自動優化。

      你只需用一句話描述目標,Codex 會自動分析項目、確認指標、然后進入自主迭代循環。

      看幾個實際場景:

      你說的話

      Codex 做什么

      "提高測試覆蓋率"

      掃描項目,提出指標,自動寫測試直到達標

      "修復 12 個失敗的測試"

      逐個檢測修復,直到全部通過

      "為什么 API 返回 503?"

      用科學方法排查根因,給出可證偽的假設

      "這段代碼安全嗎?"

      STRIDE + OWASP 審計,每個發現都有代碼證據

      架構上有個很聰明的設計——支持前臺和后臺兩種運行模式。

      你可以盯著它跑,也可以讓它后臺無人值守地跑一整夜。

      實驗循環跟 Karpathy 的一脈相承:

      共享循環核心(永遠循環或 N 次):
      1. 審查當前狀態 + git 歷史 + 結果日志
      2. 選一個假設
      3. 做一個原子改動
      4. git commit
      5. 跑驗證 + 安全護欄
      6. 改進了 → 保留。變差了 → 回滾。崩了 → 修復或跳過
      7. 記錄結果
      8. 健康檢查
      9. 連續 3 次丟棄 → 調整策略;5 次 → 轉向;2 次轉向 → 搜索網絡
      10. 重復

      它還有一個跨運行學習的機制——每次成功或失敗的經驗都會被提取成"教訓",注入到下一輪實驗的決策中。

      安裝也很簡單:

      git clone https://github.com/leo-lilinxiao/codex-autoresearch.git
      cp -r codex-autoresearch your-project/.agents/skills/codex-autoresearch

      然后在 Codex 里說:

      $codex-autoresearch
      I want to get rid of all the `any` types in my TypeScript code

      走開,回來看結果。

      Claude Autoresearch:9 個命令覆蓋全場景

      項目地址:https://github.com/uditgoenka/autoresearch

      這個是面向 Claude Code 的版本,口號很直白:

      "設定目標 → Claude 跑循環 → 你醒來看結果"

      跟 Codex 版本類似,也是泛化的自主迭代框架,但這個項目在命令體系上做得更完整,提供了 9 個開箱即用的命令:

      命令

      功能

      /autoresearch

      核心自主迭代循環

      /autoresearch:plan

      交互式配置向導

      /autoresearch:security

      STRIDE + OWASP 安全審計

      /autoresearch:ship

      發布前檢查工作流

      /autoresearch:debug

      科學方法自主排 bug

      /autoresearch:fix

      自動修復所有錯誤

      /autoresearch:scenario

      場景驅動測試生成

      /autoresearch:predict

      多角色預分析

      /autoresearch:learn

      自動生成/更新文檔

      它定義了8 條核心規則,這也是整個 autoresearch 范式的精髓:

      1. 循環到底——無限循環或 N 次循環后總結

      2. 先讀后寫——理解上下文再動手

      3. 一次一改——原子性修改,壞了知道是哪步

      4. 機械驗證——不要主觀的"看起來行",要指標

      5. 自動回滾——失敗立刻撤回

      6. 簡單為王——同樣效果,代碼越少越好

      7. Git 即記憶——所有實驗都進 git 歷史

      8. 卡住了就想更深——沒思路的時候重新審視、組合近似成功的實驗、嘗試激進改變

      安裝方式(推薦插件安裝):

      # 在 Claude Code 中運行
      /plugin marketplace add uditgoenka/autoresearch
      /plugin install autoresearch@autoresearch

      或者手動復制:

      git clone https://github.com/uditgoenka/autoresearch.git
      cp -r autoresearch/claude-plugin/skills/autoresearch .claude/skills/autoresearch
      cp -r autoresearch/claude-plugin/commands/autoresearch .claude/commands/autoresearch

      然后試試:

      /autoresearch
      Goal: Increase test coverage from 72% to 90%
      Scope: src/**/*.test.ts, src/**/*.ts
      Metric: coverage % (higher is better)
      Verify: npm test -- --coverage | grep "All files"
      Guard: npm test
      AutoResearchClaw:最激進的——直接幫你寫論文

      項目地址:https://github.com/aiming-lab/AutoResearchClaw


      AutoResearchClaw

      前面幾個還是在"優化代碼/模型"的范疇,這貨直接把目標拉到了全自主寫論文

      口號:"Chat an Idea. Get a Paper."——你說一個想法,它給你出一篇會議論文


      AutoResearchClaw 框架圖

      23 個階段,8 個大的 Phase,全自動流水線

      Phase A: 研究范圍界定         Phase E: 實驗執行
      1. 主題初始化 12. 實驗運行
      2. 問題分解 13. 迭代改進(自動修復)

      Phase B: 文獻發現 Phase F: 分析與決策
      3. 搜索策略 14. 結果分析(多 Agent)
      4. 文獻收集(真實 API) 15. 研究決策(PIVOT/REFINE)
      5. 文獻篩選 [人工關口]
      6. 知識提取 Phase G: 論文寫作
      16. 論文大綱
      Phase C: 知識綜合 17. 論文初稿
      7. 綜合 18. 同行評審(證據檢查)
      8. 假設生成(多角色辯論) 19. 論文修訂

      Phase D: 實驗設計 Phase H: 最終化
      9. 實驗設計 [人工關口] 20. 質量關口 [檢查]
      10. 代碼生成 21. 知識歸檔
      11. 資源規劃 22. 導出發布(LaTeX)
      23. 引用驗證

      最終產出一整套交付物:

      產出

      paper_draft.md

      完整論文(引言、相關工作、方法、實驗、結論)

      paper.tex

      可編譯的 LaTeX(NeurIPS/ICML/ICLR 模板)

      references.bib

      真實的 BibTeX 引用(來自 OpenAlex、Semantic Scholar、arXiv)

      experiment runs/

      生成的實驗代碼 + 沙箱運行結果

      charts/

      自動生成的對比圖表

      reviews.md

      多 Agent 同行評審

      幾個讓我印象深刻的設計:

      1. 引用不造假:文獻通過 OpenAlex、Semantic Scholar 和 arXiv API 獲取真實論文,還有 4 層引用驗證。這一點非常關鍵,其他自動寫論文的工具最大的問題就是瞎編引用

      2. 自愈機制:實驗失敗了會自動診斷修復;假設不成立會自動 PIVOT 換方向

      3. 多 Agent 辯論:假設生成和結果分析都用多視角辯論機制,不是單一 LLM 的"自說自話"

      4. 跨平臺支持:通過 ACP(Agent Client Protocol),支持 Claude Code、Codex CLI、Copilot CLI、Gemini CLI、Kimi CLI 等任何兼容的 Agent 后端

      5. Sentinel 哨兵:后臺質量監控——NaN/Inf 檢測、論文證據一致性檢查、引用相關性打分、反編造守衛

      快速上手:

      # 克隆安裝
      git clone https://github.com/aiming-lab/AutoResearchClaw.git
      cd AutoResearchClaw
      python3 -m venv .venv && source .venv/bin/activate
      pip install -e .

      # 交互式配置
      researchclaw setup
      researchclaw init

      # 一條命令跑起來
      export OPENAI_API_KEY="sk-..."
      researchclaw run --config config.arc.yaml --topic "Your research idea" --auto-approve

      它已經 showcase 了 8 個領域(數學、統計、生物、計算、NLP、RL、視覺、魯棒性)的全自主生成論文

      橫向對比:四個項目怎么選?

      特性

      Karpathy autoresearch

      Codex Autoresearch

      Claude Autoresearch

      AutoResearchClaw

      核心場景

      ML 模型訓練優化

      通用代碼質量

      通用代碼質量

      全自主寫論文

      Agent 平臺

      任意

      OpenAI Codex

      Claude Code

      多平臺 ACP

      自主程度

      高(永不停止)

      高(后臺模式)

      高(無限循環)

      極高(23 階段流水線)

      迭代粒度

      改 train.py

      任意代碼改動

      任意代碼改動

      文獻→實驗→論文

      評估方式

      val_bpb

      自定義指標

      自定義指標

      多維質量評審

      GPU 要求

      需要 NVIDIA GPU

      不需要

      不需要

      按任務而定

      適合誰

      ML 研究者

      工程師/開發者

      工程師/開發者

      科研工作者


      老章說兩句

      這一波 autoresearch 生態的爆發,本質上是三個趨勢交匯:

      第一,Agent 能力到位了。Claude Code、Codex CLI 這些編程 Agent 已經能夠穩定地修改代碼、運行測試、讀取結果。不再是"玩具級"了。

      第二,范式足夠簡潔。Karpathy 的核心洞察是——你只需要一個指標 + 一個約束 + 一個循環。這個模式簡單到任何人都能理解、任何場景都能套用。

      第三,Git 是天然的 Agent 記憶。每次實驗 commit,失敗就 revert,成功就推進。這比任何復雜的狀態管理系統都優雅。

      說白了,這就是把 AI 從"一次性問答"變成"持續迭代"的范式轉變。以前你讓 AI 改代碼,改完就改完了。現在是讓它進入一個無限循環:改、測、評、保留或回滾、再來。跟人類科研的流程一模一樣——提出假設、做實驗、分析結果、決定下一步——只不過它不需要睡覺。

      我覺得 AutoResearchClaw 是最值得關注的一個。

      雖然全自主寫論文的質量還沒法跟頂級研究者比,但作為科研輔助工具——幫你快速做文獻調研、跑初步實驗、生成論文初稿——已經能省掉大量重復勞動了。

      當然,這些項目也有很明顯的局限:

      • 只能優化能量化的東西。"讓代碼更優雅"這種目標它搞不定

      • API 成本不低。跑一夜的實驗,token 費用可能不便宜

      • 創造性有限。它擅長的是在已知空間內暴力搜索,真正顛覆性的創新還是得靠人類

      但方向是對的。

      當 Agent 能力繼續提升、成本繼續下降,"你定義方向,AI 做苦力"可能真的會成為科研和工程的常態。

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      賴清德專機繞路返航,4架戰機護航盡顯心虛

      賴清德專機繞路返航,4架戰機護航盡顯心虛

      音樂時光的娛樂
      2026-05-05 14:30:00
      倫敦世乒賽:8強賽對陣出爐,林詩棟3-0完成救贖,龍隊劉詩雯觀戰

      倫敦世乒賽:8強賽對陣出爐,林詩棟3-0完成救贖,龍隊劉詩雯觀戰

      晚霧空青
      2026-05-06 00:58:31
      不是文班 不是福克斯!馬刺爆冷輸球揪出水貨 33歲老將今夏恐退役

      不是文班 不是福克斯!馬刺爆冷輸球揪出水貨 33歲老將今夏恐退役

      籃球圈里的那些事
      2026-05-05 17:15:20
      五一假期結束別難過 還有45天又放假了!端午節放假通知正式出爐:6月19日-21日連放三天,不補班不調休

      五一假期結束別難過 還有45天又放假了!端午節放假通知正式出爐:6月19日-21日連放三天,不補班不調休

      每日經濟新聞
      2026-05-05 23:40:29
      美國人的歷史課本,是怎樣寫中國的?僅有20頁,記載了6個中國人

      美國人的歷史課本,是怎樣寫中國的?僅有20頁,記載了6個中國人

      抽象派大師
      2026-05-03 00:24:53
      1958年毛澤東視察濟南,酒桌上突然猛砸杯子死盯王新亭:把你隱瞞的秘密交底吧?

      1958年毛澤東視察濟南,酒桌上突然猛砸杯子死盯王新亭:把你隱瞞的秘密交底吧?

      史海孤雁
      2026-05-05 17:07:19
      突發!趙繼偉深夜11點做出重大決定,球迷:要加盟上海或北控?

      突發!趙繼偉深夜11點做出重大決定,球迷:要加盟上海或北控?

      呀古銅
      2026-05-06 06:09:06
      2001年,夫妻簽離婚協議時發現沒筆,妻子獨自上樓取筆時遇刺身亡

      2001年,夫妻簽離婚協議時發現沒筆,妻子獨自上樓取筆時遇刺身亡

      明月清風閣
      2026-05-05 21:25:06
      “新型霸凌”正在校園悄悄流行,孩子不敢說,但家長一定牢記這些

      “新型霸凌”正在校園悄悄流行,孩子不敢說,但家長一定牢記這些

      木言觀
      2026-05-05 07:09:57
      舌吻3小時、喊兒子小狼狗,狄鶯的畸形母愛終于反噬了

      舌吻3小時、喊兒子小狼狗,狄鶯的畸形母愛終于反噬了

      子芫伴你成長
      2026-05-02 22:50:39
      39歲何潔直播公布三婚,這姐還結啊,頭發都白了

      39歲何潔直播公布三婚,這姐還結啊,頭發都白了

      夢想總會變成真
      2026-05-05 21:36:52
      連沉7船!美軍動真格,真相曝光,德黑蘭權力失控,革命衛隊玩火

      連沉7船!美軍動真格,真相曝光,德黑蘭權力失控,革命衛隊玩火

      最美的巧合
      2026-05-05 16:00:24
      FIFA徹底慌了!多國集體拒高價買世界杯版權,天價泡沫徹底破裂

      FIFA徹底慌了!多國集體拒高價買世界杯版權,天價泡沫徹底破裂

      行者聊官
      2026-05-05 10:20:23
      比黃金貴3倍!1公斤賣165萬,以前農村隨手扔,看看你家有嗎

      比黃金貴3倍!1公斤賣165萬,以前農村隨手扔,看看你家有嗎

      三農雷哥
      2026-05-04 11:49:13
      百億私募暴雷,52人近1億血汗錢被套!

      百億私募暴雷,52人近1億血汗錢被套!

      三農老歷
      2026-05-05 05:42:41
      醫生發現:一旦吃上降血壓藥,這幾件事就別做了,別害了自己

      醫生發現:一旦吃上降血壓藥,這幾件事就別做了,別害了自己

      敘說醫療健康
      2026-05-06 05:00:06
      比亞迪這波降價,不只是真香,而是把一部分人直接推到了分岔路口

      比亞迪這波降價,不只是真香,而是把一部分人直接推到了分岔路口

      三農老歷
      2026-05-05 15:01:13
      球迷態度:阿森納英超領跑+歐冠進決賽,本賽季結局將如何?

      球迷態度:阿森納英超領跑+歐冠進決賽,本賽季結局將如何?

      懂球帝
      2026-05-06 05:45:10
      曾10分鐘賣500萬桶,半個娛樂圈為它帶貨!昔日網紅美食要破產了,杭州有便利店已下架

      曾10分鐘賣500萬桶,半個娛樂圈為它帶貨!昔日網紅美食要破產了,杭州有便利店已下架

      都市快報橙柿互動
      2026-05-06 00:20:04
      吳千語住進上海別墅,裝修剛完就搬了家,中產生活悄悄變了樣

      吳千語住進上海別墅,裝修剛完就搬了家,中產生活悄悄變了樣

      孤傲何妨初
      2026-05-06 04:31:12
      2026-05-06 06:56:49
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3372文章數 11146關注度
      往期回顧 全部

      科技要聞

      傳蘋果考慮讓英特爾、三星代工設備處理器

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      體育要聞

      全世界都等著看他笑話,他帶國米拿下冠軍

      娛樂要聞

      內娛真情誼!楊紫為謝娜演唱會送花籃

      財經要聞

      瀏陽煙花往事

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態度原創

      本地
      手機
      健康
      公開課
      軍事航空

      本地新聞

      用青花瓷的方式,打開西溪濕地

      手機要聞

      iPhone 20周年機型或配備固態按鈕,iPhone 18再次確認工藝降級!

      干細胞治燒燙傷面臨這些“瓶頸”

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普威脅伊朗不要向美國船開火

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产日韩精品一区二区在线观看播放 | 国产精品视频色尤物yw| 人人做人人妻人人精| 免费AV手机在线观看片| 亚洲中文字幕无码天然素人在线| www.艹| 欧美国产精品不卡在线观看| 国产在线精品综合色区| 吉林省| 亚洲国产亚综合在线区| 99精品国产在热久久无| 亚洲熟女无码在线| 免费激情网址| 本道无码一区二区久久激情| 老鸭窝laoyawo精品亚洲| 平罗县| 久久综合成人| 国产精品高清一区二区三区| 国产91chinese在线观看| 国产精品99久久免费| 久久精品国产亚洲AV果冻传媒| 亚洲成人av一区二区三区| 国产三级做爰在线播放| 久久精品视频一| 日韩一卡二卡三卡四卡五卡| 亚洲日本午夜| 五月婷婷久久中文字幕| 公车上拨开她湿润的内裤的视频| 亚洲综合色婷婷七月丁香| 国产精品成人免费精品自在线观看| 鲁丝无码一区二区三区| 热久久视久久精品2019| 亚洲色成人一区二区三区小说| 国产亚洲福利精品一区二区| 久久综合久久88中字幕文| 重口SM一区二区三区视频| 色www88| 国产一区二区三区乱码在线观看| 丁香五月天网站| 无码av永久免费专区麻豆| 少妇人妻偷人偷人精品|