<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek研究員讓AI自己研究自己!AI執筆99%,6天搞定45頁論文

      0
      分享至


      智東西
      作者 程茜
      編輯 李水青

      DeepSeek和GPT合體寫論文了!

      智東西5月27日報道,昨晚,DeepSeek資深研究員陳德里(Deli Chen)放出一篇他和Agent合寫的45頁論文,其中99%內容都是CodeAgent所寫

      論文題目是《從Copilots到同事:自主科研智能體綜述(From Copilots to Colleagues:A Survey of Autonomous Research Agents)》,作者是陳德里、DeepSeek-V4-Pro、GPT-Image2。


      陳德里還特意發了免責聲明:這篇論文絕非嚴謹學術論文、不代表任何公司或組織觀點,只是出于興趣以及順便測試下他搭建的DeliAutoResearch。


      他透露,論文共迭代6次,耗時6天搞定,而初稿僅用了76分鐘。期間智能體累計運行約108輪、消耗Token約64.8萬、LaTeX代碼共2234行,最終成品45頁,其中包含7個圖標、4個表格,文件大小538KB。陳德里也不禁感嘆,同樣的工作以前至少需要一個月才能完成,而這次他本人的“CPU運轉時長”不到2小時

      陳德里是DeepSeek-V1、V2、V3、V4、DeepSeek-R1、DeepSeek-Coder、DeepSeek-MoE架構的核心貢獻者,他曾獲得北京大學信息管理學士學位及計算機科學碩士學位,曾在騰訊擔任微信AI研究員。


      這篇論文梳理了機器學習、軟件工程、科學發現三大領域共計105篇相關文獻,陳德里稱已經對這些文獻進行了驗證。其核心目的是為能夠自主開展研究的AI智能體提供統一的分析框架,主要有四項研究成果:

      1、提出一套五級自主能力分級體系(L1–L5),層級從代碼自動補全延伸至完全自主制定研究規劃,為各類系統的界定與對比提供規范的術語標準。

      2、剖析了四大主流架構模式:單智能體循環、多智能體協作、分層調度編排、工具增強執行;同時搭建對比分析框架,評估各類架構在可擴展性、成本、穩定性及人工監管方面的優劣取舍。

      3、基于六維特征矩陣,對17款主流系統展開分析。研究結果表明,當前前沿系統普遍處于L4級別(限定領域內可完成多步驟自主執行),而L5級別仍停留在目標構想階段

      4、梳理出六大核心待解難題:認知死循環、上下文窗口限制、創新價值評估、結果可復現性、安全風險與使用成本,并針對每項難題給出具體研究方向。

      其研究分析發現,實現L5級自主能力的核心瓶頸并非模型基礎性能,而是在于長效知識沉淀、可靠的自我評估能力,以及具備理論支撐的智能體架構規模化方案三大難點。

      不少開發者紛紛在陳德里的評論區下面求開源。


      論文:https://victorchen96.github.io/auto_research_survey.pdf

      一、當前系統多為能獨立產出論文的L4級,已有系統展現出L5級特征

      論文將自主研究智能體定義為:一類軟件系統,在接收到高層級研究目標后,能夠獨立執行科學探究的迭代閉環,包括假設生成、實驗設計、執行、分析與迭代優化,且在執行流程中僅需極少、甚至完全無需人工干預。

      自主研究智能體的五級自主能力分級體系(L1–L5),是基于兩個維度:

      一是智能體可對什么內容獨立做出決策,二是智能體在無需人工審核介入的情況下,可持續自主運行多久。


      L1的典型代表是GitHub Copilot等代碼補全工具,這一層級中智能體可運行單個token或單行文本,核心能力是對人類撰寫文本后續內容的預測,且人類完全主導內容的方向、結構與正確性。

      論文中提到,從CodeX演化而來的代碼補全模型,在受控編碼任務中可實現30%-55%的效率提升,但無法獨立完成多步驟目標。

      L2的代表是帶插件的ChatGPT、支持工具調用的Claude等對話式AI助手,智能體能夠將定義清晰的任務拆解為多個步驟并執行,但每一步都需要人工的顯式或隱式審批。

      其能力包括網頁搜索、代碼執行、信息整合,全程需要人類引導對話、驗證中間結果。

      L3是代碼智能體,這之中,智能體可自主執行10-100個連續動作,僅在預設的檢查點、或遇到不確定情況時,才請求人工審核。其能自主查看代碼倉庫、編輯文件,無需人類逐步驟審批。

      L3與L2級的核心區別在于:智能體可自主做出決策,例如選擇編輯哪個文件、如何修復測試失敗,無需逐步驟獲得人工批準;人類僅保留監督權。

      L4的代表是AI Scientist系統、Devin、SWE-Agent等,可自主生成研究思路、撰寫論文、運行實驗、產出完整論文,甚至完成自動化同行評審,全流程無人工干預。

      這一層級的智能體接收到研究目標后,可獨立運行數小時至數天,包括自主從故障中恢復、迭代優化策略、最終產出完整的研究成果。人類僅需評估最終輸出結果,無需全程監督執行過程。

      L5是自主能力的最高等級,智能體不僅能執行研究任務,還能自主選擇研究問題、在多個項目間分配資源、基于過往成果持續迭代。

      其研究顯示目前尚無系統達到這一層級,可自主生成難度遞增任務學習課程的智能體Voyager,可基于過往成功程序迭代發現新數學構造的智能體FunSearch已經展現出了L5的部分特征。


      二、四大主流架構可適配不同層級系統

      論文歸納了四大主流架構模式:單智能體循環(ReAct/Reflexion)、多智能體協作(MetaGPT/AutoGen)、分層編排(Supervisor-Worker)、工具增強執行(CodeAct)。


      單智能體循環(ReAct/Reflexion):這是自主智能體中最簡單、應用最廣泛的基礎架構,由單個語言模型迭代執行“觀察環境→推理下一步動作→執行動作→吸收反饋”的閉環流程,是絕大多數L3-L4級系統的核心架構。

      盡管架構設計簡單,但它是絕大多數L3-L4級系統的核心骨架,且在推理策略上存在大量可優化、可變化的空間,適配性極強。

      多智能體協作(MetaGPT/AutoGen):多智能體系統可以將任務責任拆分給多個專業化智能體,通過智能體間的通信與協作完成目標。

      分層編排(Supervisor-Worker):隨著任務復雜度不斷提升,扁平化的多智能體通信模式會逐漸失效,分層編排引入了明確的監督管控關系:由一個高層監督者智能體負責拆解任務,將子任務分配給專業化的執行者智能體,同時監控任務進度,并在必要時介入調整。

      最后是工具增強執行(CodeAct):這是自主研究智能體的核心標志性特征,是其與外部工具、外部環境交互的能力。工具增強執行將語言模型從被動的文本生成器,轉變為計算與物理工作流中的參與者,再加上其可以外接代碼、實驗、網頁,能力上限最高。


      總的來看,L2級系統用簡單的單智能體循環即可高效運行,L3級系統采用Reflexion,可天然嵌入檢查點機制,收益最大,L4級系統通常需要分層編排架構,搭配自主迭代優化,才能在長時間自主運行中維持輸出質量,理論上的L5級系統大概率需要具備自重組能力的圖結構架構才能實現。

      三、三大結論:開閉源差距收窄,專用智能體超越通用,代碼智能體最成熟

      基于六維特征矩陣,論文對17款主流系統展開分析,六維特征包括前文提到的L1-L5自主等級、核心應用領域、架構模式、工具集成廣度、評測方法論、開源屬性。


      其得到三大結論:

      首先更聚焦某一領域的系統,能力上限更高,其中,代碼智能體在所有維度中表現最優,受益于自動化評測體系、成熟的工具環境、大規模基準測試的支撐,是當前行業最成熟的賽道。

      其次領域專用智能體全面超越通用智能體,SWE-Agent、Coscientist、FunSearch等L4級系統均通過收縮應用范圍實現了穩定輸出,AutoGPT、BabyAGI等通用智能體,始終無法在多樣化任務中實現穩定的L4級運行。

      最后,開源與閉源的差距正在收窄,開源系統OpenHands的性能表現已經非常接近Devin等閉源系統。

      在評測體系方面,論文提到了需要聚焦三大核心方向:

      多維度指標:聯合評估創新性、正確性、效率、安全性,而非單一維度的優化;長周期評測:追蹤智能體在長期科研項目中的表現,而非孤立的單次任務;社群化評估:將專家反饋循環嵌入評測流程,建立行業共識的評估標準。

      論文最后還給出了智能體系統六大核心待解難題:認知死循環、上下文窗口限制、創新價值評估、結果可復現性、安全風險與使用成本。


      其中認知死循環、原創性評測、安全問題最為關鍵,因此認知循環問題使得智能體仍無法識別自身陷入困境,只會在失敗策略上持續堅持,而非尋找全新方法;再加上其沒有可靠的自動化指標,能衡量科研成果的質量與原創性,導致智能體無法在閉環中實現自我改進;最后隨著智能體能力提升,其安全邊界與倫理風險愈發突出。

      結語:雙AI協作產出完整論文,智能體真變身科研同事了

      陳德里此次的實驗,讓智能體實現了從想法到完整論文的自主產出,其僅投入2小時人類思考時間,通過雙AI協作就產出了AI科研綜述論文,證明了AI從工具進化為“科研同事”的可行性。

      AI此次面對長周期、長流程的復雜工作,最后生成的論文邏輯清晰且沒有跑偏,展現出了超長文本處理、長流程持續執行、全程邏輯統一的核心能力。

      在科研智能體領域,陳德里不僅用有趣的實驗展現出了科研智能體的能力,還通過完整的論文分析解讀展現出當下這一領域發展的現狀及痛點,可以說是雙管齊下,或為后續智能體的研究提供了新穎的參考方向。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      神二十一號3人乘組將回家:為何選東風著陸場?返回地球后做啥?

      神二十一號3人乘組將回家:為何選東風著陸場?返回地球后做啥?

      環球科學貓
      2026-05-27 12:53:29
      塞爾維亞總統夫人在上海逛市場,下單三套西裝和一件旗袍,店主:旗袍顏色鮮艷價格1800元,加急制作預計兩天完成

      塞爾維亞總統夫人在上海逛市場,下單三套西裝和一件旗袍,店主:旗袍顏色鮮艷價格1800元,加急制作預計兩天完成

      極目新聞
      2026-05-27 16:18:43
      82條人命換來的真相:山西礦難背后,一個你不敢直視的選擇

      82條人命換來的真相:山西礦難背后,一個你不敢直視的選擇

      菁菁子衿
      2026-05-26 21:33:14
      體感高達47℃!廣州新一輪降雨降溫時間

      體感高達47℃!廣州新一輪降雨降溫時間

      廣州正嘢
      2026-05-27 15:40:40
      賈冰這一身肌肉藏得太深了....這肌肉是認真的嗎?

      賈冰這一身肌肉藏得太深了....這肌肉是認真的嗎?

      健身迷
      2026-05-27 11:21:51
      上海隊帶傷爆冷取勝,懷特塞德被注銷引燃總決賽懸念

      上海隊帶傷爆冷取勝,懷特塞德被注銷引燃總決賽懸念

      野渡舟山人
      2026-05-27 16:29:49
      看了孫銘徽賭氣甩鍋塔克的離譜操作,才知道,郭士強為什么不要他

      看了孫銘徽賭氣甩鍋塔克的離譜操作,才知道,郭士強為什么不要他

      后仰大風車
      2026-05-27 08:25:11
      華為的車,開始自己打起來了

      華為的車,開始自己打起來了

      茄小茄說事
      2026-05-25 11:41:47
      小米集團總裁盧偉冰:近八成用戶在試駕對比YU7標準版與特斯拉Model Y后驅版后,選擇了小米

      小米集團總裁盧偉冰:近八成用戶在試駕對比YU7標準版與特斯拉Model Y后驅版后,選擇了小米

      魯中晨報
      2026-05-27 14:20:18
      退休人員注意:2026年這個證件趕緊辦,關系到養老金和福利

      退休人員注意:2026年這個證件趕緊辦,關系到養老金和福利

      據說說娛樂
      2026-05-27 13:55:47
      直到李老師當場揭穿吹火替身,封子才知自己在恩師面前犯了忌

      直到李老師當場揭穿吹火替身,封子才知自己在恩師面前犯了忌

      觀察鑒娛
      2026-05-27 13:58:36
      A股:緊急提醒2.5億股民!從5月28日起,明天A股或將歷史再次重演?

      A股:緊急提醒2.5億股民!從5月28日起,明天A股或將歷史再次重演?

      趨勢清風俠
      2026-05-27 16:03:03
      山西礦難3天,荒唐的一幕發生,央媒發聲,原因太令人憤怒

      山西礦難3天,荒唐的一幕發生,央媒發聲,原因太令人憤怒

      每一次點擊
      2026-05-26 07:54:25
      從世界第4到117位,鄭欽文只用了10個月,詹俊:根源在這兩點

      從世界第4到117位,鄭欽文只用了10個月,詹俊:根源在這兩點

      酷侃體壇
      2026-05-26 18:11:48
      雷軍為什么不送武契奇一輛車?23萬的報價里,藏著小米的千億野心

      雷軍為什么不送武契奇一輛車?23萬的報價里,藏著小米的千億野心

      白露文娛志
      2026-05-27 11:02:37
      反常!全國唯一GDP負增長的萬億城市,人口暴漲

      反常!全國唯一GDP負增長的萬億城市,人口暴漲

      前瞻網
      2026-05-27 14:31:41
      韓國股市漲到熔斷,A股跌到懷疑人生

      韓國股市漲到熔斷,A股跌到懷疑人生

      東方豪俠
      2026-05-27 15:43:54
      中國“進口SUV”月冠軍:卡宴第6,攬勝第5,第一名月銷超2000臺

      中國“進口SUV”月冠軍:卡宴第6,攬勝第5,第一名月銷超2000臺

      柳先說
      2026-05-26 20:03:00
      孫興慜:以為韓國比賽會在美國所以來了美職聯;沒想到三場都在墨西哥

      孫興慜:以為韓國比賽會在美國所以來了美職聯;沒想到三場都在墨西哥

      懂球帝
      2026-05-27 12:00:10
      廣東小伙月入2500舍不得辭職,曬8元工作餐,網友:換我也不辭

      廣東小伙月入2500舍不得辭職,曬8元工作餐,網友:換我也不辭

      一口娛樂
      2026-05-27 11:07:28
      2026-05-27 18:03:00
      智東西 incentive-icons
      智東西
      智東西,AI產業新媒體,專注報道人工智能的前沿技術發展,和技術應用帶來的千行百業產業變革。
      11907文章數 117085關注度
      往期回顧 全部

      科技要聞

      韜定律:全球在卷納米數 華為換了一把尺子

      頭條要聞

      男子婚內打賞女主播超1700萬 兩人首次見面就確定關系

      頭條要聞

      男子婚內打賞女主播超1700萬 兩人首次見面就確定關系

      體育要聞

      這群老阿姨,是最硬核的馬刺球迷

      娛樂要聞

      王鶴棣風波連累父親炸串店遭差評?

      財經要聞

      ST巖石退市背后:A股“炒殼”時代終結

      汽車要聞

      極狐問道V9正式上市 限時19.48萬元起

      態度原創

      房產
      時尚
      數碼
      教育
      軍事航空

      房產要聞

      地產投資又跌30%!連跌15月!海南房子將越來越少?

      夏天沒必要買太多衣服,準備一兩條黑色短裙,輕盈舒適又減齡

      數碼要聞

      TCL電視618大促開啟,爆款T7M Pro高居熱賣榜首

      教育要聞

      536分撿漏上北大考生現狀堪憂:碩士畢業后很迷茫,不知何去何從

      軍事要聞

      以軍稱已打死哈馬斯新任軍事領導人

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲天堂精品在线| a12免费视频日韩一区| 亚洲国产第一站精品蜜芽| 久久se精品一区二区| 亚洲色婷婷一区二区三区| 亚洲一区二区三区激情视频| 又嫩又硬又黄又爽的视频| 日韩一区日韩二区日韩三区| 久久精品久久久久观看99水蜜桃| 东北老头嫖妓猛对白精彩| 中文字幕精品无码一区二区三区| 精品人妻蜜臀一区二区三区| 国产AV一区二区三区| 中文字幕一区二区不卡视频| 日韩少妇无码一区二区免费视频| 久久av高潮av喷水av无码| 国产精品美女久久久久久| 日日插中文字幕| 亚洲精品网站在线观看你懂的| 最新亚洲国产手机在线| 麻花传媒在线观看免费| 国产精品久久久亚洲| 无码中文字幕色专区| 合江县| 国内精品久久久久影院优| 欧美人妻精品| 中文字寞人妻中出| 午夜成人亚洲理伦片在线观看| 福利一区二区在线播放| 洋洋AV| 亚洲国产日韩欧美一区二区三区 | 色一情一狱一爱一乱| 好深好湿好硬顶到了好爽| 国产成人77亚洲精品www| 国产精品免费福利久久| 国产成人精品久久| 久久婷婷色| 麻豆av色| 国产一区二区三区在线影院 | 在线日韩AV| 殴美性爱|