<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      首篇自進化智能體系統技術報告出爐:Token成本直降近10倍,省錢又高效!

      0
      分享至


      來源:機器之心

      當 AI 智能體不再只是「一次性工具」,而是能夠持續學習、自我進化的「數字伙伴『數字同事』,會發生什么?自進化智能體應該采取怎樣的設計原則?

      全球首個基于「上下文信息密度最大化」設計原則的自進化智能體系統 ——GenericAgent(GA),正式發布其技術報告。

      報告顯示,GA 能在保持任務準確率前提下,比同類競爭對手節省近 10 倍 Token。報告深度解讀了 GA 的核心設計理念,介紹了自進化智能體的評測基準,并給出了評測數據,全面剖析 GA 的自進化能力以及智能體設計的可靠思路!

      整個報告長達 47 頁,今天大家可以一睹為快!


      • Github 實時更新版本鏈接:https://github.com/lsdefine/GenericAgent/blob/main/assets/GenericAgent_Technical_Report.pdf

      • arxiv 版本鏈接:https://arxiv.org/abs/2604.17091

      GA 是什么?

      GenericAgent(GA)是復旦大學知識工場實驗室旗下 A3 實驗室(Advantage AI Agent 實驗室,與深圳夸夸菁領科技有限公司合作)構建的一個通用型、自進化 LLM 智能體系統。

      GA 是下一代自組織、自學習、自進化的通用智能體的代表之一,是一個擁有「生命感」,能夠在用戶使用調教下快速學習與成長的數字生命。GA 技術的商業應用版是 DinTal Claw,旨在將這一自進化架構深度應用于政企場景,打造低成本、高效率、安全可控的「數智員工」實戰標桿。

      GA 自 2026 年 1 月 11 日開源以來,一度在 github trending python 編程語言登頂第一。力壓OpenAI、Google 等頭部AI企業的開源系統。



      先上結論:GA 強在哪?

      • 任務完成率更高:在多個基準測試中,GA 實現 100% 準確率,全面領先主流智能體系統;

      • Token 消耗更低:相同任務下,Token 消耗僅為主流智能體系統的 15%-35%,省錢又高效;

      • 越用越聰明:重復執行相同任務時,Token 消耗可降低高達 89.6%,真正實現「經驗復用」;

      • 網頁瀏覽更強:在復雜多跳搜索任務中,準確率是基線系統的 3 倍,同時消耗更少資源。


      GenericAgent 整體架構圖

      為什么你需要關注 GA?

      最近,從 Claude Code、OpenAI Codex 到 Openclaw,AI 正在從被動的文本生成器,轉變為能夠主動操作終端、文件系統、瀏覽器的「目標導向型代理」。但是,一個直接的問題擺在用戶面前:「他們真的好用嗎?」

      • 智能體「記性差」,聊著聊著就忘了

      傳統智能體隨著交互增多,上下文越來越長,即「上下文爆炸」。關鍵信息反而被淹沒。結果就是:步驟越多,出錯率越高。

      • 每次任務都從零開始,經驗無法積累

      今天總結的經驗,明天換個會話就沒了。智能體一直在「重復造輪子」。Token 消耗隨任務數量線性增長,但有效能力卻保持停滯,形成一個沒有累積交互回報的「停滯循環」。

      核心洞見:信息密度才是關鍵

      面對這些問題,研究團隊提出了一個重磅觀點:

      長周期性能的決定因素,不是上下文長度,而是在有限的上下文預算內能夠維持多少與決策相關的信息。

      換句話說,上下文信息密度才是核心。通過最大化上下文信息密度可以保證:決策信息不遺漏、冗余信息被消除、上下文可讀性高(次要但重要)。

      GenericAgent:四大機制打造自進化智能體

      基于「上下文信息密度最大化」這一核心原則,GA 通過四個緊密關聯的組件實現了 Agent:

      機制一:最小原子工具集

      工具最小化不是限制,而是 GA 在減少交互開銷的同時保持通用能力的核心機制。

      GA 只保留了 9 個原子工具,分為五類能力:文件操作、代碼執行、網頁交互、記憶管理、人在回路。并且,這幾個原子工具能夠通過組合泛化,造出新的工具來解決復雜任務。

      有趣的是,僅「code_run」這一個工具在理論上就是圖靈完備的,可以復制所有其他工具的功能。那為什么還要保留其他 8 個工具?答案是:最小原子工具集可以降低任務的決策成本。


      上表為長程復雜任務結果。五項任務涵蓋文檔生成(PDF/PPT 創建)、SQL 協作查詢生成、實驗分析報告撰寫、結合網絡檢索的采購決策,以及研究論文復現可行性分析,本表報告的是長程任務集上的平均結果。

      機制二:分層按需記憶

      記憶的核心是按需存取。GA 的關鍵設計是默認僅注入元記憶和 L1 索引層,遵循 L1→L2/L3 路由鏈,僅在需要時檢索更深層的事實或程序知識。這樣,記憶不會穩步擠占當前任務所需的活躍上下文預算。

      GA 將記憶組織為四層架構

      • L1 索引層:緊湊指針,包括高頻入口點、關鍵詞映射和少量硬約束;

      • L2 事實層:經過驗證且穩定的事實信息,長期有效;

      • L3 SOP 層:可復用的程序性知識,包括任務工作流、前置條件、關鍵執行步驟、常見失敗案例及相應調試 / 恢復策略;

      • L4 原始會話存檔層:歷史執行會話,用于持久化和可追溯性。

      更巧妙的是,隨著 L2 和 L3 增長,L1 保持有界。每個 L1 條目僅記錄知識類別的「存在性」—— 而非其內容。

      這種極端壓縮之所以可行,是因為 LLM 本身充當解碼器:一旦它識別出相關能力或事實存在,就可以通過工具調用從更深層檢索完整內容。


      上表為 GA 等在 LoCoMo 上的長期事實記憶評估。GA 基于自身優越的記憶架構設計,確保了記憶的高效召回。

      機制三:自進化機制

      GA 將自進化是一個顯式且可檢查的流程。

      什么在進化?解決任務的 策略,而非原子工具。工具接口和用戶交互是任務無關的,在運行時保持不變。相反,所有任務特定能力都編碼在 SOP 文件和可復用腳本中。

      知識如何積累? 通過分層記憶,GA 確保在一個會話中獲得的知識在后續會話中立即可用。

      進化的質量如何控制? GA 在低記憶層級(L4)保留原始行動軌跡,但不允許它們直接向上傳播。L3 的可復用程序僅通過顯式整合步驟創建,在子目標完成或成功從失敗中恢復等有意義的時間點觸發。


      在相同任務五次重復運行中,只有 GenericAgent 隨著任務經驗的積累不斷提升工作效率。

      機制四:上下文截斷與壓縮

      GA 聚焦于壓縮而非擴展 —— 將更高密度的信息打包到更小的窗口中,優于將稀釋的內容輸入更大的窗口。

      GA 使用四種不同粒度的上下文修剪機制:

      1. 工具輸出截斷:控制單個消息的大小;

      2. 標簽級壓縮:從舊消息中移除低價值片段;

      3. 消息驅逐:當整體預算超出時移除最舊內容;

      4. 工作記憶錨點提示詞:確保任務關鍵信息在驅逐后保持可見。

      這四種機制協同工作,確保活躍上下文不隨交互輪數線性增長。


      在安裝 20 個技能并經過高強度使用后,只有 GA 有效防止了上下文膨脹。

      評估結果:效率與性能的雙重勝利

      研究團隊在多個基準測試上對 GA 進行了全面評估。

      核心結論:性能更強,成本更低

      先來看最硬核的評測結果。在 SOP-bench、Lifelong AgentBench 和 RealFinBench 三大基準測試中,GA 的表現堪稱驚艷。

      在 SOP-bench 和 Lifelong AgentBench 上,GA 以 100% 的準確率全面領先;在更貼近真實場景的 RealFinBench 上,GA 以 65% 的準確率登頂行業第一。

      同等任務下,GA 的 Token 消耗僅為其它主流智能體系統的 15% 到 35%,真正做到了「花小錢辦大事」。


      任務完成率與 Token 效率對比圖

      越用越聰明:重復執行效率躍遷

      GA 自進化能力保證了它的高效。

      當其他系統在重復執行同類任務時,耗時和 Token 消耗基本是一條直線,只有 GA 越用越好用。5 次重復運行后,運行時間從 102 秒降至 66 秒,Token 消耗從 20 萬直接腰斬至 10 萬。

      這不是簡單的緩存復用,而是GA 把第一次試錯的經驗,自動提煉成了可復用的標準操作流程,讓后續任務真正實現了「站在肩膀上出發」。


      重復運行效率提升曲線圖

      這種進化能力還能跨任務泛化。在 8 個不同網頁任務的重復測試中,GA 后續執行的 Token 消耗平均下降 79.3%,最高單任務節省達 92.4%。任務越復雜、依賴鏈條越長,節省效果越顯著。

      相比之下,主流智能體系統在多次運行中數據波動不定,仍在重復探索,而GA 展現出清晰的「冷啟動→快速收斂」模式,真正學會了如何學習。


      跨任務 Token 收斂對比圖

      長期進化:從「學徒」到「專家」的蛻變

      長期進化的性能更高。第一輪執行時,GA 需要 7 分 30 秒、調用 32 次大模型、消耗 22.2 萬 Token;而到了第九輪,僅需 1 分 38 秒、5 次調用、2.3 萬 Token 即可完成同等任務,Token 消耗減少 89.6%,調用次數減少 84.4%。

      這種從探索到執行、從文本 SOP 到可執行代碼的進化,不是人工干預的結果,而是系統自主完成的。


      九輪進化軌跡數據圖

      網頁瀏覽:在混亂中保持清醒

      網頁是智能體的「終極考場」,一個網頁的訪問動輒為 Agent 引入上百萬 token 開銷,而 GA 在這里同樣表現出色。

      在最具挑戰的 BrowseComp-ZH 多跳推理任務中,GA 準確率達到 0.60,是主流智能體系統 0.20 的整整 3 倍,同時 Token 消耗僅為其三分之一;在真實網頁任務中,GA 以 0.26M Token 獲得 0.577 分,主流智能體系統消耗 0.76M Token 僅得 0.50 分。

      面對海量 HTML 噪聲和動態 DOM 元素,GA 的上下文壓縮與分層記憶機制展現出壓倒性優勢,真正做到「在復雜環境中不迷路」。


      網頁瀏覽性能對比圖

      關鍵發現:重新思考智能體設計

      從 GenericAgent 的開發中,研究團隊提煉出五個關鍵發現,這些發現對 LLM 智能體系統的設計具有廣泛相關性。

      發現一:上下文信息密度是結構性約束

      上下文信息密度不是「可選」的優化目標,而是每個智能體系統必須通過設計面對的結構性約束。只要智能體使用 LLM 作為其推理引擎,每個決策步驟的質量最終在單次前向傳播內確定,無論工具、記憶容量或工作流復雜度如何,都無法規避此約束。

      發現二:存在智能體系統的最小完備能力集

      在信息密度的結構性約束下,智能體只需實現三種能力。任何不服務于這三種能力之一的設計都在引入額外復雜度,從而降低信息密度。

      1. 工具接口:智能體與外部世界交互的唯一通道;

      2. 上下文管理:對應于語言模型的輸入,任務狀態、中間結果、工具輸出和所有其他內容在進入上下文前必須主動過濾;

      3. 記憶形成:對應于跨任務知識積累,如果不將交互中驗證的內容保留為可復用記憶,每個任務都從頭開始。

      發現三:更低 Token 消耗對應更好任務性能

      這一發現違反直覺,因為普遍假設是更長的推理鏈和更多交互輪次反映更徹底的深思熟慮,因此應產生更好結果。然而,實驗結果在長周期智能體執行設置中系統地指向相反結論。

      在 Lifelong AgentBench 上,GA 僅消耗 Claude Code 輸入 Token 的 27.7% 和 OpenClaw 的 15.5%,同時實現更高的 100% 任務完成率。

      超過某個點后,額外 Token 不會引入更多有用信息,反而通過位置偏差、注意力稀釋和有效窗口收縮降低推理質量。消耗更多 Token 的智能體更是上下文管理的系統性失效導致的,通過額外交互補償每步決策質量的退化,而非改進它。

      發現四:權限定義智能體能力的上限

      智能體能接觸多少環境,就能獲得多少智能。

      智能體能感知什么、能作用于什么、能從什么反饋中學習,直接決定它能發展的推理鏈復雜度和能解決的任務難度。一個小規模沙箱中的 agent,不論他多么安全,他的智能水平是極其有限的。在智能體探索階段鎖定行動邊界,等同于在系統設計階段預先封頂其能力上限。縮小探索邊界不是構建有用智能體的路徑,其終點是一個安全但無用的系統。

      發現五:最小架構是智能體自主進化的必要前提

      開發團隊提出一個新的、更長遠意義的「自進化」三個維度:

      1. 技能整合

      2. 自主探索

      3. 架構自更新

      因此,當架構足夠精簡時,Agent 可以審視和修改自身,最終實現 Agent 的自進化。一個擁有數十萬行代碼的系統對智能體是不透明的 —— 它既無法理解也無法修改。相比之下,幾千行的核心代碼庫是可讀、可理解、可修改的。在 GA 的最小架構中,作為原生執行面的自托管 CLI 自然使子智能體能夠讀取和修改核心代碼庫,使架構自更新成為實際的、可實現的。

      結語:智能體的可靠方向

      GenericAgent 的技術報告拆解出了一套全新的智能體架構設計框架,它揭示了大量現有 Agent 的設計是盲目的。GenericAgent 僅用 3000 多行核心代碼實現的能力,充分展示了智能體未來發展的無限前景。

      GenericAgent 自 2026 年 1 月 11 日起已經開源,目前在 Github 已獲超過 5.2K+ Star,進入 Github 趨勢榜。歡迎大家一起見證智能體的進化時刻!

      • 開源鏈接:https://github.com/lsdefine/GenericAgent

      • GA 小白使用指南(圖文版本): https://my.feishu.cn/wiki/CGrDw0T76iNFuskmwxdcWrpinPb

      • GA 官方教程:https://github.com/datawhalechina/hello-generic-agent

      敬請關注 GenericAgent 的商業落地版本,更智能、更省錢、更安全、更穩定的 Dintal Claw 的最新動態!

      閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”


      未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

      截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

      (加入未來知識庫,全部資料免費閱讀和下載)

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      伊朗副外長通報向美方提交的方案

      伊朗副外長通報向美方提交的方案

      每日經濟新聞
      2026-05-19 17:08:54
      番禺萬博堵成一鍋粥,這次不怪電動車亂竄,全賴大型地下商城爛尾

      番禺萬博堵成一鍋粥,這次不怪電動車亂竄,全賴大型地下商城爛尾

      西莫的藝術宮殿
      2026-05-19 16:33:56
      上海交大調查541名糖尿病人士,吃驚發現:患糖尿病的人,有7共性

      上海交大調查541名糖尿病人士,吃驚發現:患糖尿病的人,有7共性

      寶哥精彩賽事
      2026-05-19 13:11:28
      河南一家三口被滅門慘案再起風波,沒想到結局竟然是這樣……

      河南一家三口被滅門慘案再起風波,沒想到結局竟然是這樣……

      脆皮先生
      2026-03-24 19:58:30
      就她了!神舟二十三號三人組預測,港產女載荷專家首秀將打破紀錄

      就她了!神舟二十三號三人組預測,港產女載荷專家首秀將打破紀錄

      Thurman在昆明
      2026-05-19 18:52:09
      普京第25次訪華,排場不比特朗普差,關鍵時刻,美國送上考驗

      普京第25次訪華,排場不比特朗普差,關鍵時刻,美國送上考驗

      夢亦沐歌
      2026-05-19 19:28:18
      她說我做的飯菜比不上外頭賣的,寧愿高價買涼菜,婆婆心里堵得慌

      她說我做的飯菜比不上外頭賣的,寧愿高價買涼菜,婆婆心里堵得慌

      搗蛋窩
      2026-05-19 20:57:27
      能活到85歲的老人,多數在50歲時,就已經不再做這些事了

      能活到85歲的老人,多數在50歲時,就已經不再做這些事了

      烙任情感
      2026-05-18 20:15:31
      彈劾失敗,50萬人大罷工!小馬科斯為何突然對華示好?

      彈劾失敗,50萬人大罷工!小馬科斯為何突然對華示好?

      愛史紀
      2026-05-19 00:00:04
      張本美和不再沉默!終于說出日乒不愿承認的事實,難怪馬琳有底氣

      張本美和不再沉默!終于說出日乒不愿承認的事實,難怪馬琳有底氣

      似水流年忘我
      2026-05-13 05:32:27
      哈珀:文班亞馬絕平Logo三分一出手,我就知道要進了

      哈珀:文班亞馬絕平Logo三分一出手,我就知道要進了

      懂球帝
      2026-05-19 14:48:22
      官方明確!南昌這23棟危房原拆原建!

      官方明確!南昌這23棟危房原拆原建!

      南昌樓市情報
      2026-05-19 18:54:24
      U17國足VS澳大利亞:4231出擊 海歸新星坐鎮萬頃領銜 趙松源沖鋒

      U17國足VS澳大利亞:4231出擊 海歸新星坐鎮萬頃領銜 趙松源沖鋒

      零度眼看球
      2026-05-19 08:49:58
      耿同學靠公開論文揪出造假者后,我擔心的事還是發生了:高校官網開始“隱身”

      耿同學靠公開論文揪出造假者后,我擔心的事還是發生了:高校官網開始“隱身”

      教育放大鏡
      2026-05-18 22:54:09
      夫妻殺人后潛逃20年,各自另組家庭,妻子成公司高管丈夫成大老板

      夫妻殺人后潛逃20年,各自另組家庭,妻子成公司高管丈夫成大老板

      就一點
      2026-05-19 11:34:38
      20多年前《傻兒司令》那個只演了一部戲的幼兒園老師,成了多少川渝男人的白月光

      20多年前《傻兒司令》那個只演了一部戲的幼兒園老師,成了多少川渝男人的白月光

      阿廢冷眼觀察所
      2026-05-18 14:13:14
      4月經濟數據出來了:中國經濟真正的變化,已經藏不住了

      4月經濟數據出來了:中國經濟真正的變化,已經藏不住了

      深藍夜讀
      2026-05-19 09:35:15
      醫生發現:早期腦梗不是眼模糊,而是頻繁出現6個異常,要注意!

      醫生發現:早期腦梗不是眼模糊,而是頻繁出現6個異常,要注意!

      華庭講美食
      2026-05-19 12:53:04
      受湖南地區暴雨影響,滬昆鐵路部分列車停運或折返

      受湖南地區暴雨影響,滬昆鐵路部分列車停運或折返

      界面新聞
      2026-05-19 16:16:08
      蕁麻,不要讀xún má,丟不起那個人!

      蕁麻,不要讀xún má,丟不起那個人!

      未央看點
      2026-05-19 08:54:23
      2026-05-19 21:39:00
      人工智能學家 incentive-icons
      人工智能學家
      人工智能領域權威媒體
      4745文章數 37464關注度
      往期回顧 全部

      科技要聞

      馬斯克敗訴,法院判他起訴OpenAI太晚了

      頭條要聞

      男子花20多萬買到洗白"試驗車" 結果被強制注銷成廢鐵

      頭條要聞

      男子花20多萬買到洗白"試驗車" 結果被強制注銷成廢鐵

      體育要聞

      文班亞馬:沒拿到MVP,就證明自己是MVP

      娛樂要聞

      姚晨刪博難平眾怒,為什么她還能蹦噠

      財經要聞

      從賣流量到賣Token,運營商算力生意破局

      汽車要聞

      煥新極氪009上市41.38萬起 齊家版讓MPV回歸家庭

      態度原創

      手機
      房產
      家居
      教育
      公開課

      手機要聞

      消息稱蘋果iPhone Fold和競品闊折疊將采用“無痕鉸鏈”方案

      房產要聞

      7516元/㎡,161套一次全甩!海口住宅最低價出現了!

      家居要聞

      觀山隱秀 心靈沉淀

      教育要聞

      綿陽三臺發布2026年義務教育招生公告(附劃片范圍)

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 黄色大片一区二区中文字幕| WWW.97| 精品久久久久久| 亚洲日韩欧美在线播放| 无码四区| 久久av无码精品人妻系列果冻传媒 | 麻豆视频在线观看免费网站| 一片内射视频在线观看| 殴美国产中文字幕视频在线观看| 国产黄色一区二区三区四区 | 韩国一区二区三区| 国产日本一区二区在线| 免费看久久妇女高潮a| 日韩高清亚洲日韩精品一区二区| 亚洲国产成人久久精品99| 91牛| 欧美人与动zozo在线播放| 内射干少妇亚洲69XXX| 中文无码热在线视频| 亚洲国产精品久久久久久网站| 无码内射中文字幕岛国片| 欧美超大胆裸体xx视频| 92国产福利午夜757小视频| 婷婷丁香五月激情综合| 亚洲精品乱码| 亚洲精品无人区一区二区三区| 国产精品青草久久福利不卡| 亚洲综合久久成人av| 国语自产精品视频在线看| 国产av无码专区亚洲草草| 9久久精品| 精品人妻无码一区二区三区性| 超级碰免费视频91| 综合精品天天夜夜久久| 日韩高清在线中文字带字幕 | av天堂中文字幕| 国产人妻人伦精品一区二区| 成人www在线成人www在线成人www在线成人www | 亚洲天堂网一区| 国产人妻精品久久久久久| a∨无码天堂av|