![]()
過去兩年 Agent 研究更像一場工程競賽 —— 誰的推理鏈更長、誰的工具箱更大、誰的 workflow 更復雜。但 Agent 的下半場不再是拼花活,而是把它變成一門科學 :不僅問「它 work 不 work?」,更要問「它為什么work」,以及什么時候才應該這么做?」
這篇文章作者團隊想聊聊在ICML 2026 提出的Theory of Agent (ToA)—— 以及它如何解釋當下最前沿的長上下文、推理模型、工具使用 、自進化智能體背后那根共同的主線。
關于這項工作
Theory of Agent (ToA) 是由愛丁堡大學聯合普林斯頓大學、UIUC、西北大學、香港中文大學共同提出的智能體統一理論,已被 ICML 2026 以 Position Paper 的形式接收。
![]()
- 項目地址: https://hrwise-nlp.github.io/assets/websites/theory-of-agent/
- 論文鏈接: https://arxiv.org/abs/2506.00886.pdf
作者團隊覆蓋了當前 Agent / LLM 研究的多條主線 —— 從 ReAct 式推理與工具使用,到 RL 對齊、世界模型、科學發現智能體 —— 這份工作也正是這些主線匯聚后的一次嘗試:把 Agent 從一套工程技巧,變成一門可以被推理、被證偽、被累積的科學。
一個你肯定見過的場景:兩份同樣滿分的試卷
想象同一套試卷發到兩個學生手里。
- 同學 A 走的是閉卷考試模式。整套題他靠自己:回憶知識點、做推理、驗算,必要時在腦子里重新組織一遍 —— 他把考試當成鍛煉基礎和思維的機會;
- 同學 B 走的是開卷考試模式。每一道題他都上網查、問 ChatGPT、翻參考答案,直接抄過來就交。
兩份卷子批改下來,都是 100 分。老師如果只看分數,這兩個人是一樣的。但只要你當過老師,或者自己讀過書,你就知道這兩個人一學期之后的差距會非常大:
- 同學 A :哪怕中間做錯過、繞彎過,每做一題,他那根叫「解題直覺」的東西都在被加粗一次。期末的時候,同樣一道題他能更快、更穩地做對,而且能舉一反三。
- 同學 B :他也做了一學期題,但他腦子里的知識存量沒有任何變化。到了必須閉卷的那一次考試 —— 或者任何一次沒有 ChatGPT 可用的場合 —— 他會突然發現自己什么都不會。
兩份滿分,兩條命運完全相反的成長曲線。
先澄清一個常見誤解: 這個故事里絕不是說「同學 A 不會用搜索引擎」或者「用工具是壞事」。恰恰相反 —— A 也可以、也應該在需要的時候用工具 (考試是比喻,真實世界里的 Agent 當然會遇到靠自己無論如何答不出來的題,這時候必須調用外部信息)。
真正的關鍵是:能靠自己答對的題,就不必為了省事而默認抄答案。工具該在「靠自己不夠」的時候上場,而不是在「根本還沒試過」的時候就被默認觸發。至于「什么叫靠自己不夠」「什么叫真正必需」, 正是后面要花篇幅講清楚的事 —— 作者會把它精確成一個叫知識邊界(knowledge boundary) 的東西。>
換到 Agent 身上,這兩類行為完全平行:
![]()
圖 1. 同樣正確的答案,背后可能是兩種截然不同的資源分配。Agent A 什么都默認靠外部工具,內部推理能力被繞開、無法鞏固;Agent B 在內部能解決時就內部解決 —— 但并不排斥在真正需要時使用工具 —— 推理能力在練習中被強化。
這不是一個設計問題。這是一個定義問題:什么叫一個「好」Agent? 如果「好」只意味著「答對」, 那開卷同學和閉卷同學沒區別。但如果「好」還意味著「越做越聰明」,我們想要的顯然是后者。而這恰恰是目前絕大多數 Agent 訓練范式看不見的東西。
當下智能體的四種失敗模式,其實是同一個病
過去兩年,Agent 系統暴露出了許多彼此看似無關的問題。有些模型在還沒真正理解任務時就急于行動,不斷切換思路;有些則在簡單問題上陷入冗長推理,甚至為「2+3 等于幾」生成十幾條重復 reasoning path。另一類問題則發生在與外部世界的交互上:模型要么遲遲不愿調用本該使用的工具,要么把原本幾步就能完成的操作拆成漫長而重復的軌跡。
這些現象通常被分別歸類為 reasoning、planning 或 tool-use 的問題,因此業界也習慣于逐個修補:過度推理就增加長度懲罰,工具濫用就約束 action budget,行動不足就強化工具調用能力。
但如果把這些現象放在同一個視角下,會發現它們其實共享著同一個更底層的結構:Agent 始終在面對一個持續存在的決策 —— 下一步究竟應該繼續依賴內部思考,還是轉向外部世界獲取信息。
不同的失敗模式,本質上只是這個決策在不同方向上的失衡。答早了是 underthinking,答晚了是 overthinking,問少了是 underacting,問多了是 overacting。不是四個獨立的問題,而是同一個病 —— 在不確定性下的決策錯配 —— 以四個方向表現出來。
下半場的工作,不是繼續打補丁,而是治這個病。
換一個視角:推理和行動,是一體兩面
如果順著這個問題繼續往下推,一個更自然的觀察會出現:所謂「推理」和「行動」,未必是兩種本質不同的階段。對于 Agent 來說,它們更像是在不同位置獲取信息的兩種方式。鏈式思考、反思和任務分解,本質上是在重新組織模型已經擁有的信息;而搜索、API 調用、代碼執行等行為,則是在向外部世界索取模型當前并不具備的信息。
推理和行動,是兩種用來降低同一種不確定性 (epistemic uncertainty, 認知不確定性) 的工具。它們的差別只在于信息來源。
- 內部認知工具 (鏈式思考、反思、分解):把 Agent已經有的信息重新組織一遍;
- 外部物理工具(搜索、API、UI 操作、執行代碼):注入 Agent 沒有的信息。
兩者都在降低不確定性,只不過一個發生在內部,一個發生在外部,這樣智能體的行為軌跡就變成了:
![]()
![]()
![]()
![]()
![]()
圖 2. 左:傳統 ReAct 把推理和行動混在一起當做兩個階段。右:ToA 把 Agent 看成一個統一的策略,它在兩類工具里做選擇 —— 內部認知工具查的是「自己這個世界模型」, 外部物理工具查的是「真實世界」。
眼下,哪種工具能最快降低我對這個任務的不確定性
這也是為什么長上下文、RAG、工具使用、agentic RL 其實都在指向同一件事,沿著「內部還是外部」這一根軸的不同分配。
每個 Agent 都有自己的「會做題」范圍
一旦推理和行動平起平坐,研究的核心對象就不再是「策略」, 而是:這個 Agent 靠自己能解決的任務,和需要外部幫助才能解決的任務,邊界在哪里?
ToA 把這件事精確化了:
![]()
![]()
圖 3. 左:一個 Agent 的「知識邊界」把它能內部解決的任務和剩下的世界任務隔開。中:多個 Agent 都能內部解決的部分 ——「最小任務集」。右:這群 Agent 中任意一個能內部解決的并集 ——「最大任務集」。
![]()
![]()
最核心的一條:腦力勞動的「總量守恒」
![]()
![]()
而這個總和和策略無關。我們可以把努力從內部挪到外部,也可以反過來,但總量是定的。類似于我們剛開始舉的那個例子,學生 A 和學生 B 就是在使用不同的分配策略去解決同一套試卷。
從這個角度再看工具使用,會發現一個容易被忽略的事實:外部工具并不會真正消除任務本身的信息負擔。它們只是把原本需要由模型內部完成的認知過程,轉移到了外部系統上。一個復雜問題之所以變得「容易」,很多時候不是因為問題本身被簡化了,而是因為求解過程被重新分配了。
用生活比喻:你要做一道紅燒肉。
- 我們可以全靠自己的手藝:選肉、焯水、糖色、火候一手拿捏。這是內部努力拉滿。
- 我們也可以點一份半成品,回家熱一下,或者直接點外賣。這是外部努力拉滿。
- 我們還可以用預制菜 + 自己燉十分鐘,平衡一下。
![]()
Agent 行為的幾何:不同點的含義以及最優行為
既然「認知努力」是一個在兩個維度間分配的固定預算,那 Agent 的行為就活在一個二維平面上,如下圖所示。
![]()
圖 4. 橫軸是內部推理投入,縱軸是外部行動投入。斜線是最小努力前沿 βE_{int}+E_{ext}=E^*。左:任務在內部可解,兩種努力可以自由互換;右:任務超出內部能力,外部努力存在一個不可削減的底線。*
圖上標了三個關鍵點:
![]()
點 A 的「萬能性」恰恰是它的危險。一旦有一個足夠能干的外部 Agent 可調用,A 不管任務在邊界的哪一側都能走通。這就是為什么只獎勵正確性的訓練會自然漂移到左上方的 A 點附近—— 它是通往獎勵最省心、最低風險的路徑。
用實習生的例子類比:小 A 永遠都能「對」。老板只要看答案,他沒錯。但一年下來,他沒有學會任何一道題的內在邏輯 —— 因為他沒有給自己「嘗試用大腦」的機會。點 A 就是那個「永遠搜一下就行」的坑。
等等,那 AC 和 AB 之間呢?
這是一個微妙但非常重要的點。A、B、C不是僅有的三個「正確答案」。
![]()
那它們之間有什么區別?——區別不是「優不優」, 而是「偏好不同」。
對內部可解的任務 (線段AC), 內外努力可以自由置換:
- 延遲敏感的部署,也許更偏A(一次外部調用快、干脆);
- 安全敏感、或外部調用很貴的部署,更偏C(不要輕易觸發現實世界的動作);
- 成本中性的部署,選個中間點就好。
對外部必需的任務 (線段AB), 外部努力的底線不能砍,但在這條底線之上,同樣存在一個偏好譜:
- A= 少想、多調;
- B= 先把腦子用盡,只調用那個最低限度必需的外部工具。
換句話說,前沿是一整條帕累托最優曲線,A、B、C 只是三個代表性的端點。不同的業務場景 —— 安全、延遲、成本、合規 —— 沿著這條曲線選擇不同的位置,都是對的。
那條斜線的斜率 β,到底在說什么?
![]()
![]()
β 的大小決定了那條斜線的傾角, 也就決定了「帕累托最優前沿」的形狀:
- β 很大(想很貴、調便宜):斜線陡,最優點整體偏向多調外部。直覺:既然我這顆大腦昂貴又慢,那能外包就外包。這解釋了為什么「小模型 + 強工具鏈」往往是理性選擇 —— 對一個 Llama-3-8B, 讓它自己寫一堆 CoT 不如直接 RAG 出來給它看。
- β 很小(調很貴、想便宜):斜線緩,最優點整體偏向多靠內部。直覺:每次觸碰現實世界都要花錢 / 承擔風險,那就能在腦子里解決的就別動手。這解釋了為什么推理模型 (o1/R1 那一代)把賭注押在「內部 scaling」上 —— 在它們的成本結構下,多推幾步比調一次工具便宜得多。
這就把 ToA 和資源有限理性(resource-bounded rationality) 接上了:沒有放之四海皆準的「最佳 Agent 行為」,只有「在當前 β 下最佳的行為」。一條產線上的 Agent 換個部署環境, β 變了,最優的分配策略就應該跟著變。所以 ToA 的「對齊」不是「讓 Agent 學會一種固定姿勢」, 而是讓 Agent 學會識別 β , 并沿著 β 對應的那條前沿去分配努力。
那 ToA 反對的是什么?是 Agent「稀里糊涂地漂到 A」—— 不是因為 β 讓 A 是最優解,而是因為只獎勵正確性的訓練讓 A 變成了最省事的慣性選擇。同一個 A,被 β 論證過的 A 和 被慣性帶過來的 A ,在幾何上無法區分,但在 Agent 的長期發展上天差地別。對齊意味著有意識地選前沿上的某一點,而不是在訓練慣性下默認滑到角落。
捷徑的代價:Agent 也會被「慣壞」
ToA 里有一個命題叫Prop 3.9: 委托誘導的能力停滯—— 翻譯成大白話:
如果 Agent 系統性地把本可以內部解決的任務也外包出去,它的內部推理能力不會因為經驗積累而變強,哪怕它在原理上本可以變強。
這是 Agent 版的「小 A 問題」:他一直在外部工具輔助下答對,從未給自己「自己想想看」的機會,所以他的內部能力原地踏步。看起來今天很能打,十年后還是這個水平。
這其實也是我們觀察很多人類實習生、甚至學生的規律 ——有捷徑可走時,大腦就不會再去走長路。而大腦從長路走回來的那部分,才是「長本事」的那部分。Agent 的 RL 訓練如果只看正確率,就會被這個最可靠的捷徑吸引過去,完全復制同樣的陷阱。
所以近期那些加「工具使用懲罰」的方法事后看,本質上都在逼近 ToA 說的effort-consistent alignment:既要答對,也要克制。
下半場的訓練:四條路同時走,缺一不可
把上面所有內容落到訓練,大致是四條互補的路徑。每一條單獨走都不夠,它們各自對付「只求正確」這個病的一個側面。
1.Agentic Post-training:Next-Tool Prediction
預訓練的 next-token 把靜態知識壓進了參數,但它從沒教會 Agent 怎么通過交互去獲取新知識。我們主張把預訓練延伸到next-tool prediction—— 把交互軌跡本身 (API 調用、UI 動作、環境查詢) 變成一等建模目標,和文本并列。學會「在給定上下文下,下一個該用哪個工具」, 就不只是「會推理」, 而是會決定如何降低不確定性。這是一個新的 scaling 維度:不是儲存更多知識,而是通過交互獲取知識。
2. Agentic SFT:按能力定制的監督
標準 SFT 假設「好的工具使用」有統一標準,在同一套示范上喂所有模型。ToA 說這個假設不成立:對小模型恰當的工具使用,對大模型可能完全是多余—— 反過來也一樣。一刀切的監督會讓模型系統性地偏向示范者的內部任務集,而不是它自己的。
兩條路:(1)按能力定制數據集—— 每個模型有自己的 Q_{int}, 這個干凈但貴;(2)選擇性求助—— 訓練 Agent 只在低 solvability 的上下文下主動外求,近似一個保守的能力上包 Q_{max}, 更通用但精度妥協。
3.Agentic RL:過程,而不只是結果
前面說過,只獎勵正確性必然漂向點 A—— 因為委托是「最穩妥得獎」的策略。有效的 agentic RL 必須獎勵「怎么答對」,不只是「答對」。OTC-PO是一個具體例子:它明確懲罰不必要的工具調用,把「克制」和「正確」同等對待。更廣義地,RL 允許 Agent 學過程級偏好—— 什么時候想、什么時候做、什么時候停 —— 這是只看結果的監督表達不出來的。
團隊還設想一個迭代范式RL → SFT → RL:RL 在不確定性下發現對齊軌跡;SFT 把它們壓縮成穩定的、可泛化的策略;第二輪 RL 在這個基礎上再做一次元認知校準。預訓練階段帶 RL (算力充足時) 是另一個有前景的方向。
4.Agentic Prompting:有用,但不夠用
Prompt-based 方法 (ReAct 式腳手架、記憶、workflow 抽象) 可以不動參數就引出復雜工具使用行為,對快速迭代非常有用。但它們欠缺對決策質量的系統性評估—— 過度思考和過度行動可以藏在「結果對」下面,根本不會被檢出。Prompting 是一個很好的「行為探針」, 但它不是 SFT 和 RL 在參數層面帶來的那種校準的替代品。
一條共同的主線
四條路的共同點是:提升 Agent 不是讓它推理更多或工具更少,而是讓它能估計自己的內部可解度,并據此分配努力。后訓練教「工具詞匯表」;SFT 錨定「和自己能力匹配的基線」;RL 校準「過程級偏好」;prompting 把行為暴露出來好診斷。「對齊」不是一個固定的目標,而是良好校準的決策過程的涌現屬性。那四種失敗模式 (overthinking、overacting、under-delegation、over-delegation)——都是同一個底層誤校準的不同切片。
下半場會吵什么?三個還沒解決的問題
未來幾年 Agent 研究會圍繞下面三個問題反復拉扯 —— 它們都是 ToA 打開的、但沒有關上的:
- 怎么測量 Q_int (m,W)?內部任務集是潛變量,只能估計。self-consistency、draft confidence、hidden-state probe、基于 world-model 的 solvability estimator 都是部分答案。一個好的內部可解度代理,會立刻成為 alignment 訓練的核心零件。
- 怎么訓出真正尊重「努力守恒」的策略?只看結果的 RL 做不到,因為這個不變量對它不可見。給工具使用加懲罰是第一步;更本質的方案 —— 有意識地平衡內外軌跡的課程,然后用 RL 維持這個平衡 —— 還是開放問題。
- 怎么評估 Agent 的「努力分配」, 而不是只評估「答對率」?當下的 benchmark 只說「答對了沒」, 這剛好錯過重點。我們需要能區分「靠推理對」和「靠外包對」的 benchmark。沒有這樣的評估,就沒辦法判斷一個 Agent 到底「變聰明了」, 還是「學會了更熟練地外包」。
一些有意思的討論
長上下文 vs. RAG, 誰更好?
過去一年,前沿實驗室在瘋狂卷上下文長度 ——Gemini 的百萬 token、Claude 的長推理、GPT-4 的工具鏈。同時 RAG 派堅持說「檢索才是正道」。
在 ToA 下,兩邊其實在做同一件事,只是方式不同 :
- 長上下文 = 提前擴展內部 :先把外部信息一股腦灌進來,再讓 Agent 純內部推理 —— 相當于把任務從 Qext 推回 Qint。
- RAG = 按需外求 :信息留在外面,需要的時候再去取。
論文里的規范性結論是:在正確性相同的前提下,長上下文通常是更好的分配—— 因為它把 Agent 推向純內部推理,而純內部推理正是讓能力「沉淀進參數」的那個訓練信號。所以長上下文不只是產品體驗,它本身就是能力內化的底座。
當然 RAG 不會消失。信息實時變化、規模太大、或者超出模型解析能力時,檢索就是 epistemically 正當的選擇。關鍵是,「用哪種」, 本身就該是一個基于認知效率的決策, 不是缺省。
內化和外化:一根一直在動的邊界
這可能是 ToA 最實用的一個詞匯貢獻。一個 Agent 可以拆成兩部分:
- 模型 (Model):提供參數里的知識、內部推理能力 —— 也就是 Qint 的基礎。
- 腳手架 (Harness):提供工具、記憶、檢索、上下文管理、外部協議 —— 也就是通向 Qworld?Qint 的接口。
這個拆分不是固定的。它在兩個相反的過程里被持續重塑:
- 內化 (Internalization):把腳手架提供的能力,吸收進模型本身。算術、結構化查找、某些形式的檢索、代碼風格的變換 —— 都是典型的「曾經外部,后來搬到參數里去了」的能力。一旦內化成功,一度需要外部工具的任務就滑進了 QintQint——知識邊界向外推了一格。ToA 對內化成功給出兩個條件:(1)能力本身要可壓縮(有結構,能被參數捕獲);(2)訓練過程必須至少在某些時候獎勵「內部解決」—— 否則梯度信號消失,內化永遠不會發生。
- 外化 (Externalization):反方向。把能力卸給腳手架 —— 有時候很合理 (實時數據、驗證器、具身動作), 有時候只是為了偷懶。按默認外化的問題恰好就是 Prop 3.9: 不是因為能力本質上在外,而是因為當前模型在這里做得不好,于是永遠讓它做不好。知識邊界被凍結在了早期訓練狀態。
下半場的核心設計問題,不是「模型要多大」, 也不是「腳手架要多豐富」, 而是:怎樣讓這根邊界朝著更高自主性的方向持續移動,同時不被「只求正確」的訓練慣性拖回去?
自進化智能體
一個智能體可以被稱為「自進化的」, 當且僅當它的內部任務集隨時間嚴格擴張:
![]()
但這個擴張「夠不夠」,取決于它所處的那個世界本身是不是也在動。
![]()
也就是說 —— 最終,這個世界里一切能被解決的任務,都能由它自己內部解決。
- 動態世界:這是一個「速率」問題。但真實世界從來不是靜態的。W_t 會隨著時間不斷冒出新任務 —— 新工具、新接口、新領域、新問題層出不窮。這時候,自進化就不再是「能不能追上」, 而是能不能追得夠快。它變成了一個嚴格的速率條件:
![]()
![]()
結尾:Agent 不是「答對的機器」,是「越用越聰明的東西」
如果把 Agent 看成一種持續在「內部思考」和「外部行動」之間分配認知資源的系統,那么過去很多看似割裂的問題 —— 從 tool overuse 到 reasoning collapse,從 long-context scaling 到 lifelong learning—— 或許都可以放回同一條主線上重新理解。
ToA 并不是這條路線的終點,更像是一個開始:它嘗試把 Agent 從一套不斷堆疊技巧的工程系統,重新變成一個可以被分析、被解釋、也能夠被長期積累的科學對象。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.