網易首頁 > 網易號 > 正文申請入駐

ICML 2026｜智能體的下半場：為什么「答對」已經不夠了？

2026-05-22 14:09:10　來源: 機器之心Pro

天津舉報

分享至

過去兩年 Agent 研究更像一場工程競賽 —— 誰的推理鏈更長、誰的工具箱更大、誰的 workflow 更復雜。但 Agent 的下半場不再是拼花活，而是把它變成一門科學：不僅問「它 work 不 work？」，更要問「它為什么work」，以及什么時候才應該這么做？」

這篇文章作者團隊想聊聊在ICML 2026 提出的Theory of Agent (ToA)—— 以及它如何解釋當下最前沿的長上下文、推理模型、工具使用、自進化智能體背后那根共同的主線。

關于這項工作

Theory of Agent (ToA) 是由愛丁堡大學聯合普林斯頓大學、UIUC、西北大學、香港中文大學共同提出的智能體統一理論，已被 ICML 2026 以 Position Paper 的形式接收。

項目地址: https://hrwise-nlp.github.io/assets/websites/theory-of-agent/
論文鏈接: https://arxiv.org/abs/2506.00886.pdf

作者團隊覆蓋了當前 Agent / LLM 研究的多條主線 —— 從 ReAct 式推理與工具使用，到 RL 對齊、世界模型、科學發現智能體 —— 這份工作也正是這些主線匯聚后的一次嘗試：把 Agent 從一套工程技巧，變成一門可以被推理、被證偽、被累積的科學。

一個你肯定見過的場景：兩份同樣滿分的試卷

想象同一套試卷發到兩個學生手里。

同學 A 走的是閉卷考試模式。整套題他靠自己：回憶知識點、做推理、驗算，必要時在腦子里重新組織一遍 —— 他把考試當成鍛煉基礎和思維的機會；
同學 B 走的是開卷考試模式。每一道題他都上網查、問 ChatGPT、翻參考答案，直接抄過來就交。

兩份卷子批改下來，都是 100 分。老師如果只看分數，這兩個人是一樣的。但只要你當過老師，或者自己讀過書，你就知道這兩個人一學期之后的差距會非常大：

同學 A :哪怕中間做錯過、繞彎過，每做一題，他那根叫「解題直覺」的東西都在被加粗一次。期末的時候，同樣一道題他能更快、更穩地做對，而且能舉一反三。
同學 B :他也做了一學期題，但他腦子里的知識存量沒有任何變化。到了必須閉卷的那一次考試 —— 或者任何一次沒有 ChatGPT 可用的場合 —— 他會突然發現自己什么都不會。

兩份滿分，兩條命運完全相反的成長曲線。

先澄清一個常見誤解: 這個故事里絕不是說「同學 A 不會用搜索引擎」或者「用工具是壞事」。恰恰相反 —— A 也可以、也應該在需要的時候用工具 (考試是比喻，真實世界里的 Agent 當然會遇到靠自己無論如何答不出來的題，這時候必須調用外部信息)。
真正的關鍵是：能靠自己答對的題，就不必為了省事而默認抄答案。工具該在「靠自己不夠」的時候上場，而不是在「根本還沒試過」的時候就被默認觸發。至于「什么叫靠自己不夠」「什么叫真正必需」, 正是后面要花篇幅講清楚的事 —— 作者會把它精確成一個叫知識邊界（knowledge boundary) 的東西。>

換到 Agent 身上，這兩類行為完全平行：

圖 1. 同樣正確的答案，背后可能是兩種截然不同的資源分配。Agent A 什么都默認靠外部工具，內部推理能力被繞開、無法鞏固；Agent B 在內部能解決時就內部解決 —— 但并不排斥在真正需要時使用工具 —— 推理能力在練習中被強化。

這不是一個設計問題。這是一個定義問題：什么叫一個「好」Agent? 如果「好」只意味著「答對」, 那開卷同學和閉卷同學沒區別。但如果「好」還意味著「越做越聰明」,我們想要的顯然是后者。而這恰恰是目前絕大多數 Agent 訓練范式看不見的東西。

當下智能體的四種失敗模式，其實是同一個病

過去兩年，Agent 系統暴露出了許多彼此看似無關的問題。有些模型在還沒真正理解任務時就急于行動，不斷切換思路；有些則在簡單問題上陷入冗長推理，甚至為「2+3 等于幾」生成十幾條重復 reasoning path。另一類問題則發生在與外部世界的交互上：模型要么遲遲不愿調用本該使用的工具，要么把原本幾步就能完成的操作拆成漫長而重復的軌跡。

這些現象通常被分別歸類為 reasoning、planning 或 tool-use 的問題，因此業界也習慣于逐個修補：過度推理就增加長度懲罰，工具濫用就約束 action budget，行動不足就強化工具調用能力。

但如果把這些現象放在同一個視角下，會發現它們其實共享著同一個更底層的結構：Agent 始終在面對一個持續存在的決策 —— 下一步究竟應該繼續依賴內部思考，還是轉向外部世界獲取信息。

不同的失敗模式，本質上只是這個決策在不同方向上的失衡。答早了是 underthinking，答晚了是 overthinking，問少了是 underacting，問多了是 overacting。不是四個獨立的問題，而是同一個病 —— 在不確定性下的決策錯配 —— 以四個方向表現出來。

下半場的工作，不是繼續打補丁，而是治這個病。

換一個視角：推理和行動，是一體兩面

如果順著這個問題繼續往下推，一個更自然的觀察會出現：所謂「推理」和「行動」，未必是兩種本質不同的階段。對于 Agent 來說，它們更像是在不同位置獲取信息的兩種方式。鏈式思考、反思和任務分解，本質上是在重新組織模型已經擁有的信息；而搜索、API 調用、代碼執行等行為，則是在向外部世界索取模型當前并不具備的信息。

推理和行動，是兩種用來降低同一種不確定性 (epistemic uncertainty, 認知不確定性) 的工具。它們的差別只在于信息來源。

內部認知工具 (鏈式思考、反思、分解)：把 Agent已經有的信息重新組織一遍；
外部物理工具(搜索、API、UI 操作、執行代碼)：注入 Agent 沒有的信息。

兩者都在降低不確定性，只不過一個發生在內部，一個發生在外部，這樣智能體的行為軌跡就變成了：

圖 2. 左：傳統 ReAct 把推理和行動混在一起當做兩個階段。右：ToA 把 Agent 看成一個統一的策略，它在兩類工具里做選擇 —— 內部認知工具查的是「自己這個世界模型」, 外部物理工具查的是「真實世界」。

眼下，哪種工具能最快降低我對這個任務的不確定性

這也是為什么長上下文、RAG、工具使用、agentic RL 其實都在指向同一件事，沿著「內部還是外部」這一根軸的不同分配。

每個 Agent 都有自己的「會做題」范圍

一旦推理和行動平起平坐，研究的核心對象就不再是「策略」, 而是：這個 Agent 靠自己能解決的任務，和需要外部幫助才能解決的任務，邊界在哪里？

ToA 把這件事精確化了:

圖 3. 左：一個 Agent 的「知識邊界」把它能內部解決的任務和剩下的世界任務隔開。中：多個 Agent 都能內部解決的部分 ——「最小任務集」。右：這群 Agent 中任意一個能內部解決的并集 ——「最大任務集」。

最核心的一條：腦力勞動的「總量守恒」

而這個總和和策略無關。我們可以把努力從內部挪到外部，也可以反過來，但總量是定的。類似于我們剛開始舉的那個例子，學生 A 和學生 B 就是在使用不同的分配策略去解決同一套試卷。

從這個角度再看工具使用，會發現一個容易被忽略的事實：外部工具并不會真正消除任務本身的信息負擔。它們只是把原本需要由模型內部完成的認知過程，轉移到了外部系統上。一個復雜問題之所以變得「容易」，很多時候不是因為問題本身被簡化了，而是因為求解過程被重新分配了。

用生活比喻：你要做一道紅燒肉。

我們可以全靠自己的手藝：選肉、焯水、糖色、火候一手拿捏。這是內部努力拉滿。
我們也可以點一份半成品，回家熱一下，或者直接點外賣。這是外部努力拉滿。
我們還可以用預制菜 + 自己燉十分鐘，平衡一下。

Agent 行為的幾何：不同點的含義以及最優行為

既然「認知努力」是一個在兩個維度間分配的固定預算，那 Agent 的行為就活在一個二維平面上，如下圖所示。

圖 4. 橫軸是內部推理投入，縱軸是外部行動投入。斜線是最小努力前沿 βE_{int}+E_{ext}=E^*。左：任務在內部可解，兩種努力可以自由互換；右：任務超出內部能力，外部努力存在一個不可削減的底線。*

圖上標了三個關鍵點:

點 A 的「萬能性」恰恰是它的危險。一旦有一個足夠能干的外部 Agent 可調用，A 不管任務在邊界的哪一側都能走通。這就是為什么只獎勵正確性的訓練會自然漂移到左上方的 A 點附近—— 它是通往獎勵最省心、最低風險的路徑。

用實習生的例子類比：小 A 永遠都能「對」。老板只要看答案，他沒錯。但一年下來，他沒有學會任何一道題的內在邏輯 —— 因為他沒有給自己「嘗試用大腦」的機會。點 A 就是那個「永遠搜一下就行」的坑。

等等，那 AC 和 AB 之間呢？

這是一個微妙但非常重要的點。A、B、C不是僅有的三個「正確答案」。

那它們之間有什么區別？——區別不是「優不優」, 而是「偏好不同」。

對內部可解的任務 (線段AC), 內外努力可以自由置換:

延遲敏感的部署，也許更偏A(一次外部調用快、干脆);
安全敏感、或外部調用很貴的部署，更偏C(不要輕易觸發現實世界的動作);
成本中性的部署，選個中間點就好。

對外部必需的任務 (線段AB), 外部努力的底線不能砍，但在這條底線之上，同樣存在一個偏好譜:

A= 少想、多調；
B= 先把腦子用盡，只調用那個最低限度必需的外部工具。

換句話說，前沿是一整條帕累托最優曲線,A、B、C 只是三個代表性的端點。不同的業務場景 —— 安全、延遲、成本、合規 —— 沿著這條曲線選擇不同的位置，都是對的。

那條斜線的斜率 β，到底在說什么？

β 的大小決定了那條斜線的傾角, 也就決定了「帕累托最優前沿」的形狀:

β 很大(想很貴、調便宜)：斜線陡，最優點整體偏向多調外部。直覺：既然我這顆大腦昂貴又慢，那能外包就外包。這解釋了為什么「小模型 + 強工具鏈」往往是理性選擇 —— 對一個 Llama-3-8B, 讓它自己寫一堆 CoT 不如直接 RAG 出來給它看。
β 很小(調很貴、想便宜)：斜線緩，最優點整體偏向多靠內部。直覺：每次觸碰現實世界都要花錢 / 承擔風險，那就能在腦子里解決的就別動手。這解釋了為什么推理模型 (o1/R1 那一代)把賭注押在「內部 scaling」上 —— 在它們的成本結構下，多推幾步比調一次工具便宜得多。

這就把 ToA 和資源有限理性(resource-bounded rationality) 接上了：沒有放之四海皆準的「最佳 Agent 行為」，只有「在當前 β 下最佳的行為」。一條產線上的 Agent 換個部署環境， β 變了，最優的分配策略就應該跟著變。所以 ToA 的「對齊」不是「讓 Agent 學會一種固定姿勢」, 而是讓 Agent 學會識別 β , 并沿著 β 對應的那條前沿去分配努力。

那 ToA 反對的是什么？是 Agent「稀里糊涂地漂到 A」—— 不是因為 β 讓 A 是最優解，而是因為只獎勵正確性的訓練讓 A 變成了最省事的慣性選擇。同一個 A,被 β 論證過的 A 和被慣性帶過來的 A ,在幾何上無法區分，但在 Agent 的長期發展上天差地別。對齊意味著有意識地選前沿上的某一點，而不是在訓練慣性下默認滑到角落。

捷徑的代價：Agent 也會被「慣壞」

ToA 里有一個命題叫Prop 3.9: 委托誘導的能力停滯—— 翻譯成大白話：

如果 Agent 系統性地把本可以內部解決的任務也外包出去，它的內部推理能力不會因為經驗積累而變強，哪怕它在原理上本可以變強。

這是 Agent 版的「小 A 問題」：他一直在外部工具輔助下答對，從未給自己「自己想想看」的機會，所以他的內部能力原地踏步。看起來今天很能打，十年后還是這個水平。

這其實也是我們觀察很多人類實習生、甚至學生的規律 ——有捷徑可走時，大腦就不會再去走長路。而大腦從長路走回來的那部分，才是「長本事」的那部分。Agent 的 RL 訓練如果只看正確率，就會被這個最可靠的捷徑吸引過去，完全復制同樣的陷阱。

所以近期那些加「工具使用懲罰」的方法事后看，本質上都在逼近 ToA 說的effort-consistent alignment：既要答對，也要克制。

下半場的訓練：四條路同時走，缺一不可

把上面所有內容落到訓練，大致是四條互補的路徑。每一條單獨走都不夠,它們各自對付「只求正確」這個病的一個側面。

1.Agentic Post-training：Next-Tool Prediction

預訓練的 next-token 把靜態知識壓進了參數，但它從沒教會 Agent 怎么通過交互去獲取新知識。我們主張把預訓練延伸到next-tool prediction—— 把交互軌跡本身 (API 調用、UI 動作、環境查詢) 變成一等建模目標，和文本并列。學會「在給定上下文下，下一個該用哪個工具」, 就不只是「會推理」, 而是會決定如何降低不確定性。這是一個新的 scaling 維度：不是儲存更多知識，而是通過交互獲取知識。

2. Agentic SFT：按能力定制的監督

標準 SFT 假設「好的工具使用」有統一標準，在同一套示范上喂所有模型。ToA 說這個假設不成立：對小模型恰當的工具使用，對大模型可能完全是多余—— 反過來也一樣。一刀切的監督會讓模型系統性地偏向示范者的內部任務集,而不是它自己的。

兩條路：(1)按能力定制數據集—— 每個模型有自己的 Q_{int}, 這個干凈但貴；(2)選擇性求助—— 訓練 Agent 只在低 solvability 的上下文下主動外求，近似一個保守的能力上包 Q_{max}, 更通用但精度妥協。

3.Agentic RL：過程，而不只是結果

前面說過，只獎勵正確性必然漂向點 A—— 因為委托是「最穩妥得獎」的策略。有效的 agentic RL 必須獎勵「怎么答對」，不只是「答對」。OTC-PO是一個具體例子：它明確懲罰不必要的工具調用，把「克制」和「正確」同等對待。更廣義地，RL 允許 Agent 學過程級偏好—— 什么時候想、什么時候做、什么時候停 —— 這是只看結果的監督表達不出來的。

團隊還設想一個迭代范式RL → SFT → RL：RL 在不確定性下發現對齊軌跡；SFT 把它們壓縮成穩定的、可泛化的策略；第二輪 RL 在這個基礎上再做一次元認知校準。預訓練階段帶 RL (算力充足時) 是另一個有前景的方向。

4.Agentic Prompting：有用，但不夠用

Prompt-based 方法 (ReAct 式腳手架、記憶、workflow 抽象) 可以不動參數就引出復雜工具使用行為，對快速迭代非常有用。但它們欠缺對決策質量的系統性評估—— 過度思考和過度行動可以藏在「結果對」下面，根本不會被檢出。Prompting 是一個很好的「行為探針」, 但它不是 SFT 和 RL 在參數層面帶來的那種校準的替代品。

一條共同的主線

四條路的共同點是：提升 Agent 不是讓它推理更多或工具更少，而是讓它能估計自己的內部可解度，并據此分配努力。后訓練教「工具詞匯表」；SFT 錨定「和自己能力匹配的基線」；RL 校準「過程級偏好」；prompting 把行為暴露出來好診斷。「對齊」不是一個固定的目標，而是良好校準的決策過程的涌現屬性。那四種失敗模式 (overthinking、overacting、under-delegation、over-delegation)——都是同一個底層誤校準的不同切片。

下半場會吵什么？三個還沒解決的問題

未來幾年 Agent 研究會圍繞下面三個問題反復拉扯 —— 它們都是 ToA 打開的、但沒有關上的:

怎么測量 Q_int (m,W)？內部任務集是潛變量，只能估計。self-consistency、draft confidence、hidden-state probe、基于 world-model 的 solvability estimator 都是部分答案。一個好的內部可解度代理，會立刻成為 alignment 訓練的核心零件。
怎么訓出真正尊重「努力守恒」的策略？只看結果的 RL 做不到，因為這個不變量對它不可見。給工具使用加懲罰是第一步；更本質的方案 —— 有意識地平衡內外軌跡的課程，然后用 RL 維持這個平衡 —— 還是開放問題。
怎么評估 Agent 的「努力分配」, 而不是只評估「答對率」?當下的 benchmark 只說「答對了沒」, 這剛好錯過重點。我們需要能區分「靠推理對」和「靠外包對」的 benchmark。沒有這樣的評估，就沒辦法判斷一個 Agent 到底「變聰明了」, 還是「學會了更熟練地外包」。

一些有意思的討論

長上下文 vs. RAG, 誰更好？

過去一年，前沿實驗室在瘋狂卷上下文長度 ——Gemini 的百萬 token、Claude 的長推理、GPT-4 的工具鏈。同時 RAG 派堅持說「檢索才是正道」。

在 ToA 下，兩邊其實在做同一件事，只是方式不同 :

長上下文 = 提前擴展內部 :先把外部信息一股腦灌進來，再讓 Agent 純內部推理 —— 相當于把任務從 Qext 推回 Qint。
RAG = 按需外求 :信息留在外面，需要的時候再去取。

論文里的規范性結論是：在正確性相同的前提下，長上下文通常是更好的分配—— 因為它把 Agent 推向純內部推理，而純內部推理正是讓能力「沉淀進參數」的那個訓練信號。所以長上下文不只是產品體驗，它本身就是能力內化的底座。

當然 RAG 不會消失。信息實時變化、規模太大、或者超出模型解析能力時，檢索就是 epistemically 正當的選擇。關鍵是，「用哪種」, 本身就該是一個基于認知效率的決策, 不是缺省。

內化和外化：一根一直在動的邊界

這可能是 ToA 最實用的一個詞匯貢獻。一個 Agent 可以拆成兩部分:

模型 (Model)：提供參數里的知識、內部推理能力 —— 也就是 Qint 的基礎。
腳手架 (Harness)：提供工具、記憶、檢索、上下文管理、外部協議 —— 也就是通向 Qworld?Qint 的接口。

這個拆分不是固定的。它在兩個相反的過程里被持續重塑:

內化 (Internalization)：把腳手架提供的能力，吸收進模型本身。算術、結構化查找、某些形式的檢索、代碼風格的變換 —— 都是典型的「曾經外部，后來搬到參數里去了」的能力。一旦內化成功，一度需要外部工具的任務就滑進了 QintQint——知識邊界向外推了一格。ToA 對內化成功給出兩個條件：(1)能力本身要可壓縮(有結構，能被參數捕獲)；(2)訓練過程必須至少在某些時候獎勵「內部解決」—— 否則梯度信號消失，內化永遠不會發生。
外化 (Externalization)：反方向。把能力卸給腳手架 —— 有時候很合理 (實時數據、驗證器、具身動作), 有時候只是為了偷懶。按默認外化的問題恰好就是 Prop 3.9: 不是因為能力本質上在外，而是因為當前模型在這里做得不好，于是永遠讓它做不好。知識邊界被凍結在了早期訓練狀態。

下半場的核心設計問題，不是「模型要多大」, 也不是「腳手架要多豐富」, 而是：怎樣讓這根邊界朝著更高自主性的方向持續移動，同時不被「只求正確」的訓練慣性拖回去？

自進化智能體

一個智能體可以被稱為「自進化的」, 當且僅當它的內部任務集隨時間嚴格擴張：

但這個擴張「夠不夠」，取決于它所處的那個世界本身是不是也在動。

也就是說 —— 最終，這個世界里一切能被解決的任務，都能由它自己內部解決。

動態世界：這是一個「速率」問題。但真實世界從來不是靜態的。W_t 會隨著時間不斷冒出新任務 —— 新工具、新接口、新領域、新問題層出不窮。這時候，自進化就不再是「能不能追上」, 而是能不能追得夠快。它變成了一個嚴格的速率條件:

結尾：Agent 不是「答對的機器」，是「越用越聰明的東西」

如果把 Agent 看成一種持續在「內部思考」和「外部行動」之間分配認知資源的系統，那么過去很多看似割裂的問題 —— 從 tool overuse 到 reasoning collapse，從 long-context scaling 到 lifelong learning—— 或許都可以放回同一條主線上重新理解。

ToA 并不是這條路線的終點，更像是一個開始：它嘗試把 Agent 從一套不斷堆疊技巧的工程系統，重新變成一個可以被分析、被解釋、也能夠被長期積累的科學對象。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.