![]()
無需人工獎勵,AI自主探索即能進化——解開無獎勵原生自演進之謎。
作者丨成仲軒
編輯丨董子博
從被動響應的“工具”到自主進化的“學徒”,AI Agent 每進化一個階段,都在擺脫一層對人類的依賴。
如今,隨著 AI Agent 逐步邁入自主進化的全新階段,一場從“人優化 Agent”到“Agent 優化自己”的革命性突破正在發生。無論是大幅降低使用和維護成本,還是讓其能自主應對連設計者都無法提前預料的復雜情況,等等,一個突破了設計者預設的能力邊界的 Agent,究竟能成長到怎樣的地步?不免讓人心潮澎湃。
尤其在當下 Agentic AI 和 OpenClaw 大行其道的范式里,AI Agent 執行一個單一任務已不再是簡單的單輪推理,而是要進行多輪推理和驗證,這就意味著其需要的 Token 消耗較之前有數倍甚至十倍的提升。
如何借力自主進化,降低 Token 消耗,進而在競爭趨于白熱化的戰場上占據更多先機?顯然成為當下各大廠商的競爭焦點之一。
不久前,騰訊混元團隊與香港科技大學(廣州)聯合發表論文《Training LLM Agents for Spontaneous, Reward-Free Self-Evolution via World Knowledge Exploration》,就為上述問題提供了一種前沿的解決思路。
先來看它的亮眼結果。
在網頁 Agent 任務上,參數量僅 14B 的 Qwen3-14B(33.1),直接擊敗了 Gemini-2.5-Flash(28.5)和 Kimi-K2-Turbo(28.6)。Qwen3-30B(42.5)更是超越了萬億參數量旗艦模型 Gemini-2.5-Pro(36.1)和 Kimi K2.5(36.2)。
輕量級模型能擊敗萬億級巨無霸,靠的不是新架構或秘密配方,而是一種被稱為“原生自演進”的能力。不同于過去被動等待指令的“提線木偶”,“原生自演進”為模型賦予了自我驅動的“生命力”,不需要人類給它指令或獎勵就能夠實現自我進化。而一個更加“聰明”的模型,無疑能減少反復拉扯過程中的“溝通成本”,做到事半功倍,進而有效降低 Token 的消耗。
除了能力的“特殊”,詳細論述了這項能力的論文也有一個特殊身份——騰訊 AI Lab 在 NLP 方向的最后一篇論文。而九年前,即 AI Lab 成立后的第二年,其在 NLP 方向的第一篇論文進入公眾視野,同樣引發行業思考。
世間之事,有時就是這么奇妙。
(關于騰訊的 AI Lab 往事,雷峰網仍在持續跟進中,并將在不久后為大家帶來新的隱秘往事,歡迎添加作者微信:GO-GO-ZEPPELI,交流爆料。)
01
“不靠獎勵”是怎么做到的
——原生自演進的技術路徑
要理解這項工作的價值,先看它解決什么問題。
過去幾年,“Agent 自我進化”無疑是一大研究熱點,但翻閱市面上的各方討論,我們發現論文的通訊作者王琰在社交媒體上指出了一個扎心的事實:大多數所謂的“進化”,本質上還是被人牽著走的——依賴人類設計的獎勵函數、流程規則、任務目標——外部監督一撤,成長就停止了。
就連作者本人也曾在工作中遇到類似的問題。比如團隊做的冥想盆范式和 StateLM,哪怕 StateLM 能夠及時將存儲在“冥想盆”中的信息去粗取精,以免上下文窗口被越堆越多的信息撐爆,但二者實現的還是 task-dependent記憶——一種相對死板的記憶方式。只要用戶任務稍有變化,模型就得從零開始探索,無法復用之前的記憶緩存。
![]()
那么,真正的自演進應該長什么樣?
王琰在社媒上為大家舉了個形象的案例,假設我們給 Agent 下了條指令:“過幾天用戶們就會問很多關于哈利波特的問題了,我給你買好了七本哈利波特,你準備一下。”然后 Agent 開始夜以繼日地學習,等真有用戶來提問時能做到對答如流,這才是真正的自演進,即在在沒有下游任務的情況下能夠自適應地熟悉環境。
帶著這個目標,團隊提出了名為“原生自演進”的技術方案。整個方案分兩個階段:
第一,探索階段。Agent 獲得新環境的自由訪問權限,以及寫入和修改文件的權限。它的任務是把環境中真正重要的信息提取出來,記錄到一個world_knowledge.md文件里。這份文件,就是該環境的世界知識。
第二,執行階段。當下游任務開始時,Agent 不需要再從零開始探索,而是直接把預先生成的世界知識加載到 prompt 中,然后開工。整個推理過程沒有任何人工獎勵、預設流程或任務提示,完全自主地用它自己積累的知識做事。
![]()
思路雖然清晰,但落地并不容易。
核心難題在于:沒有 ground-truth。此外,同樣是因為沒有訓練 signal,團隊也無法直接判斷生成的世界知識是好還是壞。
用下游任務的準確率來反推世界知識的質量,是團隊給出的解法。簡單來說,就是準備一批訓練環境,每個環境包含 10 到 30 個下游任務。對于同一個環境,生成多份不同的世界知識,然后分別拿去跑下游任務,誰的準確率提升最大,誰就是更好的世界知識。
至于期間涉及到的 reward,僅僅用于訓練,推理時完全不使用。因為在真實場景中,你永遠不可能提前知道用戶會問什么,這也正是“無獎勵”這個詞的含義所在——不是不用獎勵來訓練,而是在推理、部署階段不需要任何獎勵信號。
具體到訓練,分兩步走:
第一步,Warm Up 階段,這一步的目標是讓模型先學會什么是好的世界知識。為此團隊設計了復雜的prompt,用 Gemini-2.5-Pro 為每個環境生成 8 份不同的世界知識,并從中挑出 reward 最大且為正的結果,將其完整的生成軌跡作為 expert trajectories,用來對基模進行 SFT。
第二步,On-Policy Training 階段,這一步是為了讓模型的探索和信息壓縮能力變得更強。為此團隊讓 SFT 后的模型自己去生成世界知識,再同樣篩選選優,迭代兩個循環。過程中 prompt 也從最初幾萬 token 的長模板逐漸縮短至不到一千 token 的 instruction——模型確實內化了這種能力,不再依賴冗長的提示就能自主完成高質量的探索和信息壓縮。
02
14B贏Flash、30B超萬億旗艦:
實驗數據說明了什么?
團隊的成果,最終反映在開篇的論文與亮眼的對比實驗結果中。而這場實驗基于 Qwen3-30B-A3B 和 Seed-OSS-36B 兩個中等尺寸基模,在 WebWalker 和 WebVoyager 兩個網頁 agent task 上進行,有如下幾個發現值得關注:
![]()
第一,世界知識帶來的增益是實打實的。在有世界知識加持的情況下,模型平均準確率從 30% 躍升至 49%,提升了將近 20 個百分點。這其實也意味著:擁有世界知識的智能體能直接定位到關鍵信息節點,避免了從零開始盲目探索時的反復跳轉和信息遺漏。
第二,訓練不可或缺,且迭代真的有效。僅做了 SFT 的模型就已經跟教師模型 Gemini-2.5-Pro 打成平手,在經過 on-policy training 后更是反超了 5%。雖然 knowledge 坍塌的現象也很常見,且給未訓練的基模配上同樣的 prompt ,讓它直接去生成世界知識,效果不升反降,但這共同證明了一點:原生自演進是一種需要通過訓練習得的能力,沒法靠寫更長的 prompt 來解決。
第三,也是最引人注目的——世界知識可以跨模型遷移。
團隊為此做了一個有意思的實驗,將訓練好的模型生成的世界知識,直接喂給四個從未參與訓練的模型,結果全部出現了顯著提升:Qwen3-14B 達到 33.1、OpenAI-OSS-120B 達到 38.7、Gemini-2.5-Flash 達到 41.0、Kimi-K2-Turbo 達到 47.3——全部超越了各自領域的大哥級產品,就連訓練基模本身 Qwen3-30B(42.5)和 Seed-OSS-36B(39.5),也超過了 Gemini-2.5-Pro(36.1)和 Kimi K2.5(36.2)這兩款萬億參數量旗艦模型。
![]()
這意味著,世界知識是一種可以被不同模型共享并取得收益的“經驗資產”。進一步說,規模固然重要,但高質量的知識組織同樣能帶來巨大增益——在某些場景下甚至足以彌補數量級的參數差距。
第四,效率沒有因此變差,反而更好了。事實上,世界知識帶來的額外開銷確實存在,但可控。這一部分來自探索階段,大約幾百個 steps,但這只需要一個環境做一次,如果下游任務在該環境執行過上百萬次,均攤后的成本無限趨近于零;另一部分則來自線上持續加載世界知識的開銷,但這部分可以命中緩存,實際開銷約為重算的十分之一,為下游任務帶來的額外 cost 也不到 5%。
此外,在世界知識的加持下,Agent 執行任務時需要的步數減少了 17%。又因為 decoding 的計算開銷遠大于 prefilling,Agent 在用戶的實際體驗中不僅做到了更聰明,而且更快了。外界擔憂的“token 爆炸”也沒有出現,反而降低了 token 的消耗。
03
結語
2026 年 3 月 20 日,騰訊內部通知撤銷成立近十年的 AI Lab,原團隊整體并入混元大模型體系,由首席科學家姚順雨統一領導。
AI Lab 的時代由此畫上句號。
有意思的是,AI Lab 的最后一篇論文,指向了騰訊內部的“最高優先級項目”。
眼下,眾多線索都將該項目指向微信 Agent。
(雷峰網目前正在關注微信 Agent 的相關信息,歡迎添加作者微信:GO-GO-ZEPPELI,交流爆料。)
如何幫助用戶操縱數百萬個小程序?無疑是擺在微信 Agent 面前的一大難題。
如果按當前主流范式推演,通過人工標注專家數據軌跡的方式,大約可以覆蓋 20 個頭部小程序;次頭部約 500 個小程序,則可以通過標注大量任務及答案進行 RLVR;剩下的的海量長尾小程序,每次就只能從頭探索,組織成本和擴展瓶頸都很明顯。
![]()
好在原生自演進的到來提供了新的可能性,王琰也在社媒上興奮地向大家描述著自己與團隊的愿景:“在每個小程序上線之時,就可以通知微信 Agent 過來探索一番并生成小程序對應的世界知識。在后面的任務中,只要 Agent 打開了這個小程序,對應的世界知識文件就會加載到 Agent 的 context 中,無需重新探索,多用戶直接復用世界知識的 KV Cache。”
從論文到落地,這中間當然還有很多問題要解決。但這篇騰訊 AI Lab 的最后之作至少證明了一件事:當AI學會了“預習”——在沒有任務指引的情況下主動熟悉環境、沉淀知識——它離像人一樣自主適應復雜環境,又近了一步。
(關于騰訊 AI 的系列文章仍在持續推出中,下一篇講述騰訊 AI Lab 往事的文章即將與大家見面,歡迎添加作者微信:GO-GO-ZEPPELI,交流認知,分享八卦。)
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.