網易首頁 > 網易號 > 正文申請入駐

騰訊AI Lab絕唱：30B模型擊敗萬億旗艦，靠的是讓AI學會「預習」

2026-05-11 18:20:03　來源: AI科技評論

廣東舉報

分享至

無需人工獎勵，AI自主探索即能進化——解開無獎勵原生自演進之謎。

作者丨成仲軒

編輯丨董子博

從被動響應的“工具”到自主進化的“學徒”，AI Agent 每進化一個階段，都在擺脫一層對人類的依賴。

如今，隨著 AI Agent 逐步邁入自主進化的全新階段，一場從“人優化 Agent”到“Agent 優化自己”的革命性突破正在發生。無論是大幅降低使用和維護成本，還是讓其能自主應對連設計者都無法提前預料的復雜情況，等等，一個突破了設計者預設的能力邊界的 Agent，究竟能成長到怎樣的地步？不免讓人心潮澎湃。

尤其在當下 Agentic AI 和 OpenClaw 大行其道的范式里，AI Agent 執行一個單一任務已不再是簡單的單輪推理，而是要進行多輪推理和驗證，這就意味著其需要的 Token 消耗較之前有數倍甚至十倍的提升。

如何借力自主進化，降低 Token 消耗，進而在競爭趨于白熱化的戰場上占據更多先機？顯然成為當下各大廠商的競爭焦點之一。

不久前，騰訊混元團隊與香港科技大學（廣州）聯合發表論文《Training LLM Agents for Spontaneous, Reward-Free Self-Evolution via World Knowledge Exploration》，就為上述問題提供了一種前沿的解決思路。

先來看它的亮眼結果。

在網頁 Agent 任務上，參數量僅 14B 的 Qwen3-14B（33.1），直接擊敗了 Gemini-2.5-Flash（28.5）和 Kimi-K2-Turbo（28.6）。Qwen3-30B（42.5）更是超越了萬億參數量旗艦模型 Gemini-2.5-Pro（36.1）和 Kimi K2.5（36.2）。

輕量級模型能擊敗萬億級巨無霸，靠的不是新架構或秘密配方，而是一種被稱為“原生自演進”的能力。不同于過去被動等待指令的“提線木偶”，“原生自演進”為模型賦予了自我驅動的“生命力”，不需要人類給它指令或獎勵就能夠實現自我進化。而一個更加“聰明”的模型，無疑能減少反復拉扯過程中的“溝通成本”，做到事半功倍，進而有效降低 Token 的消耗。

除了能力的“特殊”，詳細論述了這項能力的論文也有一個特殊身份——騰訊 AI Lab 在 NLP 方向的最后一篇論文。而九年前，即 AI Lab 成立后的第二年，其在 NLP 方向的第一篇論文進入公眾視野，同樣引發行業思考。

世間之事，有時就是這么奇妙。

（關于騰訊的 AI Lab 往事，雷峰網仍在持續跟進中，并將在不久后為大家帶來新的隱秘往事，歡迎添加作者微信：GO-GO-ZEPPELI，交流爆料。)

“不靠獎勵”是怎么做到的

——原生自演進的技術路徑

要理解這項工作的價值，先看它解決什么問題。

過去幾年，“Agent 自我進化”無疑是一大研究熱點，但翻閱市面上的各方討論，我們發現論文的通訊作者王琰在社交媒體上指出了一個扎心的事實：大多數所謂的“進化”，本質上還是被人牽著走的——依賴人類設計的獎勵函數、流程規則、任務目標——外部監督一撤，成長就停止了。

就連作者本人也曾在工作中遇到類似的問題。比如團隊做的冥想盆范式和 StateLM，哪怕 StateLM 能夠及時將存儲在“冥想盆”中的信息去粗取精，以免上下文窗口被越堆越多的信息撐爆，但二者實現的還是 task-dependent記憶——一種相對死板的記憶方式。只要用戶任務稍有變化，模型就得從零開始探索，無法復用之前的記憶緩存。

那么，真正的自演進應該長什么樣？

王琰在社媒上為大家舉了個形象的案例，假設我們給 Agent 下了條指令：“過幾天用戶們就會問很多關于哈利波特的問題了，我給你買好了七本哈利波特，你準備一下。”然后 Agent 開始夜以繼日地學習，等真有用戶來提問時能做到對答如流，這才是真正的自演進，即在在沒有下游任務的情況下能夠自適應地熟悉環境。

帶著這個目標，團隊提出了名為“原生自演進”的技術方案。整個方案分兩個階段：

第一，探索階段。Agent 獲得新環境的自由訪問權限，以及寫入和修改文件的權限。它的任務是把環境中真正重要的信息提取出來，記錄到一個world_knowledge.md文件里。這份文件，就是該環境的世界知識。

第二，執行階段。當下游任務開始時，Agent 不需要再從零開始探索，而是直接把預先生成的世界知識加載到 prompt 中，然后開工。整個推理過程沒有任何人工獎勵、預設流程或任務提示，完全自主地用它自己積累的知識做事。

思路雖然清晰，但落地并不容易。

核心難題在于：沒有 ground-truth。此外，同樣是因為沒有訓練 signal，團隊也無法直接判斷生成的世界知識是好還是壞。

用下游任務的準確率來反推世界知識的質量，是團隊給出的解法。簡單來說，就是準備一批訓練環境，每個環境包含 10 到 30 個下游任務。對于同一個環境，生成多份不同的世界知識，然后分別拿去跑下游任務，誰的準確率提升最大，誰就是更好的世界知識。

至于期間涉及到的 reward，僅僅用于訓練，推理時完全不使用。因為在真實場景中，你永遠不可能提前知道用戶會問什么，這也正是“無獎勵”這個詞的含義所在——不是不用獎勵來訓練，而是在推理、部署階段不需要任何獎勵信號。

具體到訓練，分兩步走：

第一步，Warm Up 階段，這一步的目標是讓模型先學會什么是好的世界知識。為此團隊設計了復雜的prompt，用 Gemini-2.5-Pro 為每個環境生成 8 份不同的世界知識，并從中挑出 reward 最大且為正的結果，將其完整的生成軌跡作為 expert trajectories，用來對基模進行 SFT。

第二步，On-Policy Training 階段，這一步是為了讓模型的探索和信息壓縮能力變得更強。為此團隊讓 SFT 后的模型自己去生成世界知識，再同樣篩選選優，迭代兩個循環。過程中 prompt 也從最初幾萬 token 的長模板逐漸縮短至不到一千 token 的 instruction——模型確實內化了這種能力，不再依賴冗長的提示就能自主完成高質量的探索和信息壓縮。

14B贏Flash、30B超萬億旗艦：

實驗數據說明了什么？

團隊的成果，最終反映在開篇的論文與亮眼的對比實驗結果中。而這場實驗基于 Qwen3-30B-A3B 和 Seed-OSS-36B 兩個中等尺寸基模，在 WebWalker 和 WebVoyager 兩個網頁 agent task 上進行，有如下幾個發現值得關注：

第一，世界知識帶來的增益是實打實的。在有世界知識加持的情況下，模型平均準確率從 30% 躍升至 49%，提升了將近 20 個百分點。這其實也意味著：擁有世界知識的智能體能直接定位到關鍵信息節點，避免了從零開始盲目探索時的反復跳轉和信息遺漏。

第二，訓練不可或缺，且迭代真的有效。僅做了 SFT 的模型就已經跟教師模型 Gemini-2.5-Pro 打成平手，在經過 on-policy training 后更是反超了 5%。雖然 knowledge 坍塌的現象也很常見，且給未訓練的基模配上同樣的 prompt ，讓它直接去生成世界知識，效果不升反降，但這共同證明了一點：原生自演進是一種需要通過訓練習得的能力，沒法靠寫更長的 prompt 來解決。

第三，也是最引人注目的——世界知識可以跨模型遷移。

團隊為此做了一個有意思的實驗，將訓練好的模型生成的世界知識，直接喂給四個從未參與訓練的模型，結果全部出現了顯著提升：Qwen3-14B 達到 33.1、OpenAI-OSS-120B 達到 38.7、Gemini-2.5-Flash 達到 41.0、Kimi-K2-Turbo 達到 47.3——全部超越了各自領域的大哥級產品，就連訓練基模本身 Qwen3-30B（42.5）和 Seed-OSS-36B（39.5），也超過了 Gemini-2.5-Pro（36.1）和 Kimi K2.5（36.2）這兩款萬億參數量旗艦模型。

這意味著，世界知識是一種可以被不同模型共享并取得收益的“經驗資產”。進一步說，規模固然重要，但高質量的知識組織同樣能帶來巨大增益——在某些場景下甚至足以彌補數量級的參數差距。

第四，效率沒有因此變差，反而更好了。事實上，世界知識帶來的額外開銷確實存在，但可控。這一部分來自探索階段，大約幾百個 steps，但這只需要一個環境做一次，如果下游任務在該環境執行過上百萬次，均攤后的成本無限趨近于零；另一部分則來自線上持續加載世界知識的開銷，但這部分可以命中緩存，實際開銷約為重算的十分之一，為下游任務帶來的額外 cost 也不到 5%。

此外，在世界知識的加持下，Agent 執行任務時需要的步數減少了 17%。又因為 decoding 的計算開銷遠大于 prefilling，Agent 在用戶的實際體驗中不僅做到了更聰明，而且更快了。外界擔憂的“token 爆炸”也沒有出現，反而降低了 token 的消耗。

結語

2026 年 3 月 20 日，騰訊內部通知撤銷成立近十年的 AI Lab，原團隊整體并入混元大模型體系，由首席科學家姚順雨統一領導。

AI Lab 的時代由此畫上句號。

有意思的是，AI Lab 的最后一篇論文，指向了騰訊內部的“最高優先級項目”。

眼下，眾多線索都將該項目指向微信 Agent。

（雷峰網目前正在關注微信 Agent 的相關信息，歡迎添加作者微信：GO-GO-ZEPPELI，交流爆料。）

如何幫助用戶操縱數百萬個小程序？無疑是擺在微信 Agent 面前的一大難題。

如果按當前主流范式推演，通過人工標注專家數據軌跡的方式，大約可以覆蓋 20 個頭部小程序；次頭部約 500 個小程序，則可以通過標注大量任務及答案進行 RLVR；剩下的的海量長尾小程序，每次就只能從頭探索，組織成本和擴展瓶頸都很明顯。

好在原生自演進的到來提供了新的可能性，王琰也在社媒上興奮地向大家描述著自己與團隊的愿景：“在每個小程序上線之時，就可以通知微信 Agent 過來探索一番并生成小程序對應的世界知識。在后面的任務中，只要 Agent 打開了這個小程序，對應的世界知識文件就會加載到 Agent 的 context 中，無需重新探索，多用戶直接復用世界知識的 KV Cache。”

從論文到落地，這中間當然還有很多問題要解決。但這篇騰訊 AI Lab 的最后之作至少證明了一件事：當AI學會了“預習”——在沒有任務指引的情況下主動熟悉環境、沉淀知識——它離像人一樣自主適應復雜環境，又近了一步。

（關于騰訊 AI 的系列文章仍在持續推出中，下一篇講述騰訊 AI Lab 往事的文章即將與大家見面，歡迎添加作者微信：GO-GO-ZEPPELI，交流認知，分享八卦。)

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.