<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      騰訊AI Lab絕唱:30B模型擊敗萬億旗艦,靠的是讓AI學會「預習」

      0
      分享至


      無需人工獎勵,AI自主探索即能進化——解開無獎勵原生自演進之謎。

      作者丨成仲軒

      編輯丨董子博

      從被動響應的“工具”到自主進化的“學徒”,AI Agent 每進化一個階段,都在擺脫一層對人類的依賴。

      如今,隨著 AI Agent 逐步邁入自主進化的全新階段,一場從“人優化 Agent”到“Agent 優化自己”的革命性突破正在發生。無論是大幅降低使用和維護成本,還是讓其能自主應對連設計者都無法提前預料的復雜情況,等等,一個突破了設計者預設的能力邊界的 Agent,究竟能成長到怎樣的地步?不免讓人心潮澎湃。

      尤其在當下 Agentic AI 和 OpenClaw 大行其道的范式里,AI Agent 執行一個單一任務已不再是簡單的單輪推理,而是要進行多輪推理和驗證,這就意味著其需要的 Token 消耗較之前有數倍甚至十倍的提升。

      如何借力自主進化,降低 Token 消耗,進而在競爭趨于白熱化的戰場上占據更多先機?顯然成為當下各大廠商的競爭焦點之一。

      不久前,騰訊混元團隊與香港科技大學(廣州)聯合發表論文《Training LLM Agents for Spontaneous, Reward-Free Self-Evolution via World Knowledge Exploration》,就為上述問題提供了一種前沿的解決思路。

      先來看它的亮眼結果。

      在網頁 Agent 任務上,參數量僅 14B 的 Qwen3-14B(33.1),直接擊敗了 Gemini-2.5-Flash(28.5)和 Kimi-K2-Turbo(28.6)。Qwen3-30B(42.5)更是超越了萬億參數量旗艦模型 Gemini-2.5-Pro(36.1)和 Kimi K2.5(36.2)。

      輕量級模型能擊敗萬億級巨無霸,靠的不是新架構或秘密配方,而是一種被稱為“原生自演進”的能力。不同于過去被動等待指令的“提線木偶”,“原生自演進”為模型賦予了自我驅動的“生命力”,不需要人類給它指令或獎勵就能夠實現自我進化。而一個更加“聰明”的模型,無疑能減少反復拉扯過程中的“溝通成本”,做到事半功倍,進而有效降低 Token 的消耗。

      除了能力的“特殊”,詳細論述了這項能力的論文也有一個特殊身份——騰訊 AI Lab 在 NLP 方向的最后一篇論文。而九年前,即 AI Lab 成立后的第二年,其在 NLP 方向的第一篇論文進入公眾視野,同樣引發行業思考。

      世間之事,有時就是這么奇妙。

      (關于騰訊的 AI Lab 往事,雷峰網仍在持續跟進中,并將在不久后為大家帶來新的隱秘往事,歡迎添加作者微信:GO-GO-ZEPPELI,交流爆料。)

      01


      “不靠獎勵”是怎么做到的

      ——原生自演進的技術路徑

      要理解這項工作的價值,先看它解決什么問題。

      過去幾年,“Agent 自我進化”無疑是一大研究熱點,但翻閱市面上的各方討論,我們發現論文的通訊作者王琰在社交媒體上指出了一個扎心的事實:大多數所謂的“進化”,本質上還是被人牽著走的——依賴人類設計的獎勵函數、流程規則、任務目標——外部監督一撤,成長就停止了。

      就連作者本人也曾在工作中遇到類似的問題。比如團隊做的冥想盆范式和 StateLM,哪怕 StateLM 能夠及時將存儲在“冥想盆”中的信息去粗取精,以免上下文窗口被越堆越多的信息撐爆,但二者實現的還是 task-dependent記憶——一種相對死板的記憶方式。只要用戶任務稍有變化,模型就得從零開始探索,無法復用之前的記憶緩存。


      那么,真正的自演進應該長什么樣?

      王琰在社媒上為大家舉了個形象的案例,假設我們給 Agent 下了條指令:“過幾天用戶們就會問很多關于哈利波特的問題了,我給你買好了七本哈利波特,你準備一下。”然后 Agent 開始夜以繼日地學習,等真有用戶來提問時能做到對答如流,這才是真正的自演進,即在在沒有下游任務的情況下能夠自適應地熟悉環境。

      帶著這個目標,團隊提出了名為“原生自演進”的技術方案。整個方案分兩個階段:

      第一,探索階段。Agent 獲得新環境的自由訪問權限,以及寫入和修改文件的權限。它的任務是把環境中真正重要的信息提取出來,記錄到一個world_knowledge.md文件里。這份文件,就是該環境的世界知識。

      第二,執行階段。當下游任務開始時,Agent 不需要再從零開始探索,而是直接把預先生成的世界知識加載到 prompt 中,然后開工。整個推理過程沒有任何人工獎勵、預設流程或任務提示,完全自主地用它自己積累的知識做事。


      思路雖然清晰,但落地并不容易。

      核心難題在于:沒有 ground-truth。此外,同樣是因為沒有訓練 signal,團隊也無法直接判斷生成的世界知識是好還是壞。

      用下游任務的準確率來反推世界知識的質量,是團隊給出的解法。簡單來說,就是準備一批訓練環境,每個環境包含 10 到 30 個下游任務。對于同一個環境,生成多份不同的世界知識,然后分別拿去跑下游任務,誰的準確率提升最大,誰就是更好的世界知識。

      至于期間涉及到的 reward,僅僅用于訓練,推理時完全不使用。因為在真實場景中,你永遠不可能提前知道用戶會問什么,這也正是“無獎勵”這個詞的含義所在——不是不用獎勵來訓練,而是在推理、部署階段不需要任何獎勵信號。

      具體到訓練,分兩步走:

      第一步,Warm Up 階段,這一步的目標是讓模型先學會什么是好的世界知識。為此團隊設計了復雜的prompt,用 Gemini-2.5-Pro 為每個環境生成 8 份不同的世界知識,并從中挑出 reward 最大且為正的結果,將其完整的生成軌跡作為 expert trajectories,用來對基模進行 SFT。

      第二步,On-Policy Training 階段,這一步是為了讓模型的探索和信息壓縮能力變得更強。為此團隊讓 SFT 后的模型自己去生成世界知識,再同樣篩選選優,迭代兩個循環。過程中 prompt 也從最初幾萬 token 的長模板逐漸縮短至不到一千 token 的 instruction——模型確實內化了這種能力,不再依賴冗長的提示就能自主完成高質量的探索和信息壓縮。

      02


      14B贏Flash、30B超萬億旗艦:

      實驗數據說明了什么?

      團隊的成果,最終反映在開篇的論文與亮眼的對比實驗結果中。而這場實驗基于 Qwen3-30B-A3B 和 Seed-OSS-36B 兩個中等尺寸基模,在 WebWalker 和 WebVoyager 兩個網頁 agent task 上進行,有如下幾個發現值得關注:


      第一,世界知識帶來的增益是實打實的。在有世界知識加持的情況下,模型平均準確率從 30% 躍升至 49%,提升了將近 20 個百分點。這其實也意味著:擁有世界知識的智能體能直接定位到關鍵信息節點,避免了從零開始盲目探索時的反復跳轉和信息遺漏。

      第二,訓練不可或缺,且迭代真的有效。僅做了 SFT 的模型就已經跟教師模型 Gemini-2.5-Pro 打成平手,在經過 on-policy training 后更是反超了 5%。雖然 knowledge 坍塌的現象也很常見,且給未訓練的基模配上同樣的 prompt ,讓它直接去生成世界知識,效果不升反降,但這共同證明了一點:原生自演進是一種需要通過訓練習得的能力,沒法靠寫更長的 prompt 來解決。

      第三,也是最引人注目的——世界知識可以跨模型遷移。

      團隊為此做了一個有意思的實驗,將訓練好的模型生成的世界知識,直接喂給四個從未參與訓練的模型,結果全部出現了顯著提升:Qwen3-14B 達到 33.1、OpenAI-OSS-120B 達到 38.7、Gemini-2.5-Flash 達到 41.0、Kimi-K2-Turbo 達到 47.3——全部超越了各自領域的大哥級產品,就連訓練基模本身 Qwen3-30B(42.5)和 Seed-OSS-36B(39.5),也超過了 Gemini-2.5-Pro(36.1)和 Kimi K2.5(36.2)這兩款萬億參數量旗艦模型。


      這意味著,世界知識是一種可以被不同模型共享并取得收益的“經驗資產”。進一步說,規模固然重要,但高質量的知識組織同樣能帶來巨大增益——在某些場景下甚至足以彌補數量級的參數差距。

      第四,效率沒有因此變差,反而更好了。事實上,世界知識帶來的額外開銷確實存在,但可控。這一部分來自探索階段,大約幾百個 steps,但這只需要一個環境做一次,如果下游任務在該環境執行過上百萬次,均攤后的成本無限趨近于零;另一部分則來自線上持續加載世界知識的開銷,但這部分可以命中緩存,實際開銷約為重算的十分之一,為下游任務帶來的額外 cost 也不到 5%。

      此外,在世界知識的加持下,Agent 執行任務時需要的步數減少了 17%。又因為 decoding 的計算開銷遠大于 prefilling,Agent 在用戶的實際體驗中不僅做到了更聰明,而且更快了。外界擔憂的“token 爆炸”也沒有出現,反而降低了 token 的消耗。

      03


      結語

      2026 年 3 月 20 日,騰訊內部通知撤銷成立近十年的 AI Lab,原團隊整體并入混元大模型體系,由首席科學家姚順雨統一領導。

      AI Lab 的時代由此畫上句號。

      有意思的是,AI Lab 的最后一篇論文,指向了騰訊內部的“最高優先級項目”。

      眼下,眾多線索都將該項目指向微信 Agent。

      (雷峰網目前正在關注微信 Agent 的相關信息,歡迎添加作者微信:GO-GO-ZEPPELI,交流爆料。)

      如何幫助用戶操縱數百萬個小程序?無疑是擺在微信 Agent 面前的一大難題。

      如果按當前主流范式推演,通過人工標注專家數據軌跡的方式,大約可以覆蓋 20 個頭部小程序;次頭部約 500 個小程序,則可以通過標注大量任務及答案進行 RLVR;剩下的的海量長尾小程序,每次就只能從頭探索,組織成本和擴展瓶頸都很明顯。


      好在原生自演進的到來提供了新的可能性,王琰也在社媒上興奮地向大家描述著自己與團隊的愿景:“在每個小程序上線之時,就可以通知微信 Agent 過來探索一番并生成小程序對應的世界知識。在后面的任務中,只要 Agent 打開了這個小程序,對應的世界知識文件就會加載到 Agent 的 context 中,無需重新探索,多用戶直接復用世界知識的 KV Cache。”

      從論文到落地,這中間當然還有很多問題要解決。但這篇騰訊 AI Lab 的最后之作至少證明了一件事:當AI學會了“預習”——在沒有任務指引的情況下主動熟悉環境、沉淀知識——它離像人一樣自主適應復雜環境,又近了一步。

      (關于騰訊 AI 的系列文章仍在持續推出中,下一篇講述騰訊 AI Lab 往事的文章即將與大家見面,歡迎添加作者微信:GO-GO-ZEPPELI,交流認知,分享八卦。)

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      名記:詹姆斯如果離開湖人,大概率只能簽全額中產或老將底薪

      名記:詹姆斯如果離開湖人,大概率只能簽全額中產或老將底薪

      懂球帝
      2026-05-15 14:15:07
      洛克菲勒家訓中有一條殘酷鐵律:人窮的時候,拼人脈是蠢,拼苦力是險,唯一的上策是死磕這兩個杠桿_

      洛克菲勒家訓中有一條殘酷鐵律:人窮的時候,拼人脈是蠢,拼苦力是險,唯一的上策是死磕這兩個杠桿_

      心理觀察局
      2026-05-15 09:12:05
      遭了!騎士隊內病毒疾病蔓延!!

      遭了!騎士隊內病毒疾病蔓延!!

      柚子說球
      2026-05-15 19:36:23
      南京4個區,區政府主要領導調整

      南京4個區,區政府主要領導調整

      上觀新聞
      2026-05-15 18:08:13
      “滿臉通紅”,廣東一男子考科目二前一天凌晨醉駕:以為不會被發現,沒想到真遇上了;交警回應

      “滿臉通紅”,廣東一男子考科目二前一天凌晨醉駕:以為不會被發現,沒想到真遇上了;交警回應

      魯中晨報
      2026-05-15 18:22:06
      深夜加班回家,門鎖被換行李被扔在樓道,我掏出房本報警:房是我全款買的

      深夜加班回家,門鎖被換行李被扔在樓道,我掏出房本報警:房是我全款買的

      麥子情感故事
      2026-05-15 15:43:11
      名記:姆巴佩與阿韋洛亞之爭證實,阿隆索是被三巨頭聯手做掉的

      名記:姆巴佩與阿韋洛亞之爭證實,阿隆索是被三巨頭聯手做掉的

      星耀國際足壇
      2026-05-15 11:08:33
      中美峰會,盧秀燕表態,鄭麗文發聲,島內支持統一民調人數驚人

      中美峰會,盧秀燕表態,鄭麗文發聲,島內支持統一民調人數驚人

      DS北風
      2026-05-15 17:55:21
      張雪峰猝死不到2月,小沈陽被緊急送往就醫,已是10天內第二次

      張雪峰猝死不到2月,小沈陽被緊急送往就醫,已是10天內第二次

      一盅情懷
      2026-05-15 15:40:38
      三胎生父被曝后,張柏芝案終于判了,好消息傳來難怪早已立好遺囑

      三胎生父被曝后,張柏芝案終于判了,好消息傳來難怪早已立好遺囑

      叨嘮
      2026-05-15 04:02:27
      iPhone 17 官方宣布降價!蘋果推出 618 優惠活動

      iPhone 17 官方宣布降價!蘋果推出 618 優惠活動

      XCiOS俱樂部
      2026-05-15 08:35:34
      再見湖人!再見東契奇!詹姆斯新合同曝光,網友:白菜價

      再見湖人!再見東契奇!詹姆斯新合同曝光,網友:白菜價

      野渡舟山人
      2026-05-15 18:19:22
      國防部長董軍最新現身,兩次露面,釋放出什么信號?

      國防部長董軍最新現身,兩次露面,釋放出什么信號?

      李昕言溫度空間
      2026-05-15 07:44:56
      馬斯克帶兒子亮相人民大會堂,搶鏡的虎頭包,疑似馬斯克媽媽挑選

      馬斯克帶兒子亮相人民大會堂,搶鏡的虎頭包,疑似馬斯克媽媽挑選

      丁鸊驚悚影視解說
      2026-05-15 11:08:25
      你發現了沒?如果沒有父母的幫襯,很多年輕人的婚姻,撐不了多久

      你發現了沒?如果沒有父母的幫襯,很多年輕人的婚姻,撐不了多久

      小馬達情感故事
      2026-05-14 18:50:05
      難怪黃仁勛那么積極跟著特朗普訪華,一到北京就拿下了大額訂單。

      難怪黃仁勛那么積極跟著特朗普訪華,一到北京就拿下了大額訂單。

      魔都姐姐雜談
      2026-05-14 22:09:10
      中美會談圓滿結束,中方當面對臺灣問題定調,特朗普反應值得細品

      中美會談圓滿結束,中方當面對臺灣問題定調,特朗普反應值得細品

      扶蘇聊歷史
      2026-05-15 18:45:36
      當著全球的面,朝鮮立最高鐵律:只要我被“斬首”,核彈立刻升空

      當著全球的面,朝鮮立最高鐵律:只要我被“斬首”,核彈立刻升空

      小噎論事
      2026-05-12 15:24:59
      會談結束!中美談足135分鐘,中方一錘定音,臺灣問題有了定論

      會談結束!中美談足135分鐘,中方一錘定音,臺灣問題有了定論

      阿物評論哥
      2026-05-14 16:58:40
      紅酒白酒全面崩盤,中國人為啥突然不愿意喝酒了呢?

      紅酒白酒全面崩盤,中國人為啥突然不愿意喝酒了呢?

      流蘇晚晴
      2026-05-12 19:17:02
      2026-05-15 19:52:49
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7278文章數 20751關注度
      往期回顧 全部

      科技要聞

      兩年聯姻一地雞毛,傳蘋果OpenAI瀕臨決裂

      頭條要聞

      美媒詢問是否認為現在的美國是"衰落國家" 外交部回應

      頭條要聞

      美媒詢問是否認為現在的美國是"衰落國家" 外交部回應

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      藝術
      本地
      旅游
      時尚
      公開課

      藝術要聞

      敦煌挖出王羲之書法!全卷2000字清晰如新!

      本地新聞

      用蘇繡的方式,打開江西婺源

      旅游要聞

      首屆中國新文創市集暨潮玩游園會打造文旅消費新場景

      56歲逆風翻盤,她怎么從全網群嘲變成了大家的天才女友?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 性爱视频免费| 欧美日韩一| 国产视频资源| 亚洲精品日韩av| 日本乱人伦片中文三区| 人妻巨大乳挤奶水hd免费看| 中文字幕伦视频| 国产作爱激烈叫床视频| 国产精品成人va在线播放| 性色av成人精品久久 | 3p视频在线观看| 日韩一区电影| 成人在线观看网址| 亚洲熟妇一区二区三个区| av熟女在线更新| 亚洲AV日韩AV永久无码久久| 亚欧精品视频在线观看免费| 久久婷婷五月综合尤物色国产| 国产三级va| 国产精品久久久久9999高清| 无码人妻丰满熟妇区免费| 亚洲美腿丝袜无码专区| 一区二区视频| 亚洲成av人片天堂网无码| 东海县| 国产在线午夜不卡精品影院| 亚洲熟女人| 亚洲精品成人a| 欧美性交视屏| 精品熟女少妇a∨免费久久| 国产偷国产偷亚洲清高app| 伊人99| 永久精品视频| 8AV国产精品爽爽ⅤA在线观看| 中年人妻丰满AV无码久久不卡| 丰满放荡岳乱妇91ww| 粗大的内捧猛烈进出小视频| 玩弄放荡人妇系列av在线网站| 欧美成人一区二区三区片免费| 午夜av福利一区二区三区 | 亚洲免费视频P|