網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

騰訊AI還有一張暗牌

2026-04-07 19:35:48　來源: 新莓daybreak

上海舉報(bào)

分享至

“明牌秀肌肉，暗牌亮底牌。一個(gè)是產(chǎn)品生態(tài)的廣度，一個(gè)是工程基礎(chǔ)設(shè)施的深度。”

撰文｜司曉柏

編輯｜翟文婷

騰訊AI剛打完一手明牌。元寶、龍蝦特工隊(duì)、養(yǎng)蝦全景圖，產(chǎn)品矩陣鋪到桌面上，生態(tài)布局畫得清清楚楚。

但明牌底下還壓著一張暗牌。

3月27日，騰訊云上海峰會(huì)。MiniMax的Agent首席架構(gòu)師阿島講了一個(gè)訓(xùn)練困境——大模型的強(qiáng)化學(xué)習(xí)撞上了沙箱瓶頸，十萬級(jí)并發(fā)環(huán)境在K8S上根本跑不動(dòng)。同一場(chǎng)峰會(huì)，湯道生丟出一句判斷：「AI落地不只是一道算法題，更是一道工程題。」

一個(gè)是大模型公司技術(shù)同學(xué)的切膚之痛，一個(gè)是大廠掌門人的戰(zhàn)略洞察。兩個(gè)人從不同方向，撞進(jìn)了同一件事——它不在任何產(chǎn)品發(fā)布清單上，藏在底層：十萬級(jí)并發(fā)沙箱、百毫秒級(jí)啟動(dòng)、兩群工程師在行業(yè)還沒反應(yīng)過來之前，悄悄把基礎(chǔ)設(shè)施推到了下一個(gè)屬于Agent的時(shí)代。

這才是那張名為「工程」的暗牌。

01 白板上的四個(gè)字

2022年初，MiniMax還沒有這個(gè)名字。創(chuàng)始人閆俊杰在一間簡(jiǎn)陋辦公室的白板上寫下「下一代AI」。彼時(shí)GPT-3剛發(fā)布不久，ChatGPT要再等一年，「AGI」這個(gè)詞還沒幾個(gè)人聊。四年后的2026年1月，MiniMax港交所上市，首日漲幅達(dá)到109%，市值突破1000億港元。

但阿島——繆宇航，公司內(nèi)部都這么叫他——站在峰會(huì)臺(tái)上翻出這張白板老照片時(shí)，講的不是上市的事。

他反復(fù)說的是一個(gè)技術(shù)困境：模型訓(xùn)練的底層邏輯變了。模型不再是做完一道題就交卷——它得在真實(shí)環(huán)境里操作文件、寫代碼、調(diào)用工具、處理異常，每次試錯(cuò)都要一個(gè)獨(dú)立運(yùn)行環(huán)境。當(dāng)需求膨脹到十萬級(jí)并發(fā)，云計(jì)算的底層架構(gòu)被撞出了裂縫。

02 K8S撐不住了

大模型過去靠經(jīng)典強(qiáng)化學(xué)習(xí)變聰明——給個(gè)問題，生成回答，打分，更新參數(shù)。但到了2025年下半年，天花板肉眼可見了。模型在封閉環(huán)境里「做題」已經(jīng)很強(qiáng)，一放到真實(shí)世界立刻大打折扣——沒有持久狀態(tài)，每次對(duì)話都是全新開始；只能寫代碼不能跑代碼，缺少「寫→跑→看→修」的自我驗(yàn)證循環(huán)；無法獲取實(shí)時(shí)知識(shí)，也無法搭建真實(shí)的工作環(huán)境。

說到底，裸模型像一臺(tái)空轉(zhuǎn)的引擎，引擎本身不是汽車。MiniMax從M2.5版本開始押另一條路：Agentic RL（基于強(qiáng)化學(xué)習(xí)的智能體訓(xùn)練）——直接把模型扔進(jìn)真實(shí)操作系統(tǒng)環(huán)境里干活。走通了，能力質(zhì)變。但它需要全新的訓(xùn)練基礎(chǔ)設(shè)施。

但是，以前我們可能只是讓AI寫一段話，或者處理一個(gè)簡(jiǎn)單的函數(shù)，但隨著Agent的到來，我們現(xiàn)在要求AI去修理一輛正在跑的超級(jí)大卡車，或者是從頭造出一臺(tái)能用的iPhone。這意味著在Agent時(shí)代，模型面對(duì)的訓(xùn)練任務(wù)是地獄級(jí)的。

每個(gè)訓(xùn)練任務(wù)可能推演（Roll out）出上百條嘗試路徑（Trajectory），每條路徑都需要一個(gè)獨(dú)立的沙箱環(huán)境。面對(duì)成千上萬個(gè)用戶請(qǐng)求（Query），每個(gè)請(qǐng)求都要同時(shí)開啟上百個(gè)沙箱并發(fā)運(yùn)行。

阿島說了句大實(shí)話：「一開始我們?cè)贙8S上跑。然后發(fā)現(xiàn)真的不行，并發(fā)完全起不來。」K8S——Kubernetes，現(xiàn)代云計(jì)算事實(shí)上的調(diào)度標(biāo)準(zhǔn)。但這套為微服務(wù)時(shí)代設(shè)計(jì)的系統(tǒng)，面對(duì)Agent訓(xùn)練動(dòng)輒幾萬個(gè)沙箱同時(shí)拉起的場(chǎng)景，扛不住了。

騰訊云Agent Runtime產(chǎn)品副總經(jīng)理于廣游（Gary）捅破了一層窗戶紙：「每一個(gè)大模型企業(yè)內(nèi)部，訓(xùn)練沙箱基礎(chǔ)設(shè)施面臨兩大困境。第一，它是CPU的，不是GPU的，所以很難發(fā)論文。第二，搞K8S那群人看到你竟然要拉master（指向K8S系統(tǒng)核心頻繁索要資源）拉幾千下幾萬下，把我拉垮了，第一反應(yīng)是——你能不能不要拉這么多。」

這種高頻、海量的調(diào)度需求，正是目前大模型落地工程中最隱形、也最頭疼的「摩擦力」，它直接卡住了模型迭代的脖子。

偏偏MiniMax一個(gè)月發(fā)一個(gè)模型版本，國(guó)內(nèi)可能唯一做到這個(gè)頻率的，全球只有OpenAI保持類似節(jié)奏。算一筆賬：Agentic RL訓(xùn)練時(shí)，GPU集群等沙箱啟動(dòng)的每一秒都在空轉(zhuǎn)燒錢。十萬個(gè)并發(fā)沙箱，啟動(dòng)要幾分鐘，累積等待可能吞掉數(shù)小時(shí)甚至數(shù)天的GPU算力。

沙箱慢一天，模型落后一天。「現(xiàn)在的競(jìng)爭(zhēng)就是這么激烈。」

03 百萬級(jí)吞吐怎么來的

問題擺在那里，MiniMax和騰訊云很快走到了一起。

2026年3月18日，雙方宣布合作：基于騰訊云Agent Runtime沙箱產(chǎn)品，MiniMax部署了百萬級(jí)吞吐、十萬級(jí)并發(fā)的Agent RL沙箱，測(cè)試環(huán)境全量平穩(wěn)運(yùn)行。阿島說：「據(jù)我們所知，這是國(guó)內(nèi)最大的訓(xùn)練沙箱系統(tǒng)之一。」Gary說，規(guī)模比同行高出至少一個(gè)數(shù)量級(jí)。

效果最直觀的數(shù)字是啟動(dòng)速度——從幾分鐘壓到百毫秒級(jí)，快了數(shù)倍。前面那筆GPU空轉(zhuǎn)的賬，直接被壓縮了一個(gè)量級(jí)。

撐住這個(gè)規(guī)模，騰訊云在底層做了大量累活。計(jì)算層：調(diào)度優(yōu)化、內(nèi)核鎖優(yōu)化、快照技術(shù)、內(nèi)存映射。存儲(chǔ)層：專門開發(fā)了加速存儲(chǔ)方案。Gary打了個(gè)比方——「過去需要買一塊云盤，現(xiàn)在可以理解成買一個(gè)鏡像盤或者沙箱盤，磁盤本身就是鏡像本身。」

他指出，大家現(xiàn)在都在嘗試用「舊瓶裝新酒」，但這兩個(gè)舊瓶子（K8S和Serverless）的設(shè)計(jì)初衷，剛好和Agent的性格完全相反：把Agent想象成一個(gè)有記憶、要長(zhǎng)時(shí)間閉關(guān)思考的專家，但K8S按照慣例把給Agent關(guān)掉重啟，Agent就會(huì)瞬間失憶，Serverless（無服務(wù)器計(jì)算）就像是頻繁開關(guān)的「聲控?zé)簟梗凇笇懻撐摹沟腁gent卻需要燈光長(zhǎng)亮。

這就是為什么騰訊云要給Agent造一個(gè)新的流水線。Gary強(qiáng)調(diào)，「這些不是因?yàn)槲覀儽葎e人更聰明，而是我們真正認(rèn)識(shí)到這里的問題跟價(jià)值」。

對(duì)于Agent需要怎樣的訓(xùn)練設(shè)施，業(yè)內(nèi)還有一個(gè)容易被忽視的區(qū)別：大多數(shù)AI公司解決沙箱問題的思路是在本地搭環(huán)境——進(jìn)程跑在自己機(jī)器上，安全靠手動(dòng)確認(rèn)，電腦一關(guān)任務(wù)就斷。

騰訊云走的是另一條路：把整個(gè)Harness拆成「控制面+執(zhí)行面」的云原生架構(gòu)。控制面做編排、權(quán)限、審計(jì)；執(zhí)行面就是Agent Runtime沙箱，每個(gè)任務(wù)跑在獨(dú)立的云端隔離環(huán)境里，毫秒級(jí)啟動(dòng)，用完即焚，任務(wù)狀態(tài)持久化存儲(chǔ)，沙箱銷毀了也能從斷點(diǎn)恢復(fù)。一個(gè)是「帶安全帶的智能終端」，一個(gè)是「帶監(jiān)控和隔離艙的云工廠」——對(duì)企業(yè)場(chǎng)景來說，安全、協(xié)作、彈性缺一不可，后者才是生產(chǎn)級(jí)方案。

04 同一堵墻

湯道生的判斷干脆利落——主流大模型推理能力都不差了，國(guó)內(nèi)開源跟海外閉源的差距在收窄。比拼重心正在轉(zhuǎn)移：不是「誰的模型更強(qiáng)」，是誰能通過工程化手段把模型用好。

他在峰會(huì)上把「工程題」拆得很細(xì)：模型要真正落地，需要工具調(diào)用能力、需要上下文管理、需要長(zhǎng)記憶、需要安全的執(zhí)行環(huán)境、需要工作流編排——這些東西加在一起，他用了一個(gè)詞概括：Harness，模型的「腳手架」。湯道生的意思很明確，騰訊云要做的不是賣算力，而是幫企業(yè)把這套腳手架搭起來。

行業(yè)正在形成一個(gè)共識(shí)性公式：Agent = Model + Harness。Model負(fù)責(zé)「想」，Harness負(fù)責(zé)讓智能變得「有用」——工具調(diào)用、代碼執(zhí)行沙箱、上下文工程、長(zhǎng)記憶管理、工作流編排，一整套系統(tǒng)工程。模型決定能力下限，Harness決定能力上限。有實(shí)踐數(shù)據(jù)可以佐證：花三個(gè)月調(diào)Prompt，質(zhì)量提升20%；花兩周搭Harness，任務(wù)完成率從35%飆到82%。

這不是騰訊一家的發(fā)現(xiàn)。

2026年2月，HashiCorp聯(lián)合創(chuàng)始人Mitchell Hashimoto正式提出「Harness Engineering」。幾乎同期，OpenAI做了一個(gè)激進(jìn)實(shí)驗(yàn)——3名工程師，5個(gè)月，100萬行代碼，零行人工代碼，人類只管設(shè)計(jì)Harness。Anthropic、LangChain也摸到了類似結(jié)論。

全世界最頂尖的工程大腦，在不同時(shí)區(qū)同時(shí)碰到了同一堵墻：模型的能力天花板還遠(yuǎn)，但工程框架的地板才決定實(shí)際效果。行業(yè)的關(guān)注點(diǎn)正在從「Prompt工程」轉(zhuǎn)向「上下文工程」——不再只是「怎么寫指令」，而是「如何構(gòu)建模型看到的全部信息體系」。

阿島把這變成了一個(gè)畫面：「就像一輛F1賽車，我們?nèi)ラ_，能順利開回來就不錯(cuò)了。但真正的賽車手能刷出世界紀(jì)錄。今天Agent也是同樣的——我們能不能為它打造企業(yè)級(jí)的F1車身，也就是Harness？」

MiniMax的實(shí)踐印證了這一點(diǎn)。MiniMax M2.7 正式開啟模型的自我進(jìn)化，AI深度參與了模型的訓(xùn)練，強(qiáng)化學(xué)習(xí)中50%-70%的工作由Agent自主完成。人類研究員的角色變了，變成跟Agent聊實(shí)驗(yàn)idea。

但前提是：沙箱夠快、夠穩(wěn)、夠大。Harness是一套系統(tǒng)工程，包含文件系統(tǒng)、代碼執(zhí)行、記憶、搜索、上下文管理、編排六大組件——而沙箱是其中最底層的那一塊，所有上層能力都建立在「模型能不能真正在一個(gè)環(huán)境里跑起來」這個(gè)前提之上。否則再精巧的Harness設(shè)計(jì)，也卡在最不起眼的環(huán)節(jié)上。湯道生那句「AI落地是一道工程題」，說的不只是Harness設(shè)計(jì)，更是底層基礎(chǔ)設(shè)施的硬功夫。

05 兩群工程師的氣味相投

阿島在峰會(huì)上放了那張MiniMax Day 1的白板照片。「成立的Day 1就有騰訊云提供支持。那時(shí)候我們還是名不見經(jīng)傳的小公司，騰訊云并沒有因?yàn)槲覀冃【偷÷臀覀円黄鸫罱擞?xùn)練算力集群，一起服務(wù)了第一個(gè)爆款產(chǎn)品。」

四年，合作從算力集群到Agent RL沙箱、全球合規(guī)、上層應(yīng)用接入。阿島說騰訊云「非常技術(shù)驅(qū)動(dòng)，思維也非常agent first」。聽著像客套，但對(duì)照實(shí)際發(fā)生的事看，它指向一種具體的行為模式：遇到問題，不繞路，不等標(biāo)準(zhǔn)，先把手弄臟。

K8S跑不動(dòng)，就一起從頭設(shè)計(jì)專用沙箱。行業(yè)還沒認(rèn)識(shí)到Agent基礎(chǔ)設(shè)施的價(jià)值，就自己先投進(jìn)去。這種默契是項(xiàng)目里做出來的，不是會(huì)議室里談出來的。

MiniMax模型開源，騰訊云通過TokenHub分發(fā)模型服務(wù)。阿島說：「哪怕已經(jīng)上市了，我們?nèi)匀皇且患抑挥袔装偃说男」荆豢赡芊?wù)那么多大客戶。」騰訊云幫他把模型送到更多客戶手里；MiniMax那些極端的訓(xùn)練需求，也在倒逼騰訊云向Agent時(shí)代進(jìn)化。

而MiniMax不是唯一一個(gè)撞上這堵墻的。任何一家認(rèn)真做Agentic RL的公司，遲早都會(huì)遇到同樣的沙箱瓶頸。區(qū)別只在于，有沒有人先把路趟出來。

Gary說：「我們是在兩個(gè)時(shí)代的臨界點(diǎn)上，一起攜手。」阿島的表述類似：「一個(gè)新時(shí)代對(duì)舊時(shí)代的——其實(shí)我們是在一邊的。」

06 那張暗牌

MiniMax的M2.7在AA大模型榜單國(guó)產(chǎn)模型排名第一，跟Claude在SWE-bench Verified上差距只剩0.6%。

阿島判斷：「再過一兩年能留在牌桌上的公司可能不超過5家。」靠什么留？衡量這個(gè)時(shí)代工程師的水平，基本上看一個(gè)指標(biāo)——他同時(shí)能并發(fā)多少個(gè)Agent為他工作，他每天能燃燒多少Token。

這個(gè)指標(biāo)適用于個(gè)人，也適用于公司。訓(xùn)練效率真正的瓶頸，不在GPU——在沙箱。

湯道生在上海峰會(huì)上還宣布了騰訊云底層平臺(tái)Cube全面開源，企業(yè)可直接用于智能體訓(xùn)練和部署。這實(shí)際上就是騰訊回應(yīng)「沙箱困境」的其中一個(gè)解法，通過開源，讓大模型的腳手架更好用。

騰訊已經(jīng)把AI的明牌攤在桌上——產(chǎn)品矩陣、生態(tài)全景圖、IM入口、Skill工具箱，面向用戶，展示得明明白白。Cube開源則是另一種姿態(tài)，面向的不是用戶，是盟友。不是「看我們有什么」，是「這些能力你們拿去用。」

明牌秀肌肉，暗牌亮底牌。一個(gè)是產(chǎn)品生態(tài)的廣度，一個(gè)是工程基礎(chǔ)設(shè)施的深度。

湯道生那句話，「AI落地是一道工程題」，或許還可以再加半句：工程題的解法，從來不是一個(gè)人悶頭做的。

四年前那塊白板上寫著「下一代AI」。四年了，字沒變。寫字的人，多了幾個(gè)。

聲明：個(gè)人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.