網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

拒絕“出廠即巔峰”！具身訓練系統(tǒng)再進化：LWD讓機器人自主開啟“打怪練級”

2026-05-01 18:59:28　來源: 智東西

北京舉報

分享至

智東西
作者江宇
編輯漠影

當前具身智能的發(fā)展，正卡在一個越來越明確的瓶頸上：數(shù)據(jù)規(guī)模與真實世界經(jīng)驗的不足。

過去幾年，VLA等大模型讓機器人在“預訓練階段”取得了顯著進展，但一旦進入真實部署環(huán)境，問題隨之暴露——面對復雜、多變的物理世界，模型能力很難持續(xù)提升，依然高度依賴人工標注數(shù)據(jù)和重復訓練。

這也意味著，具身智能尚未真正進入“規(guī)模化增長”的階段。

僅依賴實驗室數(shù)據(jù)或仿真環(huán)境，很難支撐機器人能力的持續(xù)演進；真正能夠帶來躍遷的，仍然是來自真實世界、持續(xù)積累的高質(zhì)量交互數(shù)據(jù)。但問題在于：這些數(shù)據(jù)從哪里來？

現(xiàn)階段，大量訓練數(shù)據(jù)仍依賴人工示教或遙操作采集，規(guī)模有限、成本高昂，且難以覆蓋開放環(huán)境中的復雜長尾場景。

要讓數(shù)據(jù)規(guī)模真正“滾動起來”，唯一可行的路徑，是讓機器人走出實驗室，在真實場景中長期運行，并將交互經(jīng)驗持續(xù)回流。

也正是在這一背景下，上海創(chuàng)智學院和智元具身研究中心聯(lián)合發(fā)布了最新成果羅劍嵐團隊提出LWD（Learning While Deploying）大規(guī)模強化學習訓練系統(tǒng)。該工作由創(chuàng)智學院導師，智元首席科學家羅劍嵐團隊完成。嘗試將“部署”本身轉化為學習過程的一部分。

這項工作并不聚焦單一算法突破，更給出了一種更具工程可行性的方案——通過在真實世界中持續(xù)運行機器人，并將其行為數(shù)據(jù)統(tǒng)一回流與更新，讓每一臺機器人既是任務執(zhí)行者，也是持續(xù)產(chǎn)生學習信號的數(shù)據(jù)源，從而推動通用策略在部署過程中不斷進化。

一、讓數(shù)據(jù)飛輪在物理世界自主狂奔

傳統(tǒng)模仿學習范式下，非完美的運行軌跡往往被視為“廢數(shù)據(jù)”直接丟棄，機器人只能從成功的人類演示中刻板地模仿。

LWD的核心顛覆在于，它構建了一個由真實世界強化學習驅動的閉環(huán)數(shù)據(jù)飛輪。

在這個飛輪中，機器人集群在真實任務中自主執(zhí)行并積累異構的交互經(jīng)驗，無論是完美的成功軌跡、試錯后的自我恢復、還是人類為了覆蓋邊界情況而引導的失敗案例，都會被統(tǒng)一輸送至云端的共享重放緩沖區(qū)。

強化學習機制使得這些在傳統(tǒng)視角下的“失敗”或“意外”數(shù)據(jù)，全部轉化為了指導模型規(guī)避錯誤、優(yōu)化價值評估的寶貴經(jīng)驗。

隨著集群部署規(guī)模的擴大和運行時間的累積，數(shù)據(jù)飛輪的轉速不斷提升，云端持續(xù)更新的強策略又會定期下發(fā)給機器人，形成真正的自主造血閉環(huán)。

二、強化學習算法深層進化：在嘈雜數(shù)據(jù)中，精準捕捉“進步”信號

將強化學習應用于真實世界部署的大規(guī)模機器人集群，面臨著極端的算法挑戰(zhàn)。

不同機器人在不同任務中產(chǎn)生的數(shù)據(jù)極其龐雜，包含著完全不同的指令、長短不一的操作過程，以及非常稀疏的獎勵反饋。

為了在這些充滿噪聲的“異質(zhì)數(shù)據(jù)”中穩(wěn)定提取有用的學習信號，LWD創(chuàng)新性地引入了分布隱式價值學習（DIVL）算法。

簡單來說，以往的算法像是在給機器人的表現(xiàn)打一個固定的“平均分”，但在復雜環(huán)境中這種打分極不準確；而DIVL則讓機器人學會去理解表現(xiàn)的“概率分布”，它不再只看一個點，而是觀察整個可能性的區(qū)間。

這讓機器人在很少得到明確獎勵的情況下，也能精準判斷哪些動作風險更高、哪些動作更值得嘗試，從而有效解決了評價不準、容易過度樂觀的老大難問題。

與此同時，針對VLA模型通過多步去噪產(chǎn)生動作的特點，傳統(tǒng)的更新方式計算量大且容易跑偏。

LWD結合了Q-learning with Adjoint Matching（QAM），為模型找到了一條數(shù)學上的“進化捷徑”，讓復雜的策略更新不再需要推倒重來，而是通過局部調(diào)整就能實現(xiàn)快速迭代，保證了機器人在大規(guī)模部署時的學習效率。

三、煉就“通才策略”：挑戰(zhàn)5分鐘長程復雜操作的極限成功率

為了驗證這套訓練框架的實戰(zhàn)表現(xiàn)，研究團隊在智元G1雙臂機器人集群上進行了大規(guī)模的真實世界部署測試。

測試涵蓋了八項極具挑戰(zhàn)性的多模態(tài)操作任務，包括四類考驗語義識別與泛化的商超貨架動態(tài)補貨任務，以及泡功夫茶、榨果汁、調(diào)酒、裝鞋入盒等四類長程連貫操作任務。

▲評測任務示意圖。（A）調(diào)制雞尾酒；（B）沖泡功夫茶；（C）制作果汁；（D）裝鞋入盒；（E）商超補貨。

在這些持續(xù)時間長達5到8分鐘、包含數(shù)十個接觸豐富且存在長程依賴的物理交互任務中，LWD展現(xiàn)出了壓倒性的優(yōu)勢。

▲各任務逐步成功率的實驗結果

實驗數(shù)據(jù)顯示，經(jīng)過在線真實經(jīng)驗積累后，LWD訓練出的單一通用策略在所有任務上的平均成功率達到了驚人的0.95，遠超純行為克隆（0.76）以及先進的離線強化學習基線如RECAP（0.86）和 Dagger-SOP（0.82）。

▲八項真實世界操作任務的主要結果，涵蓋四類商超補貨任務和四類長程任務。結果顯示，LWD（在線）取得了最高的整體平均成績，并在四項長程任務中全部獲得最高分，同時在商超補貨任務中也保持在最優(yōu)或接近最優(yōu)水平。

▲調(diào)制雞尾酒

尤其在最考驗中間錯誤恢復與長期信用分配的長程任務中，LWD在線更新后的成功率實現(xiàn)了極大幅度的躍升，證明了基于物理世界經(jīng)驗的持續(xù)學習是突破復雜操作天花板的有效路徑。

▲圖中展示了功夫茶任務中一次成功執(zhí)行（左）和一次失敗執(zhí)行（右）的價值曲線。結果表明，所學習到的價值能夠對任務完成進度提供有意義的表征。

結語：把“部署”變成能力增長起點，讓機器人在真實世界持續(xù)進化

在具身智能的產(chǎn)業(yè)化進程中，LWD推動的不僅是算法框架的升級，更是機器人能力迭代方式的一次重要轉向。

長久以來，業(yè)界習慣將“部署”視為模型訓練的終點，而LWD的提出證明了，自主改進應當成為通用機器人策略的基本屬性。

學習不應是“出廠即封存的靜態(tài)能力”，而必須成為部署之后在真實世界里一直延續(xù)的進化過程。

只有賦予機器人從海量無序的真實物理交互中自主提取“養(yǎng)分”、持續(xù)自我進化的能力，其才能真正打破被人工標注數(shù)據(jù)框定的舒適區(qū)，在千行百業(yè)的復雜、開放場景中長久地釋放商業(yè)價值。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.