網易首頁 > 網易號 > 正文申請入駐

拒絕“出廠即巔峰”！具身訓練系統再進化：LWD讓機器人自主開啟“打怪練級”

2026-05-01 18:59:28　來源: 智東西

北京舉報

分享至

智東西
作者江宇
編輯漠影

當前具身智能的發展，正卡在一個越來越明確的瓶頸上：數據規模與真實世界經驗的不足。

過去幾年，VLA等大模型讓機器人在“預訓練階段”取得了顯著進展，但一旦進入真實部署環境，問題隨之暴露——面對復雜、多變的物理世界，模型能力很難持續提升，依然高度依賴人工標注數據和重復訓練。

這也意味著，具身智能尚未真正進入“規模化增長”的階段。

僅依賴實驗室數據或仿真環境，很難支撐機器人能力的持續演進；真正能夠帶來躍遷的，仍然是來自真實世界、持續積累的高質量交互數據。但問題在于：這些數據從哪里來？

現階段，大量訓練數據仍依賴人工示教或遙操作采集，規模有限、成本高昂，且難以覆蓋開放環境中的復雜長尾場景。

要讓數據規模真正“滾動起來”，唯一可行的路徑，是讓機器人走出實驗室，在真實場景中長期運行，并將交互經驗持續回流。

也正是在這一背景下，上海創智學院和智元具身研究中心聯合發布了最新成果羅劍嵐團隊提出LWD（Learning While Deploying）大規模強化學習訓練系統。該工作由創智學院導師，智元首席科學家羅劍嵐團隊完成。嘗試將“部署”本身轉化為學習過程的一部分。

這項工作并不聚焦單一算法突破，更給出了一種更具工程可行性的方案——通過在真實世界中持續運行機器人，并將其行為數據統一回流與更新，讓每一臺機器人既是任務執行者，也是持續產生學習信號的數據源，從而推動通用策略在部署過程中不斷進化。

一、讓數據飛輪在物理世界自主狂奔

傳統模仿學習范式下，非完美的運行軌跡往往被視為“廢數據”直接丟棄，機器人只能從成功的人類演示中刻板地模仿。

LWD的核心顛覆在于，它構建了一個由真實世界強化學習驅動的閉環數據飛輪。

在這個飛輪中，機器人集群在真實任務中自主執行并積累異構的交互經驗，無論是完美的成功軌跡、試錯后的自我恢復、還是人類為了覆蓋邊界情況而引導的失敗案例，都會被統一輸送至云端的共享重放緩沖區。

強化學習機制使得這些在傳統視角下的“失敗”或“意外”數據，全部轉化為了指導模型規避錯誤、優化價值評估的寶貴經驗。

隨著集群部署規模的擴大和運行時間的累積，數據飛輪的轉速不斷提升，云端持續更新的強策略又會定期下發給機器人，形成真正的自主造血閉環。

二、強化學習算法深層進化：在嘈雜數據中，精準捕捉“進步”信號

將強化學習應用于真實世界部署的大規模機器人集群，面臨著極端的算法挑戰。

不同機器人在不同任務中產生的數據極其龐雜，包含著完全不同的指令、長短不一的操作過程，以及非常稀疏的獎勵反饋。

為了在這些充滿噪聲的“異質數據”中穩定提取有用的學習信號，LWD創新性地引入了分布隱式價值學習（DIVL）算法。

簡單來說，以往的算法像是在給機器人的表現打一個固定的“平均分”，但在復雜環境中這種打分極不準確；而DIVL則讓機器人學會去理解表現的“概率分布”，它不再只看一個點，而是觀察整個可能性的區間。

這讓機器人在很少得到明確獎勵的情況下，也能精準判斷哪些動作風險更高、哪些動作更值得嘗試，從而有效解決了評價不準、容易過度樂觀的老大難問題。

與此同時，針對VLA模型通過多步去噪產生動作的特點，傳統的更新方式計算量大且容易跑偏。

LWD結合了Q-learning with Adjoint Matching（QAM），為模型找到了一條數學上的“進化捷徑”，讓復雜的策略更新不再需要推倒重來，而是通過局部調整就能實現快速迭代，保證了機器人在大規模部署時的學習效率。

三、煉就“通才策略”：挑戰5分鐘長程復雜操作的極限成功率

為了驗證這套訓練框架的實戰表現，研究團隊在智元G1雙臂機器人集群上進行了大規模的真實世界部署測試。

測試涵蓋了八項極具挑戰性的多模態操作任務，包括四類考驗語義識別與泛化的商超貨架動態補貨任務，以及泡功夫茶、榨果汁、調酒、裝鞋入盒等四類長程連貫操作任務。

▲評測任務示意圖。（A）調制雞尾酒；（B）沖泡功夫茶；（C）制作果汁；（D）裝鞋入盒；（E）商超補貨。

在這些持續時間長達5到8分鐘、包含數十個接觸豐富且存在長程依賴的物理交互任務中，LWD展現出了壓倒性的優勢。

▲各任務逐步成功率的實驗結果

實驗數據顯示，經過在線真實經驗積累后，LWD訓練出的單一通用策略在所有任務上的平均成功率達到了驚人的0.95，遠超純行為克隆（0.76）以及先進的離線強化學習基線如RECAP（0.86）和 Dagger-SOP（0.82）。

▲八項真實世界操作任務的主要結果，涵蓋四類商超補貨任務和四類長程任務。結果顯示，LWD（在線）取得了最高的整體平均成績，并在四項長程任務中全部獲得最高分，同時在商超補貨任務中也保持在最優或接近最優水平。

▲調制雞尾酒

尤其在最考驗中間錯誤恢復與長期信用分配的長程任務中，LWD在線更新后的成功率實現了極大幅度的躍升，證明了基于物理世界經驗的持續學習是突破復雜操作天花板的有效路徑。

▲圖中展示了功夫茶任務中一次成功執行（左）和一次失敗執行（右）的價值曲線。結果表明，所學習到的價值能夠對任務完成進度提供有意義的表征。

結語：把“部署”變成能力增長起點，讓機器人在真實世界持續進化

在具身智能的產業化進程中，LWD推動的不僅是算法框架的升級，更是機器人能力迭代方式的一次重要轉向。

長久以來，業界習慣將“部署”視為模型訓練的終點，而LWD的提出證明了，自主改進應當成為通用機器人策略的基本屬性。

學習不應是“出廠即封存的靜態能力”，而必須成為部署之后在真實世界里一直延續的進化過程。

只有賦予機器人從海量無序的真實物理交互中自主提取“養分”、持續自我進化的能力，其才能真正打破被人工標注數據框定的舒適區，在千行百業的復雜、開放場景中長久地釋放商業價值。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Generalist之后，羅劍嵐團隊推出LWD，也要變革具身智能訓練范式

機器之心Pro 2026-04-30 13:18:05
0 跟貼 0
索尼研發乒乓球機器人打敗日本頂尖選手

每日經濟新聞 2026-04-23 17:49:24
1122 跟貼 1122

對話上交大程遠：AI的終局不在云端，而在“感算一體”的物理世界

DeepTech深科技 2026-05-01 18:05:24
0 跟貼 0

香港科技公司推出組合式機器人，靈活性令人驚嘆

裝甲鏟史官 2026-04-30 11:20:43
0 跟貼 0
LLM數據量大管飽，機器人數據卻連1%的起跑線都沒夠到？

量子位 2026-04-13 20:54:19
0 跟貼 0

安心養蝦！從OpenClaw 看云上AI安全落地路徑

量子位 2026-04-18 19:55:39
0 跟貼 0

人形機器人半馬跑姿大賞，有的比人快多了！有的“狀況百出”

每日經濟新聞 2026-04-20 00:25:36
7 跟貼 7
亦莊機器人馬拉松現場名場面合集

量子位 2026-04-20 00:34:54
0 跟貼 0

朱旻琦：具身智能用一天進化一天、聰明一天機器人普及核心痛點是需要二次開發和適配

財聯社 2026-04-17 16:59:02
0 跟貼 0
剛剛開源了！

機器之心Pro 2026-03-25 15:18:26
0 跟貼 0
宇樹科技王興興：給機器人行業多一點耐心

財聯社 2026-02-18 18:01:39
0 跟貼 0
新穎鰭足機器人，水陸兩棲行動自如，適應各種地形

裝甲鏟史官 2025-12-25 10:58:04
0 跟貼 0
機器人半馬成績，超越人類紀錄

財聯社 2026-04-20 00:27:12
0 跟貼 0
零樣本 Sim-to-Real ！2

機器之心Pro 2026-03-25 11:40:23
0 跟貼 0
機器人打包運輸的正確方式

裝甲鏟史官 2026-02-22 10:41:15
0 跟貼 0
Karpathy：很多App就不該出生,人類護城河只剩理解,CPU將淪為配角

機器之心Pro 2026-05-01 20:44:49
0 跟貼 0
GPT-5.6現身后，下一個Claude Sonnet 4.8又曝光了！

新智元 2026-05-01 19:06:33
0 跟貼 0
Claude Opus 4.7深夜「叛變」！群發20封奪命郵件，開發者凌晨被炸醒

新智元 2026-05-01 19:07:13
1 跟貼 1
支持遠程操控和通用GUI操作3

機器之心Pro 2026-03-02 13:36:13
0 跟貼 0
小心！你的AI正在一本正經地忽悠你

財聯社 2026-02-05 16:35:01
0 跟貼 0
我在OpenAI修中文

機器之心Pro 2026-05-01 20:00:11
0 跟貼 0
人活著的唯一理由是善良

葉檀財經 2026-02-01 17:07:04
0 跟貼 0
大模型的魅力在于突發涌現的能力

量子位 2025-12-11 03:38:02
0 跟貼 0
讓你的龍蝦秒變電影《Her》里的Samantha

量子位 2026-03-23 20:37:07
0 跟貼 0
MIT研究生用NotebookLM兩天學完一學期課程

量子位 2026-03-22 10:50:49
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
博士生如何用龍蝦做知識管理？歡迎圍觀！

量子位 2026-03-26 23:23:30
0 跟貼 0
如何點亮小龍蝦的牛馬技能包?

量子位 2026-03-18 12:51:26
0 跟貼 0
百度沈抖自曝：老忘吃藥，用AI做了個小程序

量子位 2026-03-27 11:25:23
0 跟貼 0
這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
AI Agent是科技革命中的一次真正的范式轉移

量子位 2026-04-03 22:52:35
0 跟貼 0
騰訊混元CL-bench續作發布，讓大模型讀懂你的日常生活

機器之心Pro 2026-05-01 19:53:00
0 跟貼 0
陶哲軒：AI不能全用，深度思考不行

量子位 2026-03-19 01:35:49
0 跟貼 0
男子用一袋水泥，啟動飛輪傳統抽水機，完美發動農業技術！

四毛愛搞笑 2026-04-28 09:02:46
1 跟貼 1
張公子極限棄車秀：7步連殺，球技絕殺必看！

伊雪綾紗e 2026-04-29 06:02:50
1 跟貼 1
懷柔長城100跑山賽上，幾千名跑步的選手，被一臺機器人帶飛！

搞笑脫口秀 2026-04-30 10:21:48
1 跟貼 1
智元機器人

機器之心Pro 2026-04-30 13:18:41
0 跟貼 0
上中下三條削藩策略朱允炆為何偏偏選擇下策？

朝話熹史 2026-04-29 15:46:25
0 跟貼 0
上海迪士尼回應游客勸阻吸煙被打：園區沒有禁煙；被打男子發聲：對方已賠錢和解

中國新聞周刊 2026-04-27 14:25:00
15229 跟貼 15229
機器人在深圳干上特警了在街頭巡邏掃視人群十分帥氣

大目看點 2026-05-01 12:13:07
2884 跟貼 2884

智東西

智東西，AI產業新媒體，專注報道人工智能的前沿技術發展，和技術應用帶來的千行百業產業變革。

11742文章數 117060關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數碼

教育

本地

公開課

軍事航空

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

拒絕“出廠即巔峰”！具身訓練系統再進化：LWD讓機器人自主開啟“打怪練級”

DeepSeek發布多模態論文又連夜刪除

74歲老人郵輪旅行登船次日突發急癥離世 家屬索賠90萬

74歲老人郵輪旅行登船次日突發急癥離世 家屬索賠90萬

無奈！約基奇：這要在塞爾維亞 全隊早被炒了

馬筱梅產后身材恢復超好 現身戶外直播

GPU神話松動，AI真正的戰場變了

限時9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

態度原創

戴森“迷你酷”手持無葉風扇HushJet Mini Cool上架，799元

南外又添新學校？南外江北新區學校，今天正式掛牌！

用青花瓷的方式，打開西溪濕地

伊朗：持續推進海上封鎖的行為不可容忍

74歲老人郵輪旅行登船次日突發急癥離世家屬索賠90萬

74歲老人郵輪旅行登船次日突發急癥離世家屬索賠90萬

無奈！約基奇：這要在塞爾維亞全隊早被炒了

馬筱梅產后身材恢復超好現身戶外直播

限時9.67萬起吉利星越L/星瑞i-HEV智擎混動上市