網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

EmbodiChain開源，用100%生成式數(shù)據(jù)自動(dòng)訓(xùn)練具身智能模型

2026-01-20 15:49:43　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心發(fā)布

論文地址:
https://www.techrxiv.org/doi/full/10.36227/techrxiv.176153394.41323502
開源主頁(yè):
https://dexforce.com/embodichain/index.html#/
代碼倉(cāng)庫(kù):
https://github.com/DexForce/EmbodiChain
技術(shù)文檔:
https://dexforce.github.io/EmbodiChain/introduction.html

大語(yǔ)言模型的爆發(fā)，讓大家見證了 Scaling Law 的威力：只要數(shù)據(jù)夠多、算力夠猛，智能似乎就會(huì)自動(dòng)涌現(xiàn)。但在機(jī)器人領(lǐng)域，這個(gè)公式似乎失效了。

在 LLM 時(shí)代，數(shù)據(jù)是「存量」，我們只需要負(fù)責(zé)「清洗」；
在具身智能時(shí)代，數(shù)據(jù)必須是「增量」，我們必須具備「創(chuàng)造」數(shù)據(jù)的能力。

不同于互聯(lián)網(wǎng)上唾手可得的萬(wàn)億級(jí)文本，機(jī)器人所需的、經(jīng)過 3D 標(biāo)定且符合物理規(guī)律的高質(zhì)量交互數(shù)據(jù)，極度稀缺且昂貴。正因如此，數(shù)據(jù)采集范式成為了近年來行業(yè)研究的絕對(duì)焦點(diǎn)。

可以看到，整個(gè)行業(yè)正在向著更低成本、更便捷的方向全速推進(jìn)：從昂貴的遙操設(shè)備，到基于動(dòng)捕手套的靈巧手捕捉和更加便攜式的夾爪方案，再到如今甚至不再需要佩戴手套、僅憑雙手演示即可采集數(shù)據(jù)的創(chuàng)新方案。這些輕量化的數(shù)采范式正在將人類的經(jīng)驗(yàn)數(shù)字化，這一路徑不僅充滿價(jià)值，更值得持續(xù)深耕，它是連接人類技能與機(jī)器人動(dòng)作的橋梁。

整個(gè)行業(yè)在將具身智能推向大模型時(shí)代的這個(gè)目標(biāo)上狂奔。

但是，即使是最極致的采集效率，客觀上仍受限于物理時(shí)間的流逝和人力成本的邊界。當(dāng)下沒有任何現(xiàn)有的物理采集范式，能匹配 LLM 訓(xùn)練所需的「互聯(lián)網(wǎng)級(jí)」規(guī)模。這成為了具身智能邁向更高階智能的最大桎梏。

效率定律

效率定律 (Efficiency Law) 下模型性能與數(shù)據(jù)生成速率的關(guān)系

要跨越這個(gè)鴻溝，除了物理采集的持續(xù)精進(jìn)，另一種極具潛力的解決方式，就是構(gòu)建一個(gè)能夠超高速、自動(dòng)化生成物理現(xiàn)實(shí)的數(shù)字世界（跨維智能團(tuán)隊(duì)在《GS-World》中詳述了這一路徑）。

在這個(gè)基于物理引擎的生成式世界中，數(shù)據(jù)的生成速率超越了時(shí)間的限制（Efficiency Law）；機(jī)器人可以在零成本的試錯(cuò)中習(xí)得對(duì)物理因果的深刻理解；所有的邊緣情況（Corner Cases）都可以在這里被模擬、被攻克。

GS-World 與 EmbodiChain

今天，跨維智能正式開源 EmbodiChain。作為通往GS-World（基于生成式仿真的世界模型）的基石，EmbodiChain 不僅僅是一個(gè)數(shù)據(jù)和模型平臺(tái)，更是一次對(duì)具身智能學(xué)習(xí)范式的重構(gòu)。

跨維團(tuán)隊(duì)提出并驗(yàn)證一個(gè)大膽的假設(shè)：僅憑 100% 的生成式仿真數(shù)據(jù)，只要生成速率（Rate of Generation）突破臨界點(diǎn)，機(jī)器人就能在真實(shí)世界中涌現(xiàn)出超越 SOTA 的泛化能力。

這不是科幻，這就是跨維正在驗(yàn)證的效率定律（Efficiency Law）。

然而，要將 GS-World 從藍(lán)圖變?yōu)楝F(xiàn)實(shí)，絕非易事。跨維研究團(tuán)隊(duì)必須面對(duì)并攻克三個(gè)核心科學(xué)難題，這也是 EmbodiChain 致力于解決的關(guān)鍵：

如何實(shí)現(xiàn)數(shù)據(jù)生產(chǎn)自動(dòng)化？
真實(shí)世界極其復(fù)雜，如何僅憑少量先驗(yàn)（如一段視頻、一句描述），就在數(shù)字世界中自動(dòng)重建、生成海量且物理一致的場(chǎng)景與任務(wù)，而無(wú)需人工手動(dòng)搭建？
如何打破「虛實(shí)鴻溝」（Sim2Real Gap）？
仿真數(shù)據(jù)再多，如果不能遷移到真機(jī)也是徒勞。如何在不依賴或盡量少依賴真實(shí)數(shù)據(jù)微調(diào)的情況下，讓模型習(xí)得適應(yīng)真實(shí)世界噪聲與動(dòng)態(tài)變化的魯棒策略？
如何突破數(shù)據(jù)生成的「IO 墻」？
Scaling 需要億級(jí)甚至十億級(jí)的交互步數(shù)。傳統(tǒng)的「生成 - 存儲(chǔ) - 讀取 - 訓(xùn)練」模式效率極低。如何構(gòu)建極致高效的數(shù)據(jù)流轉(zhuǎn)機(jī)制，實(shí)現(xiàn)「在線數(shù)據(jù)流」？

EmbodiChain：一條永不停歇的「在線數(shù)據(jù)流和模型生產(chǎn)線」

為了實(shí)現(xiàn)這一愿景，跨維智能構(gòu)建了GS-World（Generative Simulation World Model，生成式仿真世界模型）的核心基石 ——EmbodiChain。

EmbodiChain 作為一個(gè)底層的基建技術(shù)，可以把它看作去存儲(chǔ)化的數(shù)字化流水線。Scaling 需要億級(jí)甚至十億級(jí)的交互步數(shù)，傳統(tǒng)的「生成 - 存儲(chǔ) - 讀取 - 訓(xùn)練」模式在面對(duì)海量 3D 數(shù)據(jù)時(shí)，存儲(chǔ)與傳輸將成為不可承受之重。

在 EmbodiChain 的架構(gòu)中，可以徹底拋棄「先存硬盤、再讀硬盤」的陳舊范式，取而代之的是在線數(shù)據(jù)流（Online Data Streaming）和模型自動(dòng)生產(chǎn)線。

EmbodiChain 的核心工作流。數(shù)據(jù)在生成的同時(shí)即被消費(fèi)，橘色的數(shù)據(jù)流貫穿全場(chǎng)，無(wú)需落地存儲(chǔ)。

這條流水線是如何工作的？

世界生成（Generative Simulation）：引擎不僅是環(huán)境，更是造物主。Real2Sim 模塊從極少的真實(shí)樣本中提取物理先驗(yàn)，Gen2Sim 模塊則響應(yīng)語(yǔ)言指令，自動(dòng)構(gòu)建出符合牛頓力學(xué)等物理規(guī)律的 3D 場(chǎng)景與資產(chǎn)。
數(shù)據(jù)擴(kuò)增（Data Scaling）：數(shù)據(jù)不僅要多，還要「難」。系統(tǒng)自動(dòng)進(jìn)行視覺增強(qiáng)、物理參數(shù)隨機(jī)化，并剔除那些機(jī)器人「夠不著」的無(wú)效采樣。
自我修復(fù)（Closed-loop Recovery）：真正的智能來自于從錯(cuò)誤中學(xué)習(xí)。當(dāng)仿真中的機(jī)器人抓取失敗，系統(tǒng)會(huì)自動(dòng)生成修正軌跡。這種「失敗 - 修正」的閉環(huán)，比單純的成功演示更有價(jià)值。

這一切都在 GPU 內(nèi)部并行高速運(yùn)轉(zhuǎn)，數(shù)據(jù)如洪流般產(chǎn)生，訓(xùn)練完即銷毀，不留下一絲冗余，只留下模型能力的增長(zhǎng)。

路線之爭(zhēng)：機(jī)器人需要的是物理精確的生成式模型

在通往具身智能世界模型的路上，目前存在兩條截然不同的路線。

一條是近期火熱的視頻生成路線（Video World Model），如 Sora 或 LTX-Video，它們?cè)噲D通過「畫出」下一幀來模擬世界。雖然視覺效果驚艷，但一些對(duì)比實(shí)驗(yàn)揭示了其致命弱點(diǎn)：幻覺。

視頻模型生成的畫面往往缺乏長(zhǎng)程的時(shí)空一致性，且很難精確遵循動(dòng)力學(xué)方程。用這種「做夢(mèng)」產(chǎn)生的數(shù)據(jù)訓(xùn)練機(jī)器人，就像讓一個(gè)飛行員在愛麗絲的仙境中學(xué)習(xí)開飛機(jī) —— 看著很美，一上真機(jī)就墜毀。

相反，EmbodiChain 選擇的是GS-World 路線（基于生成式仿真的世界模型）。

物理先驗(yàn)（Physical Priors）：跨維智能堅(jiān)持世界模型必須是 3D 的、交互式的、物理嚴(yán)謹(jǐn)?shù)摹?/li>
特權(quán)信息（Privileged Information）：在 EmbodiChain 中，使用者擁有上帝視角。比如使用者能夠獲取物體的精確掩碼、空間關(guān)系和可供性（Affordance）。通過訓(xùn)練模型預(yù)測(cè)這些真實(shí)世界中不可見的「特權(quán)信息」，迫使模型理解了場(chǎng)景背后的幾何本質(zhì)，而不僅僅是表面的像素。

這正是 Yann LeCun 所倡導(dǎo)的理念：世界模型應(yīng)該是對(duì)世界狀態(tài)的預(yù)測(cè)與規(guī)劃。

EmbodiChain中可以獲取的特權(quán)信息示例

零真實(shí)數(shù)據(jù)，VLA 真的可行嗎？

為了驗(yàn)證這套「效率定律」，跨維智能做了一件極端的測(cè)試：不使用任何真實(shí)數(shù)據(jù)訓(xùn)練模型。

跨維智能訓(xùn)練出的 Sim2Real-VLA 模型，在真實(shí)世界中執(zhí)行任務(wù)。結(jié)果令人驚訝：

遠(yuǎn)超基線：在沒有任何真實(shí)數(shù)據(jù)微調(diào)的情況下，它在操作成功率上大幅領(lǐng)先 ACT、Diffusion Policy 等主流方法。
無(wú)懼干擾：即使跨維智能像「搗亂者」一樣更換桌布、移動(dòng)物體、改變光照，模型依然穩(wěn)如泰山。甚至在某些任務(wù)中，由于去除了真實(shí)數(shù)據(jù)中容易過擬合的背景噪聲，模型的表現(xiàn)反而比用真實(shí)數(shù)據(jù)訓(xùn)練還要好。

Sim2Real-VLA 在全生成數(shù)據(jù)訓(xùn)練下，不僅擊敗了 SOTA，更展現(xiàn)了驚人的魯棒性。

愿景：通往 GS-World 的「效率奇點(diǎn)」

EmbodiChain 的開源，只是一個(gè)開始。

GS-World 藍(lán)圖遠(yuǎn)不止于此。在跨維智能的規(guī)劃中，這是一個(gè)引擎驅(qū)動(dòng)的閉環(huán)路徑（Engine-driven Loop）：

不僅環(huán)境是生成的，任務(wù)也是生成的；
不僅策略是進(jìn)化的，機(jī)器人的身體結(jié)構(gòu)（Morphology）也會(huì)隨著任務(wù)需求協(xié)同進(jìn)化。

跨維智能希望 EmbodiChain 能成為每一位具身智能研究者的基礎(chǔ)設(shè)施。不需要再為了幾千條數(shù)據(jù)而在實(shí)驗(yàn)室里沒日沒夜地遙操作，不需要再為幾十 TB 的硬盤存儲(chǔ)發(fā)愁。

因?yàn)橹悄艿奈磥恚粦?yīng)該被困在數(shù)據(jù)的匱乏中。

EmbodiChain 現(xiàn)已開源，邀請(qǐng)你一起見證具身智能的「效率奇點(diǎn)」。

文中視頻鏈接：https://mp.weixin.qq.com/s/IGe1myOEmAW7JOrQyBLhBA

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.