![]()
機(jī)器之心發(fā)布
- 論文地址:
- https://www.techrxiv.org/doi/full/10.36227/techrxiv.176153394.41323502
- 開源主頁(yè):
- https://dexforce.com/embodichain/index.html#/
- 代碼倉(cāng)庫(kù):
- https://github.com/DexForce/EmbodiChain
- 技術(shù)文檔:
- https://dexforce.github.io/EmbodiChain/introduction.html
大語(yǔ)言模型的爆發(fā),讓大家見證了 Scaling Law 的威力:只要數(shù)據(jù)夠多、算力夠猛,智能似乎就會(huì)自動(dòng)涌現(xiàn)。但在機(jī)器人領(lǐng)域,這個(gè)公式似乎失效了。
- 在 LLM 時(shí)代,數(shù)據(jù)是「存量」,我們只需要負(fù)責(zé)「清洗」;
- 在具身智能時(shí)代,數(shù)據(jù)必須是「增量」,我們必須具備「創(chuàng)造」數(shù)據(jù)的能力。
不同于互聯(lián)網(wǎng)上唾手可得的萬(wàn)億級(jí)文本,機(jī)器人所需的、經(jīng)過 3D 標(biāo)定且符合物理規(guī)律的高質(zhì)量交互數(shù)據(jù),極度稀缺且昂貴。正因如此,數(shù)據(jù)采集范式成為了近年來行業(yè)研究的絕對(duì)焦點(diǎn)。
可以看到,整個(gè)行業(yè)正在向著更低成本、更便捷的方向全速推進(jìn):從昂貴的遙操設(shè)備,到基于動(dòng)捕手套的靈巧手捕捉和更加便攜式的夾爪方案,再到如今甚至不再需要佩戴手套、僅憑雙手演示即可采集數(shù)據(jù)的創(chuàng)新方案。這些輕量化的數(shù)采范式正在將人類的經(jīng)驗(yàn)數(shù)字化,這一路徑不僅充滿價(jià)值,更值得持續(xù)深耕,它是連接人類技能與機(jī)器人動(dòng)作的橋梁。
整個(gè)行業(yè)在將具身智能推向大模型時(shí)代的這個(gè)目標(biāo)上狂奔。
但是,即使是最極致的采集效率,客觀上仍受限于物理時(shí)間的流逝和人力成本的邊界。當(dāng)下沒有任何現(xiàn)有的物理采集范式,能匹配 LLM 訓(xùn)練所需的「互聯(lián)網(wǎng)級(jí)」規(guī)模。這成為了具身智能邁向更高階智能的最大桎梏。
效率定律
![]()
![]()
效率定律 (Efficiency Law) 下模型性能與數(shù)據(jù)生成速率的關(guān)系
要跨越這個(gè)鴻溝,除了物理采集的持續(xù)精進(jìn),另一種極具潛力的解決方式,就是構(gòu)建一個(gè)能夠超高速、自動(dòng)化生成物理現(xiàn)實(shí)的數(shù)字世界(跨維智能團(tuán)隊(duì)在《GS-World》中詳述了這一路徑)。
![]()
在這個(gè)基于物理引擎的生成式世界中,數(shù)據(jù)的生成速率超越了時(shí)間的限制(Efficiency Law);機(jī)器人可以在零成本的試錯(cuò)中習(xí)得對(duì)物理因果的深刻理解;所有的邊緣情況(Corner Cases)都可以在這里被模擬、被攻克。
GS-World 與 EmbodiChain
今天,跨維智能正式開源 EmbodiChain。作為通往GS-World(基于生成式仿真的世界模型)的基石,EmbodiChain 不僅僅是一個(gè)數(shù)據(jù)和模型平臺(tái),更是一次對(duì)具身智能學(xué)習(xí)范式的重構(gòu)。
跨維團(tuán)隊(duì)提出并驗(yàn)證一個(gè)大膽的假設(shè):僅憑 100% 的生成式仿真數(shù)據(jù),只要生成速率(Rate of Generation)突破臨界點(diǎn),機(jī)器人就能在真實(shí)世界中涌現(xiàn)出超越 SOTA 的泛化能力。
這不是科幻,這就是跨維正在驗(yàn)證的效率定律(Efficiency Law)。
然而,要將 GS-World 從藍(lán)圖變?yōu)楝F(xiàn)實(shí),絕非易事。跨維研究團(tuán)隊(duì)必須面對(duì)并攻克三個(gè)核心科學(xué)難題,這也是 EmbodiChain 致力于解決的關(guān)鍵:
- 如何實(shí)現(xiàn)數(shù)據(jù)生產(chǎn)自動(dòng)化?
- 真實(shí)世界極其復(fù)雜,如何僅憑少量先驗(yàn)(如一段視頻、一句描述),就在數(shù)字世界中自動(dòng)重建、生成海量且物理一致的場(chǎng)景與任務(wù),而無(wú)需人工手動(dòng)搭建?
- 如何打破「虛實(shí)鴻溝」(Sim2Real Gap)?
- 仿真數(shù)據(jù)再多,如果不能遷移到真機(jī)也是徒勞。如何在不依賴或盡量少依賴真實(shí)數(shù)據(jù)微調(diào)的情況下,讓模型習(xí)得適應(yīng)真實(shí)世界噪聲與動(dòng)態(tài)變化的魯棒策略?
- 如何突破數(shù)據(jù)生成的「IO 墻」?
- Scaling 需要億級(jí)甚至十億級(jí)的交互步數(shù)。傳統(tǒng)的「生成 - 存儲(chǔ) - 讀取 - 訓(xùn)練」模式效率極低。如何構(gòu)建極致高效的數(shù)據(jù)流轉(zhuǎn)機(jī)制,實(shí)現(xiàn)「在線數(shù)據(jù)流」?
EmbodiChain:一條永不停歇的「在線數(shù)據(jù)流和模型生產(chǎn)線」
為了實(shí)現(xiàn)這一愿景,跨維智能構(gòu)建了GS-World(Generative Simulation World Model,生成式仿真世界模型)的核心基石 ——EmbodiChain。
EmbodiChain 作為一個(gè)底層的基建技術(shù),可以把它看作去存儲(chǔ)化的數(shù)字化流水線。Scaling 需要億級(jí)甚至十億級(jí)的交互步數(shù),傳統(tǒng)的「生成 - 存儲(chǔ) - 讀取 - 訓(xùn)練」模式在面對(duì)海量 3D 數(shù)據(jù)時(shí),存儲(chǔ)與傳輸將成為不可承受之重。
在 EmbodiChain 的架構(gòu)中,可以徹底拋棄「先存硬盤、再讀硬盤」的陳舊范式,取而代之的是在線數(shù)據(jù)流(Online Data Streaming)和模型自動(dòng)生產(chǎn)線。
![]()
EmbodiChain 的核心工作流。數(shù)據(jù)在生成的同時(shí)即被消費(fèi),橘色的數(shù)據(jù)流貫穿全場(chǎng),無(wú)需落地存儲(chǔ)。
這條流水線是如何工作的?
- 世界生成(Generative Simulation):引擎不僅是環(huán)境,更是造物主。Real2Sim 模塊從極少的真實(shí)樣本中提取物理先驗(yàn),Gen2Sim 模塊則響應(yīng)語(yǔ)言指令,自動(dòng)構(gòu)建出符合牛頓力學(xué)等物理規(guī)律的 3D 場(chǎng)景與資產(chǎn)。
- 數(shù)據(jù)擴(kuò)增(Data Scaling):數(shù)據(jù)不僅要多,還要「難」。系統(tǒng)自動(dòng)進(jìn)行視覺增強(qiáng)、物理參數(shù)隨機(jī)化,并剔除那些機(jī)器人「夠不著」的無(wú)效采樣。
- 自我修復(fù)(Closed-loop Recovery):真正的智能來自于從錯(cuò)誤中學(xué)習(xí)。當(dāng)仿真中的機(jī)器人抓取失敗,系統(tǒng)會(huì)自動(dòng)生成修正軌跡。這種「失敗 - 修正」的閉環(huán),比單純的成功演示更有價(jià)值。
這一切都在 GPU 內(nèi)部并行高速運(yùn)轉(zhuǎn),數(shù)據(jù)如洪流般產(chǎn)生,訓(xùn)練完即銷毀,不留下一絲冗余,只留下模型能力的增長(zhǎng)。
路線之爭(zhēng):機(jī)器人需要的是物理精確的生成式模型
在通往具身智能世界模型的路上,目前存在兩條截然不同的路線。
一條是近期火熱的視頻生成路線(Video World Model),如 Sora 或 LTX-Video,它們?cè)噲D通過「畫出」下一幀來模擬世界。雖然視覺效果驚艷,但一些對(duì)比實(shí)驗(yàn)揭示了其致命弱點(diǎn):幻覺。
視頻模型生成的畫面往往缺乏長(zhǎng)程的時(shí)空一致性,且很難精確遵循動(dòng)力學(xué)方程。用這種「做夢(mèng)」產(chǎn)生的數(shù)據(jù)訓(xùn)練機(jī)器人,就像讓一個(gè)飛行員在愛麗絲的仙境中學(xué)習(xí)開飛機(jī) —— 看著很美,一上真機(jī)就墜毀。
相反,EmbodiChain 選擇的是GS-World 路線(基于生成式仿真的世界模型)。
- 物理先驗(yàn)(Physical Priors):跨維智能堅(jiān)持世界模型必須是 3D 的、交互式的、物理嚴(yán)謹(jǐn)?shù)摹?/li>
- 特權(quán)信息(Privileged Information):在 EmbodiChain 中,使用者擁有上帝視角。比如使用者能夠獲取物體的精確掩碼、空間關(guān)系和可供性(Affordance)。通過訓(xùn)練模型預(yù)測(cè)這些真實(shí)世界中不可見的「特權(quán)信息」,迫使模型理解了場(chǎng)景背后的幾何本質(zhì),而不僅僅是表面的像素。
這正是 Yann LeCun 所倡導(dǎo)的理念:世界模型應(yīng)該是對(duì)世界狀態(tài)的預(yù)測(cè)與規(guī)劃。
![]()
EmbodiChain中可以獲取的特權(quán)信息示例
零真實(shí)數(shù)據(jù),VLA 真的可行嗎?
為了驗(yàn)證這套「效率定律」,跨維智能做了一件極端的測(cè)試:不使用任何真實(shí)數(shù)據(jù)訓(xùn)練模型。
跨維智能訓(xùn)練出的 Sim2Real-VLA 模型,在真實(shí)世界中執(zhí)行任務(wù)。結(jié)果令人驚訝:
- 遠(yuǎn)超基線:在沒有任何真實(shí)數(shù)據(jù)微調(diào)的情況下,它在操作成功率上大幅領(lǐng)先 ACT、Diffusion Policy 等主流方法。
- 無(wú)懼干擾:即使跨維智能像「搗亂者」一樣更換桌布、移動(dòng)物體、改變光照,模型依然穩(wěn)如泰山。甚至在某些任務(wù)中,由于去除了真實(shí)數(shù)據(jù)中容易過擬合的背景噪聲,模型的表現(xiàn)反而比用真實(shí)數(shù)據(jù)訓(xùn)練還要好。
![]()
![]()
Sim2Real-VLA 在全生成數(shù)據(jù)訓(xùn)練下,不僅擊敗了 SOTA,更展現(xiàn)了驚人的魯棒性。
愿景:通往 GS-World 的「效率奇點(diǎn)」
EmbodiChain 的開源,只是一個(gè)開始。
GS-World 藍(lán)圖遠(yuǎn)不止于此。在跨維智能的規(guī)劃中,這是一個(gè)引擎驅(qū)動(dòng)的閉環(huán)路徑(Engine-driven Loop):
- 不僅環(huán)境是生成的,任務(wù)也是生成的;
- 不僅策略是進(jìn)化的,機(jī)器人的身體結(jié)構(gòu)(Morphology)也會(huì)隨著任務(wù)需求協(xié)同進(jìn)化。
跨維智能希望 EmbodiChain 能成為每一位具身智能研究者的基礎(chǔ)設(shè)施。不需要再為了幾千條數(shù)據(jù)而在實(shí)驗(yàn)室里沒日沒夜地遙操作,不需要再為幾十 TB 的硬盤存儲(chǔ)發(fā)愁。
因?yàn)橹悄艿奈磥恚粦?yīng)該被困在數(shù)據(jù)的匱乏中。
EmbodiChain 現(xiàn)已開源,邀請(qǐng)你一起見證具身智能的「效率奇點(diǎn)」。
文中視頻鏈接:https://mp.weixin.qq.com/s/IGe1myOEmAW7JOrQyBLhBA
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.