網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

原力靈機(jī)Dexbotic 2.0："具身智能PyTorch"進(jìn)行時(shí)

2026-05-13 11:32:53　來(lái)源: 機(jī)器人大講堂

浙江舉報(bào)

分享至

“ 從一份半年更新清單，看一個(gè)具身原生框架的崛起邏輯。

在深度學(xué)習(xí)發(fā)展史上，PyTorch用動(dòng)態(tài)計(jì)算圖、模塊化設(shè)計(jì)與極低的上手門(mén)檻，終結(jié)了早期框架百花齊放卻互不兼容的混亂局面，讓全球研究者得以在同一套基礎(chǔ)設(shè)施上快速驗(yàn)證想法、共享成果。

如今，具身智能領(lǐng)域正站在類(lèi)似的十字路口。VLA技術(shù)研發(fā)分散化嚴(yán)重，不同團(tuán)隊(duì)基于不同框架各自為戰(zhàn)；研發(fā)流程異常繁瑣，算法對(duì)比需配置多份實(shí)驗(yàn)環(huán)境和數(shù)據(jù)格式；算法復(fù)現(xiàn)缺乏公平基準(zhǔn)，難以確保每個(gè)對(duì)比算法調(diào)至最優(yōu)；VLA研發(fā)無(wú)法從最新VLM受益，大多數(shù)VLA往往基于過(guò)時(shí)的VLM構(gòu)建。SFT與RL割裂為兩條流水線，前沿VLM的紅利遲遲無(wú)法向物理操作任務(wù)傳導(dǎo)。

正是洞察到這些深層痛點(diǎn)，原力靈機(jī)把Dexbotic從一站式VLA代碼庫(kù)全面升級(jí)為具身原生開(kāi)發(fā)框架，并聯(lián)合RLinf、攜手清華大學(xué)與無(wú)問(wèn)芯穹，共同開(kāi)啟"打造具身智能時(shí)代PyTorch"的征程

原力靈機(jī)聯(lián)合創(chuàng)始人汪天才表示，“我們期望通過(guò)Dexbotic2.0實(shí)現(xiàn)VLA+RL學(xué)習(xí)范式的統(tǒng)一，通過(guò)Dexbotic和RLinf的集合，一起去對(duì)應(yīng)大模型時(shí)代SFT+RLHF的黃金范式，一起推動(dòng)整個(gè)具身行業(yè)的發(fā)展，一起解決具身智能的問(wèn)題”。

?官網(wǎng)：https://dexbotic.com/

?GitHub：https://github.com/Dexmal/dexbotic

?Hugging Face：https://huggingface.co/collections/Dexmal/dexbotic

01.

2.4B參數(shù)登頂全球，一個(gè)具身原生大模型的"出廠證明"

先從一個(gè)結(jié)果說(shuō)起。

今年2月，一個(gè)名為DM0的具身智能大模型悄然登頂了權(quán)威真機(jī)評(píng)測(cè)基準(zhǔn)RoboChallenge的全球榜首——單任務(wù)與多任務(wù)雙項(xiàng)第一，而它的參數(shù)量?jī)H為2.4B。

在具身智能領(lǐng)域，這個(gè)成績(jī)的含金量不言而喻。RoboChallenge是全球首個(gè)具身智能的大規(guī)模真機(jī)評(píng)測(cè)平臺(tái)，考核的不是仿真中的數(shù)字指標(biāo)，而是真實(shí)物理世界中的操作成功率。一個(gè)2.4B參數(shù)的"小"模型能在此稱(chēng)雄，其"智能密度"之高，令人側(cè)目。

但真正值得追問(wèn)的是：DM0是怎么被訓(xùn)練出來(lái)的？

答案指向它背后的具身原生框架——Dexbotic

DM0是全球首個(gè)從零開(kāi)始訓(xùn)練的具身原生大模型，它在預(yù)訓(xùn)練階段即系統(tǒng)性地混合了操作、導(dǎo)航、全身控制三類(lèi)核心任務(wù)，覆蓋了UR、Franka等8種構(gòu)型迥異的機(jī)器人硬件。這種訓(xùn)練策略迫使模型學(xué)習(xí)底層通用的物理操作邏輯，而非記憶特定硬件參數(shù)，從而獲得了強(qiáng)大的跨機(jī)型泛化能力。此外，DM0創(chuàng)造性地構(gòu)建了"空間推理思維鏈"，將環(huán)境感知、任務(wù)理解、運(yùn)動(dòng)規(guī)劃與精細(xì)執(zhí)行串聯(lián)成閉環(huán)，使機(jī)器人能夠完成諸如"先尋找目標(biāo)、移開(kāi)遮擋物、拍照后發(fā)送指令"這類(lèi)需要多步驟空間推理的復(fù)合任務(wù)。

這一切得以實(shí)現(xiàn)的前提是：Dexbotic 提供了從多源數(shù)據(jù)混訓(xùn)、模塊化模型構(gòu)建到跨機(jī)型適配的完整基礎(chǔ)設(shè)施。DM0的登頂，本質(zhì)上是Dexbotic框架能力的一次集中兌現(xiàn)。

02.

半年、15+核心Feature、超千位研發(fā)者：一份密集到"反常"的更新清單

在開(kāi)源社區(qū)，一個(gè)項(xiàng)目的生命力不看發(fā)布時(shí)的聲量，而看發(fā)布之后的迭代節(jié)奏。

Dexbotic自2025年10月正式開(kāi)源以來(lái)的這份更新清單，密集到幾乎可以用"反常"來(lái)形容：

模型層面，先后適配了Pi0.5、OFT、NaVILA、SimpleVLA-RL、GR00T N1等多款前沿模型。其中GR00T N1作為NVIDIA面向通用機(jī)器人的基礎(chǔ)模型，接入Dexbotic后實(shí)測(cè)表現(xiàn)強(qiáng)勁——在LIBERO benchmark上平均達(dá)到94.8，Spatial任務(wù)更達(dá)到99.6，從訓(xùn)練到推理鏈路全面打通。近日又新增了對(duì)UniNaVid的全面支持，覆蓋評(píng)測(cè)、SFT訓(xùn)練及DexDataset數(shù)據(jù)格式適配，將版圖從具身操作拓展至VLN/Embodied Navigation方向，打通了導(dǎo)航任務(wù)從數(shù)據(jù)接入、模型微調(diào)到Benchmark評(píng)測(cè)的完整鏈路。

訓(xùn)練能力層面，CogACT和Pi0.5先后開(kāi)放了Co-training能力，支持Action Expert與LLM的端到端聯(lián)合優(yōu)化，想做端到端聯(lián)合訓(xùn)練的團(tuán)隊(duì)可以直接上手。尤其值得一提的是Pi0.5的多源數(shù)據(jù)混合訓(xùn)練功能——開(kāi)發(fā)者現(xiàn)在可以直接在Dexbotic上進(jìn)行"機(jī)器人數(shù)據(jù)+多模態(tài)數(shù)據(jù)"一鍵混合訓(xùn)練，打破單一數(shù)據(jù)源的局限，大幅提升模型泛化能力。此外，框架還推出了基于GRPO的輕量級(jí)后訓(xùn)練方案：不依賴Ray，部署維護(hù)成本更低；支持環(huán)境多卡并行推理，rollout過(guò)程無(wú)需頻繁重建環(huán)境；訓(xùn)練數(shù)據(jù)可在多卡之間點(diǎn)對(duì)點(diǎn)快速均勻分配，整體訓(xùn)練吞吐顯著提升。

硬件生態(tài)層面，在最初支持ALOHA、UR5、Franka、ARX5的基礎(chǔ)上，陸續(xù)接入了SO-101、星海圖Galaxea R1、原力靈機(jī)自研開(kāi)源硬件DOS-W1、XLeRobot生態(tài)，已適配超過(guò)10款主流機(jī)型，覆蓋從桌面級(jí)機(jī)械臂到人形機(jī)器人的廣泛形態(tài)。以XLeRobot為例，Dexbotic發(fā)布了詳盡的集成教程，以"桌面桂圓收集任務(wù)"為案例，手把手演示了從數(shù)據(jù)采集、DexData格式轉(zhuǎn)換、VLA模型訓(xùn)練到部署推理的完整閉環(huán)——真正做到了從0到1的具身原生全流程打通。

基礎(chǔ)設(shè)施層面，發(fā)布了適配Blackwell GPU架構(gòu)的專(zhuān)用鏡像，新卡用戶一行命令即可拉取，新架構(gòu)即刻可用；發(fā)布了SO-101機(jī)械臂接入教程，硬件開(kāi)發(fā)者可以直接"抄作業(yè)"；同時(shí)正式支持以RLinf作為分布式強(qiáng)化學(xué)習(xí)后端，開(kāi)發(fā)者無(wú)需在兩個(gè)倉(cāng)庫(kù)間來(lái)回跳轉(zhuǎn)，一行命令即可啟動(dòng)完整的RL后訓(xùn)練流程。

截至目前，Dexbotic已服務(wù)清華、北大、普林斯頓、帝國(guó)理工等數(shù)十家知名院校，以及騰訊、北京具身智能機(jī)器人創(chuàng)新中心等頭部企業(yè)，累計(jì)觸達(dá)超千位研發(fā)者。

一個(gè)自然的問(wèn)題是：是什么樣的技術(shù)底座，支撐得起如此高密度的Feature輸出？

03.

V-L-A解耦：讓具身智能開(kāi)發(fā)真正進(jìn)入"樂(lè)高時(shí)代"

答案藏在Dexbotic 2.0的架構(gòu)重構(gòu)中。

今年2月，Dexbotic完成了一次質(zhì)變級(jí)的升級(jí)——從一站式VLA代碼庫(kù)蛻變?yōu)榫呱?strong>原生開(kāi)發(fā)框架。如果說(shuō)1.0時(shí)代的Dexbotic是一個(gè)功能齊全的"工具箱"，那么2.0則是一套可以自由拼裝、獨(dú)立演進(jìn)的"積木體系"。

核心突破在于V-L-A模塊化解耦。框架在架構(gòu)層面將Vision Encoder（視覺(jué)編碼器）、LLM（大語(yǔ)言模型）和Action Expert（動(dòng)作專(zhuān)家）三大組件徹底拆開(kāi)，同一套系統(tǒng)可在感知、認(rèn)知和控制三個(gè)層面獨(dú)立升級(jí)、自由替換與靈活混搭。

這意味著，當(dāng)一個(gè)更強(qiáng)的視覺(jué)基座模型發(fā)布時(shí)，研究者只需替換V模塊，L和A完全不受影響；當(dāng)需要適配一款新的機(jī)械臂時(shí)，只需調(diào)整Action Expert，認(rèn)知與感知層安然無(wú)恙。正是這種高度模塊化的設(shè)計(jì)，才使得Dexbotic在半年內(nèi)密集接入Pi0.5、GR00T N1等多種異構(gòu)模型時(shí)，不至于陷入"牽一發(fā)動(dòng)全身"的工程泥沼。

而在解耦的基礎(chǔ)上，Dexbotic 2.0帶來(lái)了一項(xiàng)更具戰(zhàn)略意義的能力——多源數(shù)據(jù)混合訓(xùn)練。

傳統(tǒng)方案中，互聯(lián)網(wǎng)圖文/視頻數(shù)據(jù)和機(jī)器人實(shí)操軌跡數(shù)據(jù)分屬兩條訓(xùn)練管線。Dexbotic 2.0用同一套訓(xùn)練過(guò)程把兩類(lèi)數(shù)據(jù)統(tǒng)一起來(lái)：視覺(jué)-語(yǔ)言模型同時(shí)攝入多模態(tài)數(shù)據(jù)，學(xué)習(xí)場(chǎng)景描述（Caption）、任務(wù)拆解（Subtask）和指令錨定（Grounding）三類(lèi)核心能力；動(dòng)作專(zhuān)家在此之上接入，將高維語(yǔ)義理解直接轉(zhuǎn)化為抓取、移動(dòng)、放置等連續(xù)控制序列。兩類(lèi)數(shù)據(jù)共同優(yōu)化，使模型既具備通用語(yǔ)義理解，又掌握可落地的操作技能——"能說(shuō)清、能看準(zhǔn)、能做對(duì)"

DM0的跨機(jī)型泛化能力與全球榜首的成績(jī)，正是這套多源混訓(xùn)范式的直接產(chǎn)物。

04.

數(shù)據(jù)—訓(xùn)練—評(píng)測(cè)—硬件：四環(huán)閉合的具身開(kāi)發(fā)全流程

架構(gòu)解耦解決了"怎么搭"的問(wèn)題，但具身智能研發(fā)中另一個(gè)長(zhǎng)期痛點(diǎn)在于全流程的碎片化。數(shù)據(jù)格式五花八門(mén)、評(píng)測(cè)基準(zhǔn)各自為政、硬件適配反復(fù)造輪子——這些工程層面的摩擦，常常消耗掉研究者大量本應(yīng)投入算法創(chuàng)新的精力。

Dexbotic 2.0的應(yīng)對(duì)策略是：從"數(shù)據(jù)—訓(xùn)練—評(píng)測(cè)—硬件"四個(gè)環(huán)節(jié)系統(tǒng)性地構(gòu)建閉環(huán)。

數(shù)據(jù)處理方面，Dexbotic提出了DexData統(tǒng)一數(shù)據(jù)格式，將Prompt、子任務(wù)拆解、目標(biāo)物體框選、2D軌跡等標(biāo)注信息整合于一體，極大壓縮了多源異構(gòu)數(shù)據(jù)對(duì)齊的工程開(kāi)銷(xiāo)。基于DexData格式，系統(tǒng)自動(dòng)完成圖像、文本及狀態(tài)信息的提取與預(yù)處理，可直接用于全面的監(jiān)督訓(xùn)練。

仿真評(píng)測(cè)方面，通過(guò)Docker環(huán)境一口氣適配了5款主流仿真器，所有仿真訓(xùn)練數(shù)據(jù)均轉(zhuǎn)化為DexData格式并全部開(kāi)源于Hugging Face。不同團(tuán)隊(duì)可在完全相同的數(shù)據(jù)條件下進(jìn)行訓(xùn)練和評(píng)測(cè)，從根本上解決了"復(fù)現(xiàn)不公平"的行業(yè)頑疾。

真機(jī)評(píng)測(cè)方面，Dexbotic打通了全球首個(gè)具身智能大規(guī)模真機(jī)評(píng)測(cè)平臺(tái)RoboChallenge的評(píng)測(cè)接口代碼并全面開(kāi)源。研究者基于Dexbotic開(kāi)發(fā)的模型，可在RoboChallenge平臺(tái)進(jìn)行公開(kāi)、公平、透明的性能驗(yàn)證，從開(kāi)發(fā)、訓(xùn)練、推理到評(píng)測(cè)，技術(shù)鏈路首次在基礎(chǔ)設(shè)施層面實(shí)現(xiàn)了完整閉合。

硬件支持方面，DOS-W1作為原力靈機(jī)推出的首款開(kāi)源硬件產(chǎn)品，采用完全開(kāi)源設(shè)計(jì)——所有文檔、BOM、設(shè)計(jì)圖紙、組裝方案與相關(guān)代碼均已公開(kāi)。大量快拆結(jié)構(gòu)與符合人體工學(xué)的抗疲勞設(shè)計(jì)，顯著降低了機(jī)器人使用與數(shù)據(jù)采集門(mén)檻。結(jié)合此前接入的SO-101、Galaxea R1、XLeRobot等十余款機(jī)型，Dexbotic已構(gòu)建起具身智能開(kāi)源社區(qū)中覆蓋最廣的硬件適配矩陣之一。

05.

SFT到RL一鍵閉環(huán)：與RLinf的"樂(lè)高式"牽手如何重塑訓(xùn)練范式？

在大模型領(lǐng)域，"SFT預(yù)訓(xùn)練 + RLHF后訓(xùn)練"已被驗(yàn)證為提升模型能力的黃金范式。具身智能同樣遵循這一邏輯：VLA模型通過(guò)SFT學(xué)會(huì)基礎(chǔ)的感知與操作能力，再通過(guò)大規(guī)模RL后訓(xùn)練持續(xù)優(yōu)化真實(shí)任務(wù)中的成功率與動(dòng)作質(zhì)量。

但此前，這條路徑的工程實(shí)現(xiàn)極為痛苦。

研究者先在Dexbotic完成模型開(kāi)發(fā)與SFT訓(xùn)練，拿到Checkpoint后不得不切換到RLinf倉(cāng)庫(kù)，借助外部入口腳本啟動(dòng)RL任務(wù)。這種方式對(duì)RLinf原生模型并不構(gòu)成障礙，但對(duì)Dexbotic用戶而言痛點(diǎn)顯而易見(jiàn)：模型連接、Checkpoint路徑、適配器與任務(wù)配置都要遷移至外部入口；兩個(gè)項(xiàng)目之間存在認(rèn)知割裂；每新增一個(gè)Dexbotic策略都可能牽動(dòng)RLinf內(nèi)部改動(dòng)；SFT與RL被人為切割成了兩條互不相通的流水線。

作為Dexbotic與RLinf戰(zhàn)略合作的階段性成果，這一局面已被徹底改寫(xiě)。Dexbotic正式支持以RLinf作為其分布式強(qiáng)化學(xué)習(xí)后端，開(kāi)發(fā)者只需停留在Dexbotic項(xiàng)目?jī)?nèi)，一行命令即可啟動(dòng)完整的RL后訓(xùn)練流程。從模型開(kāi)發(fā)、SFT Checkpoint管理，到RL配置編寫(xiě)與任務(wù)啟動(dòng)，所有環(huán)節(jié)一站式完成，啟動(dòng)命令簡(jiǎn)潔到近乎"零門(mén)檻"。

這次整合最值得稱(chēng)道的，是其"樂(lè)高式"的協(xié)作架構(gòu)。Dexbotic繼續(xù)深耕策略定義、模型注冊(cè)、Checkpoint管理、模型專(zhuān)屬數(shù)據(jù)變換與用戶側(cè)實(shí)驗(yàn)入口；RLinf穩(wěn)守后端本職，承擔(dān)分布式Rollout、優(yōu)化、Worker調(diào)度、日志記錄與Runner編排。兩個(gè)項(xiàng)目通過(guò)標(biāo)準(zhǔn)化的后端適配器銜接，沒(méi)有Fork、沒(méi)有代碼融合，如樂(lè)高積木般模塊化拼裝、各自獨(dú)立演進(jìn)。RLinf的版本迭代不會(huì)打斷Dexbotic的用戶體驗(yàn)，Dexbotic的策略擴(kuò)展也不會(huì)反向侵入RLinf內(nèi)部邏輯。這種架構(gòu)的開(kāi)源價(jià)值尤為珍貴：團(tuán)隊(duì)無(wú)需改造RLinf主訓(xùn)練循環(huán)，也無(wú)需將兩份codebase強(qiáng)行揉合，從根本上降低了長(zhǎng)期維護(hù)成本。

與此同時(shí)，Dexbotic還引入了基于GRPO的輕量級(jí)后訓(xùn)練方案作為補(bǔ)充——不依賴Ray、支持多卡并行推理、訓(xùn)練數(shù)據(jù)點(diǎn)對(duì)點(diǎn)均勻分配，對(duì)資源有限的團(tuán)隊(duì)尤其友好。兩條RL路徑一重一輕、互為補(bǔ)充，讓不同規(guī)模的團(tuán)隊(duì)都能找到適合自己的后訓(xùn)練通道。

06.

誰(shuí)在定義具身智能的"PyTorch時(shí)刻"？

從V-L-A模塊化解耦到DexData統(tǒng)一數(shù)據(jù)格式，從多源數(shù)據(jù)混合訓(xùn)練到SFT+RL一鍵閉環(huán)，從5款仿真器適配到10余款真機(jī)硬件覆蓋，從DM0登頂全球到UniNaVid導(dǎo)航鏈路打通，從CogACT端到端聯(lián)合優(yōu)化到GR00T N1在LIBERO上跑出94.8的均分——Dexbotic正沿著PyTorch當(dāng)年走過(guò)的路徑，一步步構(gòu)建起具身智能領(lǐng)域的底層共識(shí)。

當(dāng)然，一個(gè)時(shí)代級(jí)的基礎(chǔ)設(shè)施不會(huì)由某一個(gè)項(xiàng)目單獨(dú)定義。Dexbotic能否真正成長(zhǎng)為具身智能的底層運(yùn)行層，最終取決于它能為多少研究者降低門(mén)檻、為多少團(tuán)隊(duì)加速迭代、為多少創(chuàng)新想法提供落地的土壤。

半年時(shí)間，數(shù)十家頂尖機(jī)構(gòu)，超千位研發(fā)者，15+核心Feature迭代。

這份答卷雖然還在書(shū)寫(xiě)的過(guò)程中，但方向已經(jīng)愈發(fā)清晰——具身智能的"PyTorch時(shí)刻"，或許正在到來(lái)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.