“ 從一份半年更新清單,看一個(gè)具身原生框架的崛起邏輯。
在深度學(xué)習(xí)發(fā)展史上,PyTorch用動(dòng)態(tài)計(jì)算圖、模塊化設(shè)計(jì)與極低的上手門(mén)檻,終結(jié)了早期框架百花齊放卻互不兼容的混亂局面,讓全球研究者得以在同一套基礎(chǔ)設(shè)施上快速驗(yàn)證想法、共享成果。
如今,具身智能領(lǐng)域正站在類(lèi)似的十字路口。VLA技術(shù)研發(fā)分散化嚴(yán)重,不同團(tuán)隊(duì)基于不同框架各自為戰(zhàn);研發(fā)流程異常繁瑣,算法對(duì)比需配置多份實(shí)驗(yàn)環(huán)境和數(shù)據(jù)格式;算法復(fù)現(xiàn)缺乏公平基準(zhǔn),難以確保每個(gè)對(duì)比算法調(diào)至最優(yōu);VLA研發(fā)無(wú)法從最新VLM受益,大多數(shù)VLA往往基于過(guò)時(shí)的VLM構(gòu)建。SFT與RL割裂為兩條流水線,前沿VLM的紅利遲遲無(wú)法向物理操作任務(wù)傳導(dǎo)。
正是洞察到這些深層痛點(diǎn),原力靈機(jī)把Dexbotic從一站式VLA代碼庫(kù)全面升級(jí)為具身原生開(kāi)發(fā)框架,并聯(lián)合RLinf、攜手清華大學(xué)與無(wú)問(wèn)芯穹,共同開(kāi)啟"打造具身智能時(shí)代PyTorch"的征程
原力靈機(jī)聯(lián)合創(chuàng)始人汪天才表示,“我們期望通過(guò)Dexbotic2.0實(shí)現(xiàn)VLA+RL學(xué)習(xí)范式的統(tǒng)一,通過(guò)Dexbotic和RLinf的集合,一起去對(duì)應(yīng)大模型時(shí)代SFT+RLHF的黃金范式,一起推動(dòng)整個(gè)具身行業(yè)的發(fā)展,一起解決具身智能的問(wèn)題”。
?官網(wǎng):https://dexbotic.com/
?GitHub:https://github.com/Dexmal/dexbotic
?Hugging Face:https://huggingface.co/collections/Dexmal/dexbotic
01.
2.4B參數(shù)登頂全球,一個(gè)具身原生大模型的"出廠證明"
先從一個(gè)結(jié)果說(shuō)起。
今年2月,一個(gè)名為DM0的具身智能大模型悄然登頂了權(quán)威真機(jī)評(píng)測(cè)基準(zhǔn)RoboChallenge的全球榜首——單任務(wù)與多任務(wù)雙項(xiàng)第一,而它的參數(shù)量?jī)H為2.4B。
在具身智能領(lǐng)域,這個(gè)成績(jī)的含金量不言而喻。RoboChallenge是全球首個(gè)具身智能的大規(guī)模真機(jī)評(píng)測(cè)平臺(tái),考核的不是仿真中的數(shù)字指標(biāo),而是真實(shí)物理世界中的操作成功率。一個(gè)2.4B參數(shù)的"小"模型能在此稱(chēng)雄,其"智能密度"之高,令人側(cè)目。
但真正值得追問(wèn)的是:DM0是怎么被訓(xùn)練出來(lái)的?
答案指向它背后的具身原生框架——Dexbotic
DM0是全球首個(gè)從零開(kāi)始訓(xùn)練的具身原生大模型,它在預(yù)訓(xùn)練階段即系統(tǒng)性地混合了操作、導(dǎo)航、全身控制三類(lèi)核心任務(wù),覆蓋了UR、Franka等8種構(gòu)型迥異的機(jī)器人硬件。這種訓(xùn)練策略迫使模型學(xué)習(xí)底層通用的物理操作邏輯,而非記憶特定硬件參數(shù),從而獲得了強(qiáng)大的跨機(jī)型泛化能力。此外,DM0創(chuàng)造性地構(gòu)建了"空間推理思維鏈",將環(huán)境感知、任務(wù)理解、運(yùn)動(dòng)規(guī)劃與精細(xì)執(zhí)行串聯(lián)成閉環(huán),使機(jī)器人能夠完成諸如"先尋找目標(biāo)、移開(kāi)遮擋物、拍照后發(fā)送指令"這類(lèi)需要多步驟空間推理的復(fù)合任務(wù)。
這一切得以實(shí)現(xiàn)的前提是:Dexbotic 提供了從多源數(shù)據(jù)混訓(xùn)、模塊化模型構(gòu)建到跨機(jī)型適配的完整基礎(chǔ)設(shè)施。DM0的登頂,本質(zhì)上是Dexbotic框架能力的一次集中兌現(xiàn)。
02.
半年、15+核心Feature、超千位研發(fā)者:一份密集到"反常"的更新清單
在開(kāi)源社區(qū),一個(gè)項(xiàng)目的生命力不看發(fā)布時(shí)的聲量,而看發(fā)布之后的迭代節(jié)奏。
Dexbotic自2025年10月正式開(kāi)源以來(lái)的這份更新清單,密集到幾乎可以用"反常"來(lái)形容:
![]()
模型層面,先后適配了Pi0.5、OFT、NaVILA、SimpleVLA-RL、GR00T N1等多款前沿模型。其中GR00T N1作為NVIDIA面向通用機(jī)器人的基礎(chǔ)模型,接入Dexbotic后實(shí)測(cè)表現(xiàn)強(qiáng)勁——在LIBERO benchmark上平均達(dá)到94.8,Spatial任務(wù)更達(dá)到99.6,從訓(xùn)練到推理鏈路全面打通。近日又新增了對(duì)UniNaVid的全面支持,覆蓋評(píng)測(cè)、SFT訓(xùn)練及DexDataset數(shù)據(jù)格式適配,將版圖從具身操作拓展至VLN/Embodied Navigation方向,打通了導(dǎo)航任務(wù)從數(shù)據(jù)接入、模型微調(diào)到Benchmark評(píng)測(cè)的完整鏈路。
訓(xùn)練能力層面,CogACT和Pi0.5先后開(kāi)放了Co-training能力,支持Action Expert與LLM的端到端聯(lián)合優(yōu)化,想做端到端聯(lián)合訓(xùn)練的團(tuán)隊(duì)可以直接上手。尤其值得一提的是Pi0.5的多源數(shù)據(jù)混合訓(xùn)練功能——開(kāi)發(fā)者現(xiàn)在可以直接在Dexbotic上進(jìn)行"機(jī)器人數(shù)據(jù)+多模態(tài)數(shù)據(jù)"一鍵混合訓(xùn)練,打破單一數(shù)據(jù)源的局限,大幅提升模型泛化能力。此外,框架還推出了基于GRPO的輕量級(jí)后訓(xùn)練方案:不依賴Ray,部署維護(hù)成本更低;支持環(huán)境多卡并行推理,rollout過(guò)程無(wú)需頻繁重建環(huán)境;訓(xùn)練數(shù)據(jù)可在多卡之間點(diǎn)對(duì)點(diǎn)快速均勻分配,整體訓(xùn)練吞吐顯著提升。
硬件生態(tài)層面,在最初支持ALOHA、UR5、Franka、ARX5的基礎(chǔ)上,陸續(xù)接入了SO-101、星海圖Galaxea R1、原力靈機(jī)自研開(kāi)源硬件DOS-W1、XLeRobot生態(tài),已適配超過(guò)10款主流機(jī)型,覆蓋從桌面級(jí)機(jī)械臂到人形機(jī)器人的廣泛形態(tài)。以XLeRobot為例,Dexbotic發(fā)布了詳盡的集成教程,以"桌面桂圓收集任務(wù)"為案例,手把手演示了從數(shù)據(jù)采集、DexData格式轉(zhuǎn)換、VLA模型訓(xùn)練到部署推理的完整閉環(huán)——真正做到了從0到1的具身原生全流程打通。
基礎(chǔ)設(shè)施層面,發(fā)布了適配Blackwell GPU架構(gòu)的專(zhuān)用鏡像,新卡用戶一行命令即可拉取,新架構(gòu)即刻可用;發(fā)布了SO-101機(jī)械臂接入教程,硬件開(kāi)發(fā)者可以直接"抄作業(yè)";同時(shí)正式支持以RLinf作為分布式強(qiáng)化學(xué)習(xí)后端,開(kāi)發(fā)者無(wú)需在兩個(gè)倉(cāng)庫(kù)間來(lái)回跳轉(zhuǎn),一行命令即可啟動(dòng)完整的RL后訓(xùn)練流程。
截至目前,Dexbotic已服務(wù)清華、北大、普林斯頓、帝國(guó)理工等數(shù)十家知名院校,以及騰訊、北京具身智能機(jī)器人創(chuàng)新中心等頭部企業(yè),累計(jì)觸達(dá)超千位研發(fā)者。
一個(gè)自然的問(wèn)題是:是什么樣的技術(shù)底座,支撐得起如此高密度的Feature輸出?
03.
V-L-A解耦:讓具身智能開(kāi)發(fā)真正進(jìn)入"樂(lè)高時(shí)代"
答案藏在Dexbotic 2.0的架構(gòu)重構(gòu)中。
今年2月,Dexbotic完成了一次質(zhì)變級(jí)的升級(jí)——從一站式VLA代碼庫(kù)蛻變?yōu)榫呱?strong>原生開(kāi)發(fā)框架。如果說(shuō)1.0時(shí)代的Dexbotic是一個(gè)功能齊全的"工具箱",那么2.0則是一套可以自由拼裝、獨(dú)立演進(jìn)的"積木體系"。
![]()
核心突破在于V-L-A模塊化解耦。框架在架構(gòu)層面將Vision Encoder(視覺(jué)編碼器)、LLM(大語(yǔ)言模型)和Action Expert(動(dòng)作專(zhuān)家)三大組件徹底拆開(kāi),同一套系統(tǒng)可在感知、認(rèn)知和控制三個(gè)層面獨(dú)立升級(jí)、自由替換與靈活混搭。
這意味著,當(dāng)一個(gè)更強(qiáng)的視覺(jué)基座模型發(fā)布時(shí),研究者只需替換V模塊,L和A完全不受影響;當(dāng)需要適配一款新的機(jī)械臂時(shí),只需調(diào)整Action Expert,認(rèn)知與感知層安然無(wú)恙。正是這種高度模塊化的設(shè)計(jì),才使得Dexbotic在半年內(nèi)密集接入Pi0.5、GR00T N1等多種異構(gòu)模型時(shí),不至于陷入"牽一發(fā)動(dòng)全身"的工程泥沼。
而在解耦的基礎(chǔ)上,Dexbotic 2.0帶來(lái)了一項(xiàng)更具戰(zhàn)略意義的能力——多源數(shù)據(jù)混合訓(xùn)練。
傳統(tǒng)方案中,互聯(lián)網(wǎng)圖文/視頻數(shù)據(jù)和機(jī)器人實(shí)操軌跡數(shù)據(jù)分屬兩條訓(xùn)練管線。Dexbotic 2.0用同一套訓(xùn)練過(guò)程把兩類(lèi)數(shù)據(jù)統(tǒng)一起來(lái):視覺(jué)-語(yǔ)言模型同時(shí)攝入多模態(tài)數(shù)據(jù),學(xué)習(xí)場(chǎng)景描述(Caption)、任務(wù)拆解(Subtask)和指令錨定(Grounding)三類(lèi)核心能力;動(dòng)作專(zhuān)家在此之上接入,將高維語(yǔ)義理解直接轉(zhuǎn)化為抓取、移動(dòng)、放置等連續(xù)控制序列。兩類(lèi)數(shù)據(jù)共同優(yōu)化,使模型既具備通用語(yǔ)義理解,又掌握可落地的操作技能——"能說(shuō)清、能看準(zhǔn)、能做對(duì)"
DM0的跨機(jī)型泛化能力與全球榜首的成績(jī),正是這套多源混訓(xùn)范式的直接產(chǎn)物。
04.
數(shù)據(jù)—訓(xùn)練—評(píng)測(cè)—硬件:四環(huán)閉合的具身開(kāi)發(fā)全流程
架構(gòu)解耦解決了"怎么搭"的問(wèn)題,但具身智能研發(fā)中另一個(gè)長(zhǎng)期痛點(diǎn)在于全流程的碎片化。數(shù)據(jù)格式五花八門(mén)、評(píng)測(cè)基準(zhǔn)各自為政、硬件適配反復(fù)造輪子——這些工程層面的摩擦,常常消耗掉研究者大量本應(yīng)投入算法創(chuàng)新的精力。
Dexbotic 2.0的應(yīng)對(duì)策略是:從"數(shù)據(jù)—訓(xùn)練—評(píng)測(cè)—硬件"四個(gè)環(huán)節(jié)系統(tǒng)性地構(gòu)建閉環(huán)。
數(shù)據(jù)處理方面,Dexbotic提出了DexData統(tǒng)一數(shù)據(jù)格式,將Prompt、子任務(wù)拆解、目標(biāo)物體框選、2D軌跡等標(biāo)注信息整合于一體,極大壓縮了多源異構(gòu)數(shù)據(jù)對(duì)齊的工程開(kāi)銷(xiāo)。基于DexData格式,系統(tǒng)自動(dòng)完成圖像、文本及狀態(tài)信息的提取與預(yù)處理,可直接用于全面的監(jiān)督訓(xùn)練。
仿真評(píng)測(cè)方面,通過(guò)Docker環(huán)境一口氣適配了5款主流仿真器,所有仿真訓(xùn)練數(shù)據(jù)均轉(zhuǎn)化為DexData格式并全部開(kāi)源于Hugging Face。不同團(tuán)隊(duì)可在完全相同的數(shù)據(jù)條件下進(jìn)行訓(xùn)練和評(píng)測(cè),從根本上解決了"復(fù)現(xiàn)不公平"的行業(yè)頑疾。
真機(jī)評(píng)測(cè)方面,Dexbotic打通了全球首個(gè)具身智能大規(guī)模真機(jī)評(píng)測(cè)平臺(tái)RoboChallenge的評(píng)測(cè)接口代碼并全面開(kāi)源。研究者基于Dexbotic開(kāi)發(fā)的模型,可在RoboChallenge平臺(tái)進(jìn)行公開(kāi)、公平、透明的性能驗(yàn)證,從開(kāi)發(fā)、訓(xùn)練、推理到評(píng)測(cè),技術(shù)鏈路首次在基礎(chǔ)設(shè)施層面實(shí)現(xiàn)了完整閉合。
硬件支持方面,DOS-W1作為原力靈機(jī)推出的首款開(kāi)源硬件產(chǎn)品,采用完全開(kāi)源設(shè)計(jì)——所有文檔、BOM、設(shè)計(jì)圖紙、組裝方案與相關(guān)代碼均已公開(kāi)。大量快拆結(jié)構(gòu)與符合人體工學(xué)的抗疲勞設(shè)計(jì),顯著降低了機(jī)器人使用與數(shù)據(jù)采集門(mén)檻。結(jié)合此前接入的SO-101、Galaxea R1、XLeRobot等十余款機(jī)型,Dexbotic已構(gòu)建起具身智能開(kāi)源社區(qū)中覆蓋最廣的硬件適配矩陣之一。
05.
SFT到RL一鍵閉環(huán):與RLinf的"樂(lè)高式"牽手如何重塑訓(xùn)練范式?
在大模型領(lǐng)域,"SFT預(yù)訓(xùn)練 + RLHF后訓(xùn)練"已被驗(yàn)證為提升模型能力的黃金范式。具身智能同樣遵循這一邏輯:VLA模型通過(guò)SFT學(xué)會(huì)基礎(chǔ)的感知與操作能力,再通過(guò)大規(guī)模RL后訓(xùn)練持續(xù)優(yōu)化真實(shí)任務(wù)中的成功率與動(dòng)作質(zhì)量。
但此前,這條路徑的工程實(shí)現(xiàn)極為痛苦。
研究者先在Dexbotic完成模型開(kāi)發(fā)與SFT訓(xùn)練,拿到Checkpoint后不得不切換到RLinf倉(cāng)庫(kù),借助外部入口腳本啟動(dòng)RL任務(wù)。這種方式對(duì)RLinf原生模型并不構(gòu)成障礙,但對(duì)Dexbotic用戶而言痛點(diǎn)顯而易見(jiàn):模型連接、Checkpoint路徑、適配器與任務(wù)配置都要遷移至外部入口;兩個(gè)項(xiàng)目之間存在認(rèn)知割裂;每新增一個(gè)Dexbotic策略都可能牽動(dòng)RLinf內(nèi)部改動(dòng);SFT與RL被人為切割成了兩條互不相通的流水線。
作為Dexbotic與RLinf戰(zhàn)略合作的階段性成果,這一局面已被徹底改寫(xiě)。Dexbotic正式支持以RLinf作為其分布式強(qiáng)化學(xué)習(xí)后端,開(kāi)發(fā)者只需停留在Dexbotic項(xiàng)目?jī)?nèi),一行命令即可啟動(dòng)完整的RL后訓(xùn)練流程。從模型開(kāi)發(fā)、SFT Checkpoint管理,到RL配置編寫(xiě)與任務(wù)啟動(dòng),所有環(huán)節(jié)一站式完成,啟動(dòng)命令簡(jiǎn)潔到近乎"零門(mén)檻"。
![]()
這次整合最值得稱(chēng)道的,是其"樂(lè)高式"的協(xié)作架構(gòu)。Dexbotic繼續(xù)深耕策略定義、模型注冊(cè)、Checkpoint管理、模型專(zhuān)屬數(shù)據(jù)變換與用戶側(cè)實(shí)驗(yàn)入口;RLinf穩(wěn)守后端本職,承擔(dān)分布式Rollout、優(yōu)化、Worker調(diào)度、日志記錄與Runner編排。兩個(gè)項(xiàng)目通過(guò)標(biāo)準(zhǔn)化的后端適配器銜接,沒(méi)有Fork、沒(méi)有代碼融合,如樂(lè)高積木般模塊化拼裝、各自獨(dú)立演進(jìn)。RLinf的版本迭代不會(huì)打斷Dexbotic的用戶體驗(yàn),Dexbotic的策略擴(kuò)展也不會(huì)反向侵入RLinf內(nèi)部邏輯。這種架構(gòu)的開(kāi)源價(jià)值尤為珍貴:團(tuán)隊(duì)無(wú)需改造RLinf主訓(xùn)練循環(huán),也無(wú)需將兩份codebase強(qiáng)行揉合,從根本上降低了長(zhǎng)期維護(hù)成本。
與此同時(shí),Dexbotic還引入了基于GRPO的輕量級(jí)后訓(xùn)練方案作為補(bǔ)充——不依賴Ray、支持多卡并行推理、訓(xùn)練數(shù)據(jù)點(diǎn)對(duì)點(diǎn)均勻分配,對(duì)資源有限的團(tuán)隊(duì)尤其友好。兩條RL路徑一重一輕、互為補(bǔ)充,讓不同規(guī)模的團(tuán)隊(duì)都能找到適合自己的后訓(xùn)練通道。
06.
誰(shuí)在定義具身智能的"PyTorch時(shí)刻"?
從V-L-A模塊化解耦到DexData統(tǒng)一數(shù)據(jù)格式,從多源數(shù)據(jù)混合訓(xùn)練到SFT+RL一鍵閉環(huán),從5款仿真器適配到10余款真機(jī)硬件覆蓋,從DM0登頂全球到UniNaVid導(dǎo)航鏈路打通,從CogACT端到端聯(lián)合優(yōu)化到GR00T N1在LIBERO上跑出94.8的均分——Dexbotic正沿著PyTorch當(dāng)年走過(guò)的路徑,一步步構(gòu)建起具身智能領(lǐng)域的底層共識(shí)。
當(dāng)然,一個(gè)時(shí)代級(jí)的基礎(chǔ)設(shè)施不會(huì)由某一個(gè)項(xiàng)目單獨(dú)定義。Dexbotic能否真正成長(zhǎng)為具身智能的底層運(yùn)行層,最終取決于它能為多少研究者降低門(mén)檻、為多少團(tuán)隊(duì)加速迭代、為多少創(chuàng)新想法提供落地的土壤。
半年時(shí)間,數(shù)十家頂尖機(jī)構(gòu),超千位研發(fā)者,15+核心Feature迭代。
這份答卷雖然還在書(shū)寫(xiě)的過(guò)程中,但方向已經(jīng)愈發(fā)清晰——具身智能的"PyTorch時(shí)刻",或許正在到來(lái)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.