![]()
案例基于EgoScale:用不同的以自我為中心的人類數(shù)據(jù)來衡量靈巧手的操作。
挑戰(zhàn)
像擰開蓋子、使用工具和精細(xì)的手指控制等靈巧的機(jī)器人操作訓(xùn)練成本很高。目前的方法依賴于大量的遙操作機(jī)器人演示,這種演示速度慢,而且規(guī)模昂貴。與此同時,人類每天都會產(chǎn)生大量靈巧的操作數(shù)據(jù),但將這些知識轉(zhuǎn)移到機(jī)器人身上仍然具有挑戰(zhàn)性。
解決方案
EgoScale將大規(guī)模以人為中心的視頻作為主要訓(xùn)練資料來源,并通過以下方式將其與精確的MANUS數(shù)據(jù)手套運動校準(zhǔn)相結(jié)合并應(yīng)用于三級流水線中。
![]()
NVIDIA推出的EgoScale是一個三階段的培訓(xùn)管道,用于擴(kuò)展機(jī)器人遙操作靈活性。
步驟1-人工預(yù)訓(xùn)練
視覺-語言-動作(VLA)模型在總時長長達(dá)20,854小時動作標(biāo)記的以自我為中心的人類視頻上進(jìn)行預(yù)訓(xùn)練。使用21個關(guān)鍵點提取人手運動,并將其重定向到22-DoF機(jī)器手關(guān)節(jié)空間,手腕運動表示為相對3D平移和旋轉(zhuǎn)。
研究小組揭示了一個對數(shù)線性標(biāo)度定律:隨著人類數(shù)據(jù)的增加,驗證損失可預(yù)見地減少,并開始與真實機(jī)器人的性能相關(guān)起來。這表明大規(guī)模人類視頻是靈巧機(jī)器人學(xué)習(xí)的可擴(kuò)展和監(jiān)督來源。
![]()
從以動作為標(biāo)簽的以自我為中心的人類視頻中提取了21個關(guān)鍵點的人類動作。
步驟2–人-機(jī)器人校準(zhǔn)
階段1:從無約束的人類數(shù)據(jù)中學(xué)習(xí)一般的操作,但不與機(jī)器人的傳感和控制設(shè)置匹配。
階段2:彌補了真正開始機(jī)器人時的差距。
在人類和遙操作機(jī)器人使用相同的攝像機(jī)設(shè)置執(zhí)行相同的344個桌面任務(wù)的情況下,研究人員收集了小數(shù)量、仔細(xì)對齊的數(shù)據(jù)集。在此過程中,操作人員穿著MANUS手套捕捉每只手的25個關(guān)節(jié)變換高保真手指數(shù)據(jù),Vive追蹤器被用于記錄手腕運動。相同的運動捕捉設(shè)置用于機(jī)器人遠(yuǎn)程操作,確保人和機(jī)器人的動作信號是直接可比較的。
利用大約50小時的對齊人類數(shù)據(jù)和4小時的機(jī)器人數(shù)據(jù),該模型將人類操縱知識錨定到機(jī)器人控制中。
![]()
使用MANUS手套、Vive追蹤器和以自我為中心的攝像機(jī)來捕捉手部動作和與機(jī)器人傳感配置一致的視覺輸入,從而調(diào)整人-機(jī)器人數(shù)據(jù)收集設(shè)置。
步驟3 -任務(wù)調(diào)整
在這個階段,模型已經(jīng)具有來自階段1的一般操作和來自階段2的機(jī)器人對齊。第三階段針對特定任務(wù)對其進(jìn)行微調(diào)。
在標(biāo)準(zhǔn)設(shè)置中,大約有100個遙控機(jī)器人演示用于使模型適應(yīng)目標(biāo)任務(wù)。因為基礎(chǔ)很強(qiáng),這個相對較小的數(shù)據(jù)集足以在復(fù)雜靈巧的任務(wù)上獲得更好表現(xiàn)。
在一次性設(shè)置中,該模型只需要一個機(jī)器人演示,輔以一致的人類演示,就可以有效地進(jìn)行歸納。這突出了早期階段所實現(xiàn)的強(qiáng)大的快速記錄能力。
![]()
基于流的VLA策略架構(gòu),具有VLM主干和DiT動作專家,使用腕級動作表示和輕量級體現(xiàn)適配器來統(tǒng)一人類和機(jī)器人數(shù)據(jù)。
測量結(jié)果
大規(guī)模人工預(yù)訓(xùn)練和人工校準(zhǔn)的結(jié)合帶來了明顯的性能提升。
在五個復(fù)雜的操作訓(xùn)練任務(wù)中,完整的預(yù)訓(xùn)練和中間訓(xùn)練模型比沒有預(yù)訓(xùn)練的基線提高了54%的平均成功率。在所有單項任務(wù)中,預(yù)訓(xùn)練和中間訓(xùn)練模式也明顯優(yōu)于從頭開始的訓(xùn)練。在單鏡頭設(shè)置中,單個機(jī)器人演示能夠?qū)崿F(xiàn)高達(dá)88%的襯衫折疊成功率,展示了強(qiáng)大的少鏡頭泛化能力。
重要的是,學(xué)習(xí)到的操作在機(jī)器人之間轉(zhuǎn)移。在高自由度靈巧手?jǐn)?shù)據(jù)上預(yù)處理的策略可以適用于具有7自由度三指手的Unitree G1,在成功率上實現(xiàn)了超過30%的絕對提高,并證明了高自由度人類操作可以推廣到低自由度機(jī)器人手上。
![]()
使用22自由度靈巧手的人類預(yù)訓(xùn)練策略同樣也適用于具有7自由度三指手的Unitree G1機(jī)器人,展示了跨不同機(jī)器人機(jī)器人的通用性。
結(jié)果
EgoScale為機(jī)器人靈巧手學(xué)習(xí)建立了一個可擴(kuò)展的范例,一是通過于模擬訓(xùn)練的方式實現(xiàn)MANUS手套提供人體運動空間和機(jī)器人關(guān)節(jié)空間之間的關(guān)鍵對齊層。其二通過充當(dāng)人類運動和機(jī)器人關(guān)節(jié)空間之間的精確動作轉(zhuǎn)換層,MANUS手套降低了機(jī)器人數(shù)據(jù)成本,同時加快了通用靈巧系統(tǒng)的部署。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.