訓練人形機器人執行長視野、靈巧的操作任務需要高保真的遙操作數據。雖然大規模人類視頻數據集可以提供廣泛的運動先驗,但關鍵的微調步驟取決于機器人特定的演示,這些演示將會包含靈巧操作的全部復雜性。
傳統的基于虛擬現實的手部跟蹤依賴于視覺,這使得其更容易受到追蹤遮擋和超出視線范圍的影響。在高精度操作場景中,這些跟蹤間隙會直接降低數據質量,導致最終降低模型性能。
![]()
MANUS手套如何融入ψ?遙操作系統
南加州大學物理超智能(PSI)實驗室建立了一個單操作者全身遠程操作框架,該框架有意地分離了三種控制流:上身姿態跟蹤、靈巧手控制和局部運動命令。每個流都由專用的感測模態來處理。
MANUS手套專門處理靈巧手控制流。設置工作如下:
1. PICO VR頭戴式設備和手腕追蹤器可以捕捉頭部和手腕的姿態,并將其輸入多目標反向運動學解算器,以計算手臂和軀干的配置。
2. MANUS手套捕捉操作者精細的手指運動,覆蓋靈巧手的所有自由度。拇指、食指和中指的運動被重定位到安裝在宇樹G1人形機器人上的三指Dex3-1靈巧手上。
3. 腰部和腳部跟蹤器向基于強化學習的下體控制器提供高級運動命令。
通過將MANUS手套與PICO手腕追蹤器配對,該團隊獲得了完整可靠的手和手腕末端執行器姿態,而不依賴于基于視覺的VR手追蹤。正如作者在論文中所述:
“這種設計避免了常見的遮擋和超出視線范圍問題,并為全身靈巧操作提供了更精確的手部姿勢預估。”
![]()
為什么手部數據對培訓渠道如此重要
域內遙操作數據的質量直接決定了ψ?行動專家對特定任務的微調程度。文中的三階段訓練方法明確了這種依賴性:
1. VLM的骨干在約為829小時的以人類自我視角錄制的視頻(EgoDex)上進行預訓練,學習廣泛的動作表現。
2. 基于流的多模態擴散轉換器(MM-DiT)動作專家在人形日常數據集上進行后期訓練:約31小時的真實世界人形機器人數據。
3. 動作專家對每個任務的80個遙控演示進行微調,這些演示是使用上述系統收集的。
因為第三階段完全依賴于遙控數據集,在數據收集時精確的手指跟蹤對部署時的操作性能有直接的上游影響。用單個手指轉動水龍頭、從芯片罐中拉出托盤或在擦拭過程中穩定碗等任務需要手部姿勢的高精度,這種精度是基于視覺的跟蹤無法持續提供的。
結果
ψ?接受了八項真實世界的長時間運動操作任務的評估,每項任務包括三到五項連續的子任務,包括抓握、傾倒、旋轉、行走、蹲下、搬運、推和拉。該模型優于所有基線,包括GR00T N1.6、π0.5、EgoVLA、H-RDT、擴散策略和ACT,盡管使用了大約十分之一的總訓練數據,但平均整體成功率比第二好的基線GR00T N1.6高40%以上。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.