洗碗、削水果、切香蕉——這些人類日常操作對機器人來說一直是個難題。問題出在哪?曲面物體沒有統(tǒng)一的參考坐標(biāo)系。在平面上,機器人只需要簡單的“上下左右”就能完成任務(wù),但換成彎曲的黃瓜或者不規(guī)則的梨,“朝向表面”這個方向在每個位置都不一樣。
瑞士洛桑聯(lián)邦理工學(xué)院(EPFL)和Idiap研究所的團隊最近在Science Robotics上發(fā)了篇論文,提出用“擴散方向場”(Diffused Orientation Fields)來解決這個問題。簡單說,就是給機器人的整個工作空間鋪上一層平滑變化的局部坐標(biāo)系,讓它無論在哪個位置都知道“什么是沿著表面”“什么是靠近物體”。
01.
點云+偏微分方程,50個變形梨驗證跨形狀能力
傳統(tǒng)方法要么依賴干凈的三維網(wǎng)格模型,要么需要大量訓(xùn)練數(shù)據(jù)。這個團隊走了另一條路:直接從深度相機采集的點云數(shù)據(jù)出發(fā),用偏微分方程(PDE)中的擴散方程來計算方向場。具體來說,他們在物體表面標(biāo)記幾個關(guān)鍵點(keypoints),比如香蕉的兩端。然后通過求解擴散方程,讓這些關(guān)鍵點的方向信息像熱量一樣在表面“擴散”開來,形成平滑的方向場。這個過程不需要完整的網(wǎng)格,點云就夠了。
![]()
更關(guān)鍵的是,他們還把表面的方向場延伸到了整個三維空間。這用到了一個叫“Walk on Spheres”的蒙特卡洛方法——不需要把空間離散化成網(wǎng)格,直接在需要的位置查詢就行。這讓計算效率大幅提升,能做到實時更新。
![]()
論文里有個很硬核的對比實驗。他們用YCB數(shù)據(jù)集里的梨模型,隨機生成了50個變形版本——有的被拉長,有的被壓扁,有的還扭曲了。然后讓機器人用不同的坐標(biāo)系表示方法去執(zhí)行削皮任務(wù)。對比了四種baseline:單一物體坐標(biāo)系、柱坐標(biāo)系、球坐標(biāo)系,以及多個局部坐標(biāo)系。結(jié)果顯示,他們的方法產(chǎn)生的動作軌跡標(biāo)準(zhǔn)差最小,而且在所有方向上都保持了三次削皮循環(huán)的周期性模式。更有意思的是,當(dāng)他們增加局部坐標(biāo)系的數(shù)量時,baseline方法的方差逐漸收斂到他們的連續(xù)方向場——這證明了他們的方法本質(zhì)上是多坐標(biāo)系方法的連續(xù)版本。
02.
手柄遙操作、軌跡規(guī)劃、強化學(xué)習(xí),一個表示層通吃三種控制器
這個方向場不是為某個特定控制器設(shè)計的,而是一個通用的中間表示層。論文展示了三種集成方式。
在遙操作場景里,用3DConnexion Space Mouse控制機械臂時,輸入軸直接映射到局部坐標(biāo)系。操作者沿著鼠標(biāo)的x軸移動,機器人就沿著物體表面滑動;沿z軸移動,就靠近或遠離表面。工具姿態(tài)自動對齊,操作直覺得多。
![]()
軌跡優(yōu)化方面,他們用方向場定義代價函數(shù),讓優(yōu)化器規(guī)劃出既保持與表面距離、又能避開障礙物的軌跡。關(guān)鍵是可以用方向場做“warm-start"——沿著局部坐標(biāo)系的x軸初始化軌跡,優(yōu)化器基本一次迭代就收斂了。不用warm-start的話,至少要五六次迭代。
強化學(xué)習(xí)實驗更有意思。他們在2D圓形上訓(xùn)練了一個到達目標(biāo)并保持距離的策略,然后零樣本遷移到了2D矩形和3D點云上。用全局坐標(biāo)系訓(xùn)練的策略完全遷移不了,但用局部坐標(biāo)系訓(xùn)練的策略直接就能用。這說明方向場提供的幾何腳手架確實降低了學(xué)習(xí)難度。
03.
擴散時間參數(shù)τ:平滑度和抗噪能力的調(diào)節(jié)旋鈕
真實場景里,點云數(shù)據(jù)肯定有噪聲,關(guān)鍵點提取也不可能完美。他們做了三組受控實驗:拓撲噪聲(刪掉一半點云,再隨機挖10個5毫米的洞)、幾何噪聲(給點云坐標(biāo)加3毫米標(biāo)準(zhǔn)差的高斯噪聲)、關(guān)鍵點噪聲(給關(guān)鍵點位置加20毫米標(biāo)準(zhǔn)差的噪聲)。每組實驗重復(fù)50次,測量生成軌跡與無噪聲參考軌跡的均方根誤差(RMSE)。
![]()
結(jié)果符合預(yù)期:擴散方程的平滑特性天然抑制高頻噪聲,擴散時間參數(shù)τ越大,方向場越平滑,對噪聲的魯棒性越強。短時間擴散會讓方向場的梯度接近測地距離的梯度,保留更多局部幾何細節(jié);長時間擴散則提取物體的全局對稱性,比如梨的縱向?qū)ΨQ軸。這個參數(shù)可以根據(jù)任務(wù)需求靈活調(diào)整。
不過論文也坦誠了局限性:如果深度相機對透明、半透明或高反光物體返回的數(shù)據(jù)太差,光靠平滑是救不回來的。這時候需要配合其他傳感器或者點云補全方法。這是硬件約束,不是算法本身的問題。
04.
雜亂場景也能處理,幾何基元直接編碼任務(wù)約束
方向場不限于單個物體。論文展示了一個雜亂場景:香蕉周圍有其他物體,還有一個包圍球和一個代表墻面的平面。方向場可以同時處理點云、網(wǎng)格和幾何基元(sphere、plane、capsule等)。更巧妙的是,幾何基元可以直接編碼任務(wù)約束。
![]()
比如舀東西的任務(wù):用一個平面約束工具保持水平(防止灑出來),用一條直線定義提升方向。這些約束不需要額外參數(shù)調(diào)整,直接融入方向場的計算,控制器自然就滿足了約束。論文里展示了一個“舀-提-運-倒”的長時序任務(wù),用兩個YCB數(shù)據(jù)集里的碗,加上線和平面來施加任務(wù)約束。
有個反直覺的發(fā)現(xiàn):雜亂場景反而可能更快。因為多個物體形成的封閉區(qū)域比開放空間的計算效率高。論文里提到,加了包圍球之后,計算成本降低了約1.5倍。這跟他們用的Walk on Spheres方法有關(guān),封閉區(qū)域里的隨機游走更快收斂到邊界。
硬件配置很接地氣:六自由度uFactory Lite 6機械臂,Intel RealSense D415深度相機,Bota Systems的力/力矩傳感器,加上3D打印的刀具、削皮器和探針夾具。他們測試了三個任務(wù):切片、削皮、觸覺覆蓋。每個任務(wù)都定義成了“局部動作原語”——在局部坐標(biāo)系里的簡單動作序列。比如削皮就是“沿表面滑動、下壓、抬起”的循環(huán),這個描述在所有物體上都成立。遷移到新物體時,只需要重新計算方向場(從實時點云),然后用導(dǎo)納控制器跟蹤局部動作就行。論文展示了在六個不同物體上的成功遷移,包括香蕉、黃瓜、梨、杯子等。
05.
幾何驅(qū)動vs數(shù)據(jù)驅(qū)動:把任務(wù)遷移簡化成關(guān)鍵點遷移
NDF是最近幾年很火的方法,用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)物體的局部描述符。兩者的哲學(xué)不同:NDF是數(shù)據(jù)驅(qū)動,表達能力強但需要訓(xùn)練數(shù)據(jù);方向場是幾何驅(qū)動,把任務(wù)的歸納偏置編碼在關(guān)鍵點里,通過擴散過程傳播到整個空間。論文的觀點是:既然關(guān)鍵點可以用簡單的感知流程提取(比如邊界檢測),或者通過基礎(chǔ)模型遷移,或者手動標(biāo)注(反正就幾個點),那為什么不直接用幾何方法?這把跨物體的任務(wù)遷移簡化成了跨物體的關(guān)鍵點遷移。
![]()
計算機圖形學(xué)里有個叫功能映射(Functional Maps)的技術(shù),可以在近似等距的表面之間遷移函數(shù)。有人用它做過抓取遷移。但功能映射有兩個限制:只能處理開環(huán)的位置軌跡,而且軌跡必須在表面上。方向場的優(yōu)勢是可以處理接觸-分離的連續(xù)交互,而且不限于表面——很多任務(wù)(比如削皮、舀東西)都是從空中開始,然后接觸表面的。
性能數(shù)據(jù)在補充材料里。最耗時的是從點云構(gòu)建拉普拉斯算子,但這是預(yù)處理步驟。運行時只需要求解線性方程組和執(zhí)行WoS采樣,都很快。論文的代碼和數(shù)據(jù)都放在了Zenodo上(DOI: 10.5281/zenodo.19133638),GitHub倉庫鏈接在記錄里。用的是ChatGPT輔助潤色語言,Claude輔助整理代碼文檔,這個披露挺坦誠。
![]()
![]()
從實驗結(jié)果看,這套方法在真實場景里已經(jīng)能穩(wěn)定工作。削黃瓜、切香蕉、探測杯子表面,這些任務(wù)都是一次性完成,沒有反復(fù)調(diào)試。這說明方向場確實捕捉到了曲面操作的本質(zhì),不是記住每個物體的具體形狀,而是理解“沿著表面”“靠近物體”這些幾何關(guān)系在不同物體上的共性。
06.
結(jié)語與未來:
這個工作的意義不只是讓機器人多會了幾個技能。它提供了一種新的思路:用幾何結(jié)構(gòu)而不是大量數(shù)據(jù)來解決泛化問題。在家庭服務(wù)機器人、農(nóng)業(yè)采摘、醫(yī)療輔助這些場景里,物體種類繁多,很難為每個物體都收集訓(xùn)練數(shù)據(jù)。如果能用幾個關(guān)鍵點就完成任務(wù)遷移,部署成本會大幅降低。當(dāng)然,關(guān)鍵點的自動提取還需要更多工作,但至少方向已經(jīng)很清晰了。
資助來自瑞士國家科學(xué)基金會的HORACE項目,以及歐盟Horizon Europe的IntelliMan和SestoSenso項目。看項目名稱就知道,歐洲在機器人操作這塊投入不小,而且越來越重視幾何和物理約束在學(xué)習(xí)中的作用。這篇論文算是這個方向上的一個里程碑——證明了不用端到端學(xué)習(xí),純幾何方法也能在真實世界里干活。
論文地址:https://www.science.org/doi/epdf/10.1126/scirobotics.aea1762
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.