削皮、切片、探表面，瑞士團隊用'擴散場'讓機器人會操作曲面物體

2026-05-06 20:30:35　來源: 機器人大講堂

安徽舉報

分享至

洗碗、削水果、切香蕉——這些人類日常操作對機器人來說一直是個難題。問題出在哪？曲面物體沒有統(tǒng)一的參考坐標(biāo)系。在平面上，機器人只需要簡單的“上下左右”就能完成任務(wù)，但換成彎曲的黃瓜或者不規(guī)則的梨，“朝向表面”這個方向在每個位置都不一樣。

瑞士洛桑聯(lián)邦理工學(xué)院（EPFL）和Idiap研究所的團隊最近在Science Robotics上發(fā)了篇論文，提出用“擴散方向場”（Diffused Orientation Fields）來解決這個問題。簡單說，就是給機器人的整個工作空間鋪上一層平滑變化的局部坐標(biāo)系，讓它無論在哪個位置都知道“什么是沿著表面”“什么是靠近物體”。

01.

點云+偏微分方程，50個變形梨驗證跨形狀能力

傳統(tǒng)方法要么依賴干凈的三維網(wǎng)格模型，要么需要大量訓(xùn)練數(shù)據(jù)。這個團隊走了另一條路：直接從深度相機采集的點云數(shù)據(jù)出發(fā)，用偏微分方程（PDE）中的擴散方程來計算方向場。具體來說，他們在物體表面標(biāo)記幾個關(guān)鍵點（keypoints），比如香蕉的兩端。然后通過求解擴散方程，讓這些關(guān)鍵點的方向信息像熱量一樣在表面“擴散”開來，形成平滑的方向場。這個過程不需要完整的網(wǎng)格，點云就夠了。

更關(guān)鍵的是，他們還把表面的方向場延伸到了整個三維空間。這用到了一個叫“Walk on Spheres”的蒙特卡洛方法——不需要把空間離散化成網(wǎng)格，直接在需要的位置查詢就行。這讓計算效率大幅提升，能做到實時更新。

論文里有個很硬核的對比實驗。他們用YCB數(shù)據(jù)集里的梨模型，隨機生成了50個變形版本——有的被拉長，有的被壓扁，有的還扭曲了。然后讓機器人用不同的坐標(biāo)系表示方法去執(zhí)行削皮任務(wù)。對比了四種baseline：單一物體坐標(biāo)系、柱坐標(biāo)系、球坐標(biāo)系，以及多個局部坐標(biāo)系。結(jié)果顯示，他們的方法產(chǎn)生的動作軌跡標(biāo)準(zhǔn)差最小，而且在所有方向上都保持了三次削皮循環(huán)的周期性模式。更有意思的是，當(dāng)他們增加局部坐標(biāo)系的數(shù)量時，baseline方法的方差逐漸收斂到他們的連續(xù)方向場——這證明了他們的方法本質(zhì)上是多坐標(biāo)系方法的連續(xù)版本。

02.

手柄遙操作、軌跡規(guī)劃、強化學(xué)習(xí)，一個表示層通吃三種控制器

這個方向場不是為某個特定控制器設(shè)計的，而是一個通用的中間表示層。論文展示了三種集成方式。

在遙操作場景里，用3DConnexion Space Mouse控制機械臂時，輸入軸直接映射到局部坐標(biāo)系。操作者沿著鼠標(biāo)的x軸移動，機器人就沿著物體表面滑動；沿z軸移動，就靠近或遠離表面。工具姿態(tài)自動對齊，操作直覺得多。

軌跡優(yōu)化方面，他們用方向場定義代價函數(shù)，讓優(yōu)化器規(guī)劃出既保持與表面距離、又能避開障礙物的軌跡。關(guān)鍵是可以用方向場做“warm-start"——沿著局部坐標(biāo)系的x軸初始化軌跡，優(yōu)化器基本一次迭代就收斂了。不用warm-start的話，至少要五六次迭代。

強化學(xué)習(xí)實驗更有意思。他們在2D圓形上訓(xùn)練了一個到達目標(biāo)并保持距離的策略，然后零樣本遷移到了2D矩形和3D點云上。用全局坐標(biāo)系訓(xùn)練的策略完全遷移不了，但用局部坐標(biāo)系訓(xùn)練的策略直接就能用。這說明方向場提供的幾何腳手架確實降低了學(xué)習(xí)難度。

03.

擴散時間參數(shù)τ：平滑度和抗噪能力的調(diào)節(jié)旋鈕

真實場景里，點云數(shù)據(jù)肯定有噪聲，關(guān)鍵點提取也不可能完美。他們做了三組受控實驗：拓撲噪聲（刪掉一半點云，再隨機挖10個5毫米的洞）、幾何噪聲（給點云坐標(biāo)加3毫米標(biāo)準(zhǔn)差的高斯噪聲）、關(guān)鍵點噪聲（給關(guān)鍵點位置加20毫米標(biāo)準(zhǔn)差的噪聲）。每組實驗重復(fù)50次，測量生成軌跡與無噪聲參考軌跡的均方根誤差（RMSE）。

結(jié)果符合預(yù)期：擴散方程的平滑特性天然抑制高頻噪聲，擴散時間參數(shù)τ越大，方向場越平滑，對噪聲的魯棒性越強。短時間擴散會讓方向場的梯度接近測地距離的梯度，保留更多局部幾何細節(jié)；長時間擴散則提取物體的全局對稱性，比如梨的縱向?qū)ΨQ軸。這個參數(shù)可以根據(jù)任務(wù)需求靈活調(diào)整。

不過論文也坦誠了局限性：如果深度相機對透明、半透明或高反光物體返回的數(shù)據(jù)太差，光靠平滑是救不回來的。這時候需要配合其他傳感器或者點云補全方法。這是硬件約束，不是算法本身的問題。

04.

雜亂場景也能處理，幾何基元直接編碼任務(wù)約束

方向場不限于單個物體。論文展示了一個雜亂場景：香蕉周圍有其他物體，還有一個包圍球和一個代表墻面的平面。方向場可以同時處理點云、網(wǎng)格和幾何基元（sphere、plane、capsule等）。更巧妙的是，幾何基元可以直接編碼任務(wù)約束。

比如舀東西的任務(wù)：用一個平面約束工具保持水平（防止灑出來），用一條直線定義提升方向。這些約束不需要額外參數(shù)調(diào)整，直接融入方向場的計算，控制器自然就滿足了約束。論文里展示了一個“舀-提-運-倒”的長時序任務(wù)，用兩個YCB數(shù)據(jù)集里的碗，加上線和平面來施加任務(wù)約束。

有個反直覺的發(fā)現(xiàn)：雜亂場景反而可能更快。因為多個物體形成的封閉區(qū)域比開放空間的計算效率高。論文里提到，加了包圍球之后，計算成本降低了約1.5倍。這跟他們用的Walk on Spheres方法有關(guān)，封閉區(qū)域里的隨機游走更快收斂到邊界。

硬件配置很接地氣：六自由度uFactory Lite 6機械臂，Intel RealSense D415深度相機，Bota Systems的力/力矩傳感器，加上3D打印的刀具、削皮器和探針夾具。他們測試了三個任務(wù)：切片、削皮、觸覺覆蓋。每個任務(wù)都定義成了“局部動作原語”——在局部坐標(biāo)系里的簡單動作序列。比如削皮就是“沿表面滑動、下壓、抬起”的循環(huán)，這個描述在所有物體上都成立。遷移到新物體時，只需要重新計算方向場（從實時點云），然后用導(dǎo)納控制器跟蹤局部動作就行。論文展示了在六個不同物體上的成功遷移，包括香蕉、黃瓜、梨、杯子等。

05.

幾何驅(qū)動vs數(shù)據(jù)驅(qū)動：把任務(wù)遷移簡化成關(guān)鍵點遷移

NDF是最近幾年很火的方法，用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)物體的局部描述符。兩者的哲學(xué)不同：NDF是數(shù)據(jù)驅(qū)動，表達能力強但需要訓(xùn)練數(shù)據(jù)；方向場是幾何驅(qū)動，把任務(wù)的歸納偏置編碼在關(guān)鍵點里，通過擴散過程傳播到整個空間。論文的觀點是：既然關(guān)鍵點可以用簡單的感知流程提取（比如邊界檢測），或者通過基礎(chǔ)模型遷移，或者手動標(biāo)注（反正就幾個點），那為什么不直接用幾何方法？這把跨物體的任務(wù)遷移簡化成了跨物體的關(guān)鍵點遷移。

計算機圖形學(xué)里有個叫功能映射（Functional Maps）的技術(shù)，可以在近似等距的表面之間遷移函數(shù)。有人用它做過抓取遷移。但功能映射有兩個限制：只能處理開環(huán)的位置軌跡，而且軌跡必須在表面上。方向場的優(yōu)勢是可以處理接觸－分離的連續(xù)交互，而且不限于表面——很多任務(wù)（比如削皮、舀東西）都是從空中開始，然后接觸表面的。

性能數(shù)據(jù)在補充材料里。最耗時的是從點云構(gòu)建拉普拉斯算子，但這是預(yù)處理步驟。運行時只需要求解線性方程組和執(zhí)行WoS采樣，都很快。論文的代碼和數(shù)據(jù)都放在了Zenodo上（DOI: 10.5281/zenodo.19133638），GitHub倉庫鏈接在記錄里。用的是ChatGPT輔助潤色語言，Claude輔助整理代碼文檔，這個披露挺坦誠。

從實驗結(jié)果看，這套方法在真實場景里已經(jīng)能穩(wěn)定工作。削黃瓜、切香蕉、探測杯子表面，這些任務(wù)都是一次性完成，沒有反復(fù)調(diào)試。這說明方向場確實捕捉到了曲面操作的本質(zhì)，不是記住每個物體的具體形狀，而是理解“沿著表面”“靠近物體”這些幾何關(guān)系在不同物體上的共性。

06.

結(jié)語與未來：

這個工作的意義不只是讓機器人多會了幾個技能。它提供了一種新的思路：用幾何結(jié)構(gòu)而不是大量數(shù)據(jù)來解決泛化問題。在家庭服務(wù)機器人、農(nóng)業(yè)采摘、醫(yī)療輔助這些場景里，物體種類繁多，很難為每個物體都收集訓(xùn)練數(shù)據(jù)。如果能用幾個關(guān)鍵點就完成任務(wù)遷移，部署成本會大幅降低。當(dāng)然，關(guān)鍵點的自動提取還需要更多工作，但至少方向已經(jīng)很清晰了。

資助來自瑞士國家科學(xué)基金會的HORACE項目，以及歐盟Horizon Europe的IntelliMan和SestoSenso項目。看項目名稱就知道，歐洲在機器人操作這塊投入不小，而且越來越重視幾何和物理約束在學(xué)習(xí)中的作用。這篇論文算是這個方向上的一個里程碑——證明了不用端到端學(xué)習(xí)，純幾何方法也能在真實世界里干活。

論文地址：https://www.science.org/doi/epdf/10.1126/scirobotics.aea1762

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.