![]()
隨著機(jī)器人領(lǐng)域的飛速發(fā)展,我們有一個問題不斷需要思考,究竟如何讓機(jī)器人像人類一樣理解世界,學(xué)習(xí)周圍環(huán)境的表示。對于機(jī)器人來說,究竟是需要精確的坐標(biāo),還是語義的物體概念,還是隱式的空間認(rèn)識推理模型?
在本文中,上海交通大學(xué)、波恩大學(xué)等院校的研究團(tuán)隊全面總結(jié)了當(dāng)前機(jī)器人技術(shù)中常用的場景表示方法。這些方法包括傳統(tǒng)的點云、體素柵格、符號距離函數(shù)以及場景圖等傳統(tǒng)幾何表示方式,同時也涵蓋了最新的神經(jīng)網(wǎng)絡(luò)表示技術(shù),如神經(jīng)輻射場、3D 高斯散布模型以及新興的 3D 基礎(chǔ)模型。
雖然目前的 SLAM 與定位系統(tǒng)主要依賴點云、體素這類稀疏表示方式,但密集型場景表示方法在導(dǎo)航、避障等后續(xù)任務(wù)中無疑會發(fā)揮關(guān)鍵作用。此外,神經(jīng)輻射場、3D 高斯散布模型以及基礎(chǔ)模型這類神經(jīng)網(wǎng)絡(luò)表示技術(shù),非常適合整合高層次的語義信息與基于語言的先驗知識,從而實現(xiàn)更全面的 3D 場景理解與智能體行為控制。本文的目標(biāo)是為新手和資深研究人員提供一份有價值的參考資料,幫助他們探索 3D 場景表示技術(shù)的未來發(fā)展方向及其在機(jī)器人技術(shù)中的應(yīng)用。
![]()
- 標(biāo)題:What Is The Best 3D Scene Representation for Robotics? From Geometric to Foundation Models
- 作者:Tianchen Deng, Yue Pan, Shenghai Yuan, Dong Li, Chen Wang, Mingrui Li, Long Chen, Lihua Xie, Danwei Wang, Jingchuan Wang, Javier Civera, Hesheng Wang, Weidong Chen
- 機(jī)構(gòu):Shanghai Jiao Tong University、University of Bonn、Chinese Academy of Sciences、University of Zaragoza、Nanyang Technological University
- 原文鏈接:https://arxiv.org/abs/2512.03422
- 代碼鏈接:https://github.com/dtc111111/awesomerepresentation-for-robotics
一、機(jī)器人 3D 場景發(fā)展史
![]()
機(jī)器人 3D 場景表示發(fā)展史和代表性工作
幾何場景表示:
- Point Cloud 點云場景表示:通過離散的三維點來表示場景,通過雷達(dá)或者相機(jī)傳感器獲得。
- Voxel 體素場景表示:通過將三維空間離散化,轉(zhuǎn)變成規(guī)則的立方體柵格,通過在柵格內(nèi)存儲不同的信息,比如密度,占用率等實現(xiàn)場景建模
- Mesh 網(wǎng)格場景表示:通過三角化面片構(gòu)建連續(xù)的場景幾何場景表示,精細(xì)度更高。
- SDF 符號距離場:通過表示空間點到物體表面的距離,實現(xiàn)連續(xù)的場景幾何表示。
近年來,深度學(xué)習(xí)、計算機(jī)圖形學(xué)與機(jī)器人技術(shù)的融合推動了顯著進(jìn)展。在眾多推動這一進(jìn)展的技術(shù)中,神經(jīng)輻射場(NeRF)、三維高斯濺射和基礎(chǔ)模型(Foundation Model,F(xiàn)M)作為極具前景的創(chuàng)新脫穎而出,從而實現(xiàn)真正的通用具身智能。
![]()
機(jī)器人 3D 三維表征研究熱度變化
3D 神經(jīng)場景表示
- NeRF 神經(jīng)輻射場:通過連續(xù)的場景表示讓機(jī)器人理解世界,基于神經(jīng)網(wǎng)絡(luò) MLP 構(gòu)建,可以進(jìn)行地圖預(yù)測,但是速度較慢。
- 3DGS 高斯?jié)姙R:將場景表示為 3D 高斯橢球,從而實現(xiàn)高速的渲染,適合實時建圖。
- Foundation Model 基礎(chǔ)模型: 通過現(xiàn)有的 transformer 等編碼器,將三維世界壓縮成類似于語言的 token,將三維世界的理解變成可推理的人類語言。從而實現(xiàn)空間感知推理,成為「3D 版本的 GPT」。
![]()
三維場景表征在機(jī)器人不同模塊的應(yīng)用:感知,建圖,定位,操作,導(dǎo)航
在建圖和定位模塊(第 V 節(jié))中,現(xiàn)有方法在 SLAM 和定位領(lǐng)域取得了令人矚目的成果。神經(jīng)場景表示能夠?qū)崿F(xiàn)對環(huán)境的更精確、更密集的建模,這對避障特別有益。這一能力對于機(jī)器人的導(dǎo)航和操作至關(guān)重要。
該模塊分為三部分:(i)場景重建:場景表示的地圖重建能力包括幾何精度和渲染質(zhì)量,以及在靜態(tài)場景、大規(guī)模戶外場景和動態(tài)場景中的重建能力。(iii)SLAM:SLAM 部分主要包括不同場景表示方法在 SLAM 過程中的地圖精度、位姿精度和實時性能。(iv)全局定位:全局定位主要涉及使用現(xiàn)有地圖進(jìn)行定位時的精度和實時性能。
在操作模塊(第 VI-A 節(jié))中,本文主要比較了基于不同場景表示方法的抓取框架。傳統(tǒng)方法在抓取方面具有更高的實時性能和計算效率,但在泛化能力和處理復(fù)雜目標(biāo)操作任務(wù)方面存在局限。相比之下,基于神經(jīng)網(wǎng)絡(luò)的場景表示在生成新視角和跨多個場景泛化方面具有一定能力,使其更能適應(yīng)復(fù)雜任務(wù)。基于基礎(chǔ)模型的方法能夠?qū)崿F(xiàn)零樣本抓取任務(wù),具備強(qiáng)大的泛化能力。此外,語言信息的集成使這些模型能夠支持交互式抓取,并增強(qiáng)了它們理解和規(guī)劃高級認(rèn)知任務(wù)的能力。
在導(dǎo)航模塊(第 VI 節(jié))中,與傳統(tǒng)的場景表示方法相比,神經(jīng)場景表示能夠提供高度準(zhǔn)確的環(huán)境重建。此外,它們還有助于更好地融合語義和語言信息,從而能夠執(zhí)行更復(fù)雜的導(dǎo)航任務(wù)。我們將導(dǎo)航模塊分為兩個部分:(i)規(guī)劃:從當(dāng)前位置到目標(biāo)目的地生成最優(yōu)或可行路徑,同時避開障礙物。(ii)探索:主動導(dǎo)航并繪制先前未知區(qū)域的地圖。
![]()
不同 3D 場景表示的特點對比,包含連續(xù)性,存儲效率,真實性,靈活性,幾何表示精度。
二、現(xiàn)有方法的問題與未來發(fā)展方向
1、端到端通用網(wǎng)絡(luò)還是模塊化?
目前,大多數(shù)機(jī)器人系統(tǒng)都建立在模塊化智能(Modular Intelligence)的基礎(chǔ)上。為了完成復(fù)雜任務(wù),系統(tǒng)會將導(dǎo)航或操作等功能分解為獨立的模塊,例如感知、建圖、定位、操作和導(dǎo)航。這種設(shè)計雖然有助于實現(xiàn)各種機(jī)器人功能,但其模塊化特性在本質(zhì)上可能會限制機(jī)器人智能的進(jìn)一步發(fā)展。
盡管模塊化解決方案引入了有用的歸納偏置(Inductive Biases)并支持有效的特定任務(wù)性能,但它們通常面臨泛化能力有限和遷移性差的問題。在實際應(yīng)用中,這些系統(tǒng)往往需要在不同場景下進(jìn)行重復(fù)的傳感器校準(zhǔn)、特定環(huán)境建模以及參數(shù)重新調(diào)優(yōu)。此外,在高度復(fù)雜的環(huán)境中,構(gòu)建精確的模型仍然極具挑戰(zhàn)性。基礎(chǔ)模型的最新進(jìn)展提供了一條替代路徑,即實現(xiàn)端到端智能。
2、數(shù)據(jù)瓶頸
盡管神經(jīng)場景表示(Neural Scene Representations)在準(zhǔn)確性和泛化性方面具有顯著優(yōu)勢,但一個主要的挑戰(zhàn)在于,與訓(xùn)練大語言模型(LLM)和視覺語言模型(VLM)所使用的互聯(lián)網(wǎng)規(guī)模的文本與圖像語料庫相比,機(jī)器人特有的數(shù)據(jù)非常匱乏。這種局限性顯著阻礙了機(jī)器人領(lǐng)域神經(jīng)場景表示和基礎(chǔ)模型的發(fā)展。
為了解決這一問題,研究重點已轉(zhuǎn)向增強(qiáng)神經(jīng)場景表示在有限數(shù)據(jù)情況下的泛化能力。另一個方向則是利用世界模型(World Models)來預(yù)測以動作為條件的(Conditioned on actions)狀態(tài)轉(zhuǎn)移,從而生成額外的訓(xùn)練數(shù)據(jù)集。
3、實時性瓶頸
與傳統(tǒng)的場景表示相比,在機(jī)器人領(lǐng)域部署神經(jīng)場景表示的另一個關(guān)鍵瓶頸在于其推理時間(Inference Time),這仍是制約可靠實時應(yīng)用的一個限制因素。目前神經(jīng)網(wǎng)絡(luò)的部署策略通常分為兩大類:
第一類是基于云端的部署。通常托管在遠(yuǎn)程數(shù)據(jù)中心,并通過 API 進(jìn)行訪問。在這種模式下,響應(yīng)延遲和服務(wù)時間很大程度上取決于底層的網(wǎng)絡(luò)路由、帶寬以及數(shù)據(jù)中心的計算能力。因此,在將此類模型集成到自主機(jī)器人技術(shù)棧之前,必須仔細(xì)權(quán)衡網(wǎng)絡(luò)的可靠性和延遲問題。
第二類是邊緣計算平臺上的車載 / 機(jī)載部署(Onboard Deployment)。此類方案通常采用模型蒸餾(Model Distillation)和量化(Quantization)等技術(shù)來減小模型體積,從而實現(xiàn)實時推理。然而,這往往以犧牲泛化能力為代價。一個極具前景的未來方向在于硬件 - 算法協(xié)同設(shè)計(Hardware–Algorithm Co-design),旨在同時提高推理效率并保持模型的泛化性能,以滿足機(jī)器人實時部署的需求。
本文探討了機(jī)器人不同模塊最適合的三維場景表示方法,研究了相關(guān)方法、并討論了挑戰(zhàn)和未來方向。本文的主要貢獻(xiàn)如下:
- 全面、最新的綜述與基準(zhǔn)測試:本文對機(jī)器人領(lǐng)域的不同場景表示方法進(jìn)行了廣泛且最新的綜述,涵蓋了經(jīng)典方法和前沿方法。對于每個模塊,團(tuán)隊都提供了詳細(xì)介紹,并突出了該模塊中不同場景表示的優(yōu)勢。
- 三維場景表示的未來方向:在機(jī)器人領(lǐng)域的每個模塊中,團(tuán)隊指出了當(dāng)前研究的技術(shù)局限性,并提出了幾個有前景的未來研究方向,旨在激勵這一快速發(fā)展領(lǐng)域的進(jìn)一步進(jìn)步。
- 開源項目:團(tuán)隊在 GitHub 上發(fā)布了一個開源項目,整理了機(jī)器人領(lǐng)域不同場景表示的相關(guān)文章,并將繼續(xù)向該項目添加新的研究成果和技術(shù),網(wǎng)址為https://github.com/dtc111111/awesome-representation-for-robotics。團(tuán)隊希望更多研究人員能夠利用它獲取最新的研究信息。
對更多實驗結(jié)果和文章細(xì)節(jié)感興趣的讀者,可以閱讀一下論文原文~
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.