![]()
近年來,以 GPT、Gemini 等為代表的視覺語言大模型(VLM)已能幫助機器人理解人類語言指令,并基于圖像進行一定程度的場景推理。然而,從“理解指令”到“動手操作”之間,仍存在一道關鍵鴻溝:大模型懂語義,卻未必懂三維空間;會生成任務步驟,卻未必能把步驟轉化為真實物理世界中的可執行動作。
在抓取、擺放、整理等機器人操作任務中,物體的位置、朝向、尺寸、功能平面和可抓取部位都直接影響執行結果。一旦模型對空間關系判斷不準,就可能給出看似合理、實際無法落地的規劃。如何讓大模型獲得可驗證、可遷移的三維空間知識,正成為具身智能研究中的核心問題。
近日,一項發表于 Science Robotics 的最新研究,提出了名為 RAM(Retrieval-Augmented Manipulation)的三維空間理解與操作框架。該框架通過檢索增強的方式為 VLM 補充物體級空間知識,使機器人能夠更好地理解物體的位置、朝向和可操作關系,并生成帶有明確空間約束的操作計劃。
![]()
(來源:Science Robotics)
這項研究的第一作者、香港中文大學博士后陳凱向 DeepTech 介紹,RAM 可以被理解為一套可檢索的“三維物體知識庫”:其中記錄了各類日常物體的三維形狀、穩定擺放方式、可抓取部位和功能平面等信息。它并不是重新訓練 VLM,而是在模型規劃前為其提供更精細的空間上下文,讓大模型在任務規劃時不只“知道要做什么”,也更清楚“應該如何在三維空間中做”。
給大模型一本可檢索的“三維物體知識庫”
現有 VLM 在語義規劃層面表現出色,能夠將“整理桌面”“擺放餐具”等抽象指令拆解為若干邏輯步驟。但在機器人操作中,僅有語義規劃并不夠。機器人還必須理解物體之間的三維空間關系,并將這些關系轉化為位姿、抓取點、對齊方向和運動軌跡等可執行約束。
這種局限與當前 VLM 的預訓練范式有關。多數模型主要基于二維圖像與文本配對數據訓練,擅長識別圖像內容,卻缺乏對深度、尺度和物理約束的直接經驗。業界也嘗試通過三維數據微調來補足能力,但高質量 3D 數據采集和標注成本高,計算資源和訓練時間開銷也很大。
RAM 的思路是:不把所有空間知識都壓進模型參數,而是構建一個外部、顯式、可查詢的物體空間知識庫。每當機器人執行任務時,系統根據當前場景中的物體類別和觀測信息,檢索相應的三維先驗,并將其轉化為 VLM 可利用的空間上下文。
![]()
圖 | RAM 框架示意圖(來源:上述論文)
具體來看,RAM 可以概括為三個核心模塊。
第一個模塊是物體類別級知識引擎。研究團隊為不同物體類別建立標準化三維模板,并在模板上標注幾何屬性和操作屬性,例如標準姿態、尺寸、對稱性、抓取點、功能平面的位置與朝向等。相比為每個具體物體單獨建模,這種類別級模板能夠遷移到多種形狀、尺寸和外觀的同類物體實例上,從而降低真實數據采集和標注成本。
第二個模塊是三維視覺接地模型。模板提供的是一類物體的通用空間描述,但機器人在真實場景中看到的,是大小、姿態和外觀各不相同的物體實例。該模塊的作用,是基于二維圖像特征和三維點云信息,建立觀測物體與模板之間的對應關系,將模板中的姿態、抓取方式、功能平面等空間知識遷移到當前物體上。研究團隊表示,該模塊主要基于合成數據訓練,并在真實場景實驗中展現出對多種未見物體實例的泛化能力。
第三個模塊是檢索增強任務規劃器。系統將接地后的空間信息組織成結構化文本,與原始圖像和語言指令一起輸入 VLM。獲得增強后的空間上下文后,VLM 不再只生成“抓起杯子、放到某處”這類粗粒度步驟,而是可以規劃“使用哪個抓取點”“將哪個功能平面與目標物體的哪個平面對齊”“在什么方向和高度移動”等更細粒度的動作約束。隨后,系統再通過軌跡優化方法,將這些約束轉化為機器人可執行的運動軌跡。
14 項實驗檢驗 RAM 的空間操作能力
為了驗證 RAM 的能力,研究團隊在真實機械臂平臺上開展了 14 項空間操作實驗,覆蓋 31 個物體實例和 11 個物體類別。
實驗首先考察語言指令驅動的空間操作,任務包括單物體單步驟、多物體單步驟和多物體多步驟三類。結果顯示,RAM 在總計 120 次重復測試中取得 89.17% 的平均成功率,其中最復雜的多物體多步驟任務成功率達到 80%。
論文實驗中,研究團隊將 RAM 接入多種代表性 VLM 進行驗證,結果顯示該框架不依賴單一模型,可作為通用的空間增強模塊與不同視覺語言模型配合使用。實驗表明,當模型獲得明確的三維空間信息后,更容易生成符合物理約束的操作規劃。
![]()
圖 | 語言指令驅動的空間操作實驗(來源:上述論文)
不過,當任務對物體的空間位置和朝向要求較高時,僅靠語言描述會變得冗長,也容易產生歧義。陳凱表示,圖片在表達復雜空間布局時更加緊湊、直觀。因此,團隊進一步測試了 RAM 在圖像引導操作中的表現。
以餐具擺放為例,系統只需輸入一張目標擺放參考圖,機器人便需要理解圖中物體的相對位置和朝向,并將二維參考布局映射到當前三維工作空間中。實驗顯示,在單張圖像引導空間操作中,常規平面場景成功率達到 92%,復雜高低平面場景成功率為 72%,突破了傳統方法通常依賴俯視參考圖的限制。
RAM 還被用于測試與空間推理相關的自主決策。陳凱解釋,同一個目標任務往往存在多個語義上可行的方案,但考慮到物體尺寸、朝向、高度和位置關系后,其中一些方案在物理上并不可行。RAM 的價值在于讓機器人在規劃前顯式獲得這些空間約束,從而選擇更可執行的策略。
在清理桌面任務中,機器人需要根據桌面高度、垃圾桶尺寸和物體位置選擇合適的清掃方案。實驗中,當直接清掃不可行時,系統能夠規劃借助簸箕等中間工具的間接方案,平均成功率達到 65%,展示了相比純語義規劃更強的物理可行性判斷能力。
![]()
圖 | 基于空間約束的自主決策示例(來源:上述論文)
從剛體到鉸接與柔性物體
除了常見剛體物體,研究團隊還探索了 RAM 在鉸接物體和柔性物體操作中的擴展能力。對于筆記本電腦、抽屜等具有鉸鏈結構的物體,團隊采用多模板匹配策略,預設不同開合狀態或滑動狀態,并通過觀測結果匹配最接近的模板,從而估計旋轉軸或推動方向。基于這些空間信息,機器人能夠完成筆記本電腦開合、抽屜推拉等操作。
在柔性物體操作方面,團隊以疊衣服為例,將折疊過程拆解為展開、疊左袖、疊右袖等有限步驟,并為不同狀態匹配相應模板,輔助系統完成分階段操作。研究還初步探索了與觸覺傳感器的結合:當抓取過程中物體因重心分布不均發生相對移動時,系統可利用觸覺反饋重新規劃抓取姿勢。
談及未來方向,陳凱表示,“這一路徑可以繼續向更開放的物體類別、更復雜的物理交互和更長程的任務執行擴展。一方面,機器人所需的知識庫可以從物體形狀、抓取點和功能平面,進一步拓展到材質、受力、可變形性、操作失敗模式和安全邊界等更豐富的具身知識;另一方面,空間知識的使用也可以從任務規劃階段進一步延伸到執行過程,在機器人與環境交互的過程中持續感知、校正和重規劃,使外部知識庫提供的空間先驗與機器人自身積累的操作經驗形成閉環。對于家庭服務、養老照護等需要近距離人機交互的場景而言,這類能力將是機器人實現安全、可靠輔助操作的重要基礎。”
Chen K, Li C, Tu C, et al. A retrieval-augmented framework enabling VLM spatial awareness for object-centric robot manipulation. Science Robotics. 2026;11(113):eaea2092. doi:10.1126/scirobotics.aea2092
運營/排版:何晨龍
注:封面/首圖由 AI 輔助生成
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.