![]()
在具身智能研究中,如何讓智能體精準理解周圍環境的精細幾何結構與開放語義信息,始終是具身感知的核心難題。近年來,語義占據預測(Semantic Occupancy Prediction) 將稠密幾何與語義信息統一到三維體素網格中,用于構建 3D 語義占據地圖,為機器人的空間推理、導航與交互操作提供了場景表達基礎。
然而,現有方法大多建立在封閉詞匯(Closed-vocabulary) 設定下,模型只能識別訓練階段預先定義好的有限類別。一旦進入真實環境,場景中的語義往往是開放且長尾的 —— 用戶可能會直接問:「鞋子在哪兒?」「紙巾在哪兒?」「遙控器在哪兒?」 對于傳統占據預測方法而言,超出預定義類別的目標幾乎無法被正確識別。面對「一個帶條紋的馬克杯」「一把破損的木椅」這類更細粒度、描述性更強的目標時,封閉詞匯模型往往無能為力。
近期,香港科技大學(廣州)陳昶昊教授團隊聯合香港中文大學(深圳) 研究者提出了 LegoOcc,首次面向具身場景實現了單目開放詞匯三維占據預測。該工作被 CVPR 2026 收錄為 Oral(大會口頭報告)。
LegoOcc 以語言嵌入高斯(Language-embedded Gaussians) 作為統一的三維表示,在僅使用幾何標簽(二值占據標簽) 訓練的情況下,便能支持任意文本描述的目標類別查詢,實現開放詞匯的三維語義占據預測。
在 Occ-ScanNet 數據集上,LegoOcc 取得了 21.05 mIoU 和 59.50 IoU 的開放詞匯預測結果,相比此前最強的開放詞匯模型,mIoU 提升超過 2 倍;同時其整體幾何占據預測精度也超越了多種封閉詞匯方法,展現出極強的性能與泛化能力。
![]()
- 論文標題:Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes
- 論文地址:https://arxiv.org/abs/2602.22667
為什么具身場景的開放語義占據預測更困難?
傳統的占據預測模型像僅僅背過單詞書,只能認出學過的詞匯類別,而開放詞匯模型則掌握了語言能力,無論遇到什么新物體,都能根據文本描述進行推理。下圖展示了這一差異:
- 封閉詞匯模型- 只能識別「椅子」「桌子」等訓練時見過的類別。
- 開放詞匯模型(LegoOcc)- 可以響應任意自然語言查詢,如「鞋子」「紙」等未定義物體,并生成對應區域的熱力圖。
![]()
Figure 1 閉集 vs 開集 3D 占據預測
此外,室內具身環境與戶外車輛駕駛場景也有不同:
- 室內場景的幾何更稠密、結構更復雜,有大量的細小物體以及遮擋,對幾何建模的精細度要求高。
- 室內場景的物體類別繁多、細粒度要求更高且分布不均衡,很多類別在訓練數據中只出現寥寥幾次。
因此,直接將室外開放詞匯占據預測模型遷移到室內,會出現性能下降,已有的少數室內占據預測方法仍然依賴固定基類模型,無法支持開放詞匯類別推理。
LegoOCC 框架介紹
![]()
Figure 2 LegoOcc 整體算法框架
LegoOcc 將問題拆解為兩部分:幾何學習決定空間里哪里「被占據」,語義學習決定這些被占據區域「是什么」。為實現開放詞表場景表達,LegoOcc 采用語言嵌入高斯(LE-Gaussians) 作為統一的中間表示:每個高斯同時攜帶幾何參數(位置、協方差、不透明度)與一個語言對齊的語義嵌入。
(1)從單目圖像生成語言嵌入的 3D 高斯
給定輸入圖像,LegoOcc 首先通過前饋網絡預測一組三維高斯,這里的每個高斯不僅包含位置、尺度、協方差和不透明度等幾何參數,還攜帶一個與語言空間對齊的語義嵌入。LegoOcc 模型避免在幾何分支和語義分支中使用兩套獨立表示,而是讓同一組高斯同時服務于幾何建模和開放詞匯語義建模。由此,「空間哪里有東西」和「這個東西是什么」就被統一到了同一個場景表示框架中。
(2)泊松視角的高斯到占據轉換
在僅有二值占據監督的設定下,進一步研究如何將高斯表示穩定地聚合為體素占據結果。現有方法在這一環節易出現訓練不穩定,原因在于二維渲染時使用了基于不透明度的 α 混合,但三維占據聚合時卻可能忽略不透明度信息,導致二維渲染監督與三維占據監督之間存在優化沖突。
為此,LegoOcc 提出了基于泊松過程的高斯到占據轉換(Poisson-based Gaussian-to-Occupancy, G2O),將每個高斯在某個體素位置的有效貢獻視作泊松事件強度,并將「該位置是否被占據」解釋為「至少發生一次事件」的概率。相比伯努利并集式聚合,基于泊松過程的建模方式在弱監督條件下更穩定,也不容易退化到無效的不透明度分配,從而提升了模型幾何學習階段的穩定性與可優化性。
![]()
(3)漸進溫度衰減減少沿光線的特征混合
在語義學習部分,LegoOcc 采用高斯潑濺將三維高斯的語義特征微渲染到圖像平面,再與一個無需訓練的開放詞匯分割模型(文中采用 Trident)輸出的圖像特征進行余弦相似度對齊。由于 α 混合會讓每個像素特征成為沿光線多個高斯嵌入的加權混合,然而室內場景對象密集、投影重疊多,易導致監督信號鼓勵「混合后的特征」對齊語言,而不是每個高斯本身對齊語言。
因此提出了漸進溫度衰減(Progressive Temperature Decay ),用帶溫度的 sigmoid 函數控制不透明度,并在訓練中把溫度從較高逐步退火到低,使不透明度逐漸變尖銳,減少了沿光線的特征混合,同時又保留連續梯度(區別于硬 Top?k 的離散選擇),提升語言監督落到單個高斯上的精度,增強了模型在開放詞匯語義理解中的判別能力。
![]()
實驗結果
論文從定量實驗、消融實驗和可視化結果三個方面驗證了提出的 LegoOcc 模型有效性,LegoOcc 在開放語義占據預測、三維幾何占據預測和推理效率上都展現出了明顯優勢。
(1)開放詞匯設定下 mIoU 超過此前最佳方法 2 倍
論文展示了閉集評測和開放詞匯評測兩種設定下的定量實驗結果。在閉集評測中,LegoOcc 在 Occ-ScanNet 的 11 個固定類別上,預測與真實標簽更為一致,幾何準確、語義泛化能力強。在開放詞匯評測中,由視覺語言模型自動抽取名詞作為文本查詢(如「鞋子」「洗手池」),模型生成對應類別的三維語義占據結果,實現文本驅動的任意語義類別定位。
在 Occ-ScanNet 數據集上,LegoOcc 在開放詞匯設定下取得了 21.05 mIoU 和 59.50 IoU 的結果。相比此前表現最好的開放詞匯方法 LOcc,LegoOcc 的 mIoU 提升了 11.80 個點(超過 2 倍),整體 IoU 提升了 22.80 個點。LegoOcc 的 59.50 IoU 不僅領先開放詞匯方法,甚至還超過了表中所有封閉詞匯模型的最佳整體 IoU。
![]()
(2)Poisson 聚合的作用驗證
本工作對提出的泊松式高斯到占據轉換(Poisson-based G2O)進行了消融實驗。
在開放詞匯設定下,當使用 GaussianFormer2 風格聚合時,結果幾乎退化到 0.00 mIoU / 0.00 IoU;當使用 Bernoulli 聚合時,性能恢復到 17.25 mIoU / 46.65 IoU;當使用 Poisson 聚合時,性能進一步提升到 21.05 mIoU / 59.50 IoU。這表明引入 Poisson 聚合能夠讓模型在僅有幾何監督條件下穩定訓練、有效學習。
![]()
(3)漸進溫度衰減緩解特征混合問題
本文對溫度控制策略進行了消融實驗:若訓練和測試都固定高溫,雖然幾何 IoU 尚可,但 mIoU 明顯偏低,說明語義學習仍受特征混合影響;若訓練時用高溫、測試時突然切換到低溫,則會出現訓練測試不匹配(Train-test Mismatch);若從訓練一開始就使用低溫,則優化會困難,甚至直接退化;當采用漸進溫度衰減,模型能夠兼顧訓練穩定性與最終語義判別性,取得最佳結果。
![]()
(4)推理速度具備優勢,更適合機器人平臺部署
在單張 RTX 4090 上,LegoOcc 的推理速度達到了 22.47 FPS,明顯快于多種對比方法。相比于自動駕駛等場景,機器人平臺對推理速度和輕量化計算要求更高,因此 LegoOcc 更適用于具身機器人平臺。
![]()
(5)可視化結果
1. 閉集評測結果
在 Occ-ScanNet 的固定類別評測中,LegoOcc 的預測結果與真實標簽更為一致,幾何和語義預測能力強。(a) 輸入圖像,(b) 真實標簽,(c)LOcc(對比方法),(d)提出的 LegoOcc。
![]()
圖 3 Occ-ScanNet 閉集測試結果(Closed-vocabulary Results on Occ-ScanNet)
2. 開放詞匯測試結果
進一步使用視覺語言模型(Vision-language Model)自動從場景中提取名詞作為文本查詢,例如「鞋子」「洗手池」「顯示器」等,并讓模型生成對應類別的三維語義占據預測結果。LegoOcc 不局限于訓練時給定的固定類別,能夠根據自然語言描述進行三維空間中的目標識別,實現了文本驅動的開放詞匯三維查詢。
![]()
圖 4 開放詞匯測試結果(Open-vocabulary Results)
展望與意義
面向具身室內場景,本文提出 LegoOcc ,一種單目開放語義占據預測框架,采用語言嵌入的高斯統一表達幾何與語義場景信息。幾何側以泊松聚合穩定弱監督訓練,語義側用漸進溫度退火削弱特征混合,模型在無需體素語義標注的前提下,實現了文本驅動的三維語義占據預測。
未來的家用機器人能夠高效地將三維場景表達為體素網格,只需一句「幫我找一下茶幾上的遙控器」,即可在復雜空間中精準定位目標物體,而無需預先「學習」過遙控器這一類別。
作者介紹
周常青:香港科技大學(廣州)博士生,致力于高效且穩定的三維場景理解方法研究,當前重點關注端到端軌跡生成模型,以及面向導航任務的高效世界模型構建。
張涵:香港科技大學(廣州)紅鳥碩士生,專注探索高效可靠的三維場景理解方法,現階段重點探索三維視覺語義定位方法,以及適配導航任務的高效世界模型構建。
江澤宇:香港科技大學(廣州)博士生,主要研究方向為高效的空間物理智能體,專注于將通用空間智能注入現實開放環境的具身應用場景。
陳昶昊(通訊作者):香港科技大學(廣州)智能交通學域和人工智能學域助理教授,博士生導師,香港科技大學跨學科學院聯署助理教授,從事具身智能感知、導航與交互研究,組建港科大(廣州)PEAK-Lab 課題組并擔任獨立 PI。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.