網易首頁 > 網易號 > 正文申請入駐

橫掃室內3D場景，港科大（廣州）打造單目開放詞匯占據預測新SOTA

2026-05-05 15:33:09　來源: 機器之心Pro

河北舉報

分享至

在具身智能研究中，如何讓智能體精準理解周圍環境的精細幾何結構與開放語義信息，始終是具身感知的核心難題。近年來，語義占據預測（Semantic Occupancy Prediction）將稠密幾何與語義信息統一到三維體素網格中，用于構建 3D 語義占據地圖，為機器人的空間推理、導航與交互操作提供了場景表達基礎。

然而，現有方法大多建立在封閉詞匯（Closed-vocabulary）設定下，模型只能識別訓練階段預先定義好的有限類別。一旦進入真實環境，場景中的語義往往是開放且長尾的 —— 用戶可能會直接問：「鞋子在哪兒？」「紙巾在哪兒？」「遙控器在哪兒？」對于傳統占據預測方法而言，超出預定義類別的目標幾乎無法被正確識別。面對「一個帶條紋的馬克杯」「一把破損的木椅」這類更細粒度、描述性更強的目標時，封閉詞匯模型往往無能為力。

近期，香港科技大學（廣州）陳昶昊教授團隊聯合香港中文大學（深圳）研究者提出了 LegoOcc，首次面向具身場景實現了單目開放詞匯三維占據預測。該工作被 CVPR 2026 收錄為 Oral（大會口頭報告）。

LegoOcc 以語言嵌入高斯（Language-embedded Gaussians）作為統一的三維表示，在僅使用幾何標簽（二值占據標簽）訓練的情況下，便能支持任意文本描述的目標類別查詢，實現開放詞匯的三維語義占據預測。

在 Occ-ScanNet 數據集上，LegoOcc 取得了 21.05 mIoU 和 59.50 IoU 的開放詞匯預測結果，相比此前最強的開放詞匯模型，mIoU 提升超過 2 倍；同時其整體幾何占據預測精度也超越了多種封閉詞匯方法，展現出極強的性能與泛化能力。

論文標題：Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes
論文地址：https://arxiv.org/abs/2602.22667

為什么具身場景的開放語義占據預測更困難？

傳統的占據預測模型像僅僅背過單詞書，只能認出學過的詞匯類別，而開放詞匯模型則掌握了語言能力，無論遇到什么新物體，都能根據文本描述進行推理。下圖展示了這一差異：

封閉詞匯模型- 只能識別「椅子」「桌子」等訓練時見過的類別。
開放詞匯模型（LegoOcc）- 可以響應任意自然語言查詢，如「鞋子」「紙」等未定義物體，并生成對應區域的熱力圖。

Figure 1 閉集 vs 開集 3D 占據預測

此外，室內具身環境與戶外車輛駕駛場景也有不同：

室內場景的幾何更稠密、結構更復雜，有大量的細小物體以及遮擋，對幾何建模的精細度要求高。
室內場景的物體類別繁多、細粒度要求更高且分布不均衡，很多類別在訓練數據中只出現寥寥幾次。

因此，直接將室外開放詞匯占據預測模型遷移到室內，會出現性能下降，已有的少數室內占據預測方法仍然依賴固定基類模型，無法支持開放詞匯類別推理。

LegoOCC 框架介紹

Figure 2 LegoOcc 整體算法框架

LegoOcc 將問題拆解為兩部分：幾何學習決定空間里哪里「被占據」，語義學習決定這些被占據區域「是什么」。為實現開放詞表場景表達，LegoOcc 采用語言嵌入高斯（LE-Gaussians）作為統一的中間表示：每個高斯同時攜帶幾何參數（位置、協方差、不透明度）與一個語言對齊的語義嵌入。

（1）從單目圖像生成語言嵌入的 3D 高斯

給定輸入圖像，LegoOcc 首先通過前饋網絡預測一組三維高斯，這里的每個高斯不僅包含位置、尺度、協方差和不透明度等幾何參數，還攜帶一個與語言空間對齊的語義嵌入。LegoOcc 模型避免在幾何分支和語義分支中使用兩套獨立表示，而是讓同一組高斯同時服務于幾何建模和開放詞匯語義建模。由此，「空間哪里有東西」和「這個東西是什么」就被統一到了同一個場景表示框架中。

（2）泊松視角的高斯到占據轉換

在僅有二值占據監督的設定下，進一步研究如何將高斯表示穩定地聚合為體素占據結果。現有方法在這一環節易出現訓練不穩定，原因在于二維渲染時使用了基于不透明度的 α 混合，但三維占據聚合時卻可能忽略不透明度信息，導致二維渲染監督與三維占據監督之間存在優化沖突。

為此，LegoOcc 提出了基于泊松過程的高斯到占據轉換（Poisson-based Gaussian-to-Occupancy, G2O），將每個高斯在某個體素位置的有效貢獻視作泊松事件強度，并將「該位置是否被占據」解釋為「至少發生一次事件」的概率。相比伯努利并集式聚合，基于泊松過程的建模方式在弱監督條件下更穩定，也不容易退化到無效的不透明度分配，從而提升了模型幾何學習階段的穩定性與可優化性。

（3）漸進溫度衰減減少沿光線的特征混合

在語義學習部分，LegoOcc 采用高斯潑濺將三維高斯的語義特征微渲染到圖像平面，再與一個無需訓練的開放詞匯分割模型（文中采用 Trident）輸出的圖像特征進行余弦相似度對齊。由于 α 混合會讓每個像素特征成為沿光線多個高斯嵌入的加權混合，然而室內場景對象密集、投影重疊多，易導致監督信號鼓勵「混合后的特征」對齊語言，而不是每個高斯本身對齊語言。

因此提出了漸進溫度衰減（Progressive Temperature Decay ），用帶溫度的 sigmoid 函數控制不透明度，并在訓練中把溫度從較高逐步退火到低，使不透明度逐漸變尖銳，減少了沿光線的特征混合，同時又保留連續梯度（區別于硬 Top?k 的離散選擇），提升語言監督落到單個高斯上的精度，增強了模型在開放詞匯語義理解中的判別能力。

實驗結果

論文從定量實驗、消融實驗和可視化結果三個方面驗證了提出的 LegoOcc 模型有效性，LegoOcc 在開放語義占據預測、三維幾何占據預測和推理效率上都展現出了明顯優勢。

（1）開放詞匯設定下 mIoU 超過此前最佳方法 2 倍

論文展示了閉集評測和開放詞匯評測兩種設定下的定量實驗結果。在閉集評測中，LegoOcc 在 Occ-ScanNet 的 11 個固定類別上，預測與真實標簽更為一致，幾何準確、語義泛化能力強。在開放詞匯評測中，由視覺語言模型自動抽取名詞作為文本查詢（如「鞋子」「洗手池」），模型生成對應類別的三維語義占據結果，實現文本驅動的任意語義類別定位。

在 Occ-ScanNet 數據集上，LegoOcc 在開放詞匯設定下取得了 21.05 mIoU 和 59.50 IoU 的結果。相比此前表現最好的開放詞匯方法 LOcc，LegoOcc 的 mIoU 提升了 11.80 個點（超過 2 倍），整體 IoU 提升了 22.80 個點。LegoOcc 的 59.50 IoU 不僅領先開放詞匯方法，甚至還超過了表中所有封閉詞匯模型的最佳整體 IoU。

（2）Poisson 聚合的作用驗證

本工作對提出的泊松式高斯到占據轉換（Poisson-based G2O）進行了消融實驗。

在開放詞匯設定下，當使用 GaussianFormer2 風格聚合時，結果幾乎退化到 0.00 mIoU / 0.00 IoU；當使用 Bernoulli 聚合時，性能恢復到 17.25 mIoU / 46.65 IoU；當使用 Poisson 聚合時，性能進一步提升到 21.05 mIoU / 59.50 IoU。這表明引入 Poisson 聚合能夠讓模型在僅有幾何監督條件下穩定訓練、有效學習。

（3）漸進溫度衰減緩解特征混合問題

本文對溫度控制策略進行了消融實驗：若訓練和測試都固定高溫，雖然幾何 IoU 尚可，但 mIoU 明顯偏低，說明語義學習仍受特征混合影響；若訓練時用高溫、測試時突然切換到低溫，則會出現訓練測試不匹配（Train-test Mismatch）；若從訓練一開始就使用低溫，則優化會困難，甚至直接退化；當采用漸進溫度衰減，模型能夠兼顧訓練穩定性與最終語義判別性，取得最佳結果。

（4）推理速度具備優勢，更適合機器人平臺部署

在單張 RTX 4090 上，LegoOcc 的推理速度達到了 22.47 FPS，明顯快于多種對比方法。相比于自動駕駛等場景，機器人平臺對推理速度和輕量化計算要求更高，因此 LegoOcc 更適用于具身機器人平臺。

（5）可視化結果

1. 閉集評測結果

在 Occ-ScanNet 的固定類別評測中，LegoOcc 的預測結果與真實標簽更為一致，幾何和語義預測能力強。（a) 輸入圖像，（b) 真實標簽，（c）LOcc（對比方法），（d）提出的 LegoOcc。

圖 3 Occ-ScanNet 閉集測試結果（Closed-vocabulary Results on Occ-ScanNet）

2. 開放詞匯測試結果

進一步使用視覺語言模型（Vision-language Model）自動從場景中提取名詞作為文本查詢，例如「鞋子」「洗手池」「顯示器」等，并讓模型生成對應類別的三維語義占據預測結果。LegoOcc 不局限于訓練時給定的固定類別，能夠根據自然語言描述進行三維空間中的目標識別，實現了文本驅動的開放詞匯三維查詢。

圖 4 開放詞匯測試結果（Open-vocabulary Results）

展望與意義

面向具身室內場景，本文提出 LegoOcc ，一種單目開放語義占據預測框架，采用語言嵌入的高斯統一表達幾何與語義場景信息。幾何側以泊松聚合穩定弱監督訓練，語義側用漸進溫度退火削弱特征混合，模型在無需體素語義標注的前提下，實現了文本驅動的三維語義占據預測。

未來的家用機器人能夠高效地將三維場景表達為體素網格，只需一句「幫我找一下茶幾上的遙控器」，即可在復雜空間中精準定位目標物體，而無需預先「學習」過遙控器這一類別。

作者介紹

周常青：香港科技大學（廣州）博士生，致力于高效且穩定的三維場景理解方法研究，當前重點關注端到端軌跡生成模型，以及面向導航任務的高效世界模型構建。

張涵：香港科技大學（廣州）紅鳥碩士生，專注探索高效可靠的三維場景理解方法，現階段重點探索三維視覺語義定位方法，以及適配導航任務的高效世界模型構建。

江澤宇：香港科技大學（廣州）博士生，主要研究方向為高效的空間物理智能體，專注于將通用空間智能注入現實開放環境的具身應用場景。

陳昶昊（通訊作者）：香港科技大學（廣州）智能交通學域和人工智能學域助理教授，博士生導師，香港科技大學跨學科學院聯署助理教授，從事具身智能感知、導航與交互研究，組建港科大（廣州）PEAK-Lab 課題組并擔任獨立 PI。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.