<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      橫掃室內3D場景,港科大(廣州)打造單目開放詞匯占據預測新SOTA

      0
      分享至



      在具身智能研究中,如何讓智能體精準理解周圍環境的精細幾何結構與開放語義信息,始終是具身感知的核心難題。近年來,語義占據預測(Semantic Occupancy Prediction) 將稠密幾何與語義信息統一到三維體素網格中,用于構建 3D 語義占據地圖,為機器人的空間推理、導航與交互操作提供了場景表達基礎。

      然而,現有方法大多建立在封閉詞匯(Closed-vocabulary) 設定下,模型只能識別訓練階段預先定義好的有限類別。一旦進入真實環境,場景中的語義往往是開放且長尾的 —— 用戶可能會直接問:「鞋子在哪兒?」「紙巾在哪兒?」「遙控器在哪兒?」 對于傳統占據預測方法而言,超出預定義類別的目標幾乎無法被正確識別。面對「一個帶條紋的馬克杯」「一把破損的木椅」這類更細粒度、描述性更強的目標時,封閉詞匯模型往往無能為力。

      近期,香港科技大學(廣州)陳昶昊教授團隊聯合香港中文大學(深圳) 研究者提出了 LegoOcc,首次面向具身場景實現了單目開放詞匯三維占據預測。該工作被 CVPR 2026 收錄為 Oral(大會口頭報告)。

      LegoOcc 以語言嵌入高斯(Language-embedded Gaussians) 作為統一的三維表示,在僅使用幾何標簽(二值占據標簽) 訓練的情況下,便能支持任意文本描述的目標類別查詢,實現開放詞匯的三維語義占據預測。

      在 Occ-ScanNet 數據集上,LegoOcc 取得了 21.05 mIoU 和 59.50 IoU 的開放詞匯預測結果,相比此前最強的開放詞匯模型,mIoU 提升超過 2 倍;同時其整體幾何占據預測精度也超越了多種封閉詞匯方法,展現出極強的性能與泛化能力。



      • 論文標題:Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes
      • 論文地址:https://arxiv.org/abs/2602.22667

      為什么具身場景的開放語義占據預測更困難?

      傳統的占據預測模型像僅僅背過單詞書,只能認出學過的詞匯類別,而開放詞匯模型則掌握了語言能力,無論遇到什么新物體,都能根據文本描述進行推理。下圖展示了這一差異:

      • 封閉詞匯模型- 只能識別「椅子」「桌子」等訓練時見過的類別。
      • 開放詞匯模型(LegoOcc)- 可以響應任意自然語言查詢,如「鞋子」「紙」等未定義物體,并生成對應區域的熱力圖。



      Figure 1 閉集 vs 開集 3D 占據預測

      此外,室內具身環境與戶外車輛駕駛場景也有不同:

      1. 室內場景的幾何更稠密、結構更復雜,有大量的細小物體以及遮擋,對幾何建模的精細度要求高。
      2. 室內場景的物體類別繁多、細粒度要求更高且分布不均衡,很多類別在訓練數據中只出現寥寥幾次。

      因此,直接將室外開放詞匯占據預測模型遷移到室內,會出現性能下降,已有的少數室內占據預測方法仍然依賴固定基類模型,無法支持開放詞匯類別推理。

      LegoOCC 框架介紹



      Figure 2 LegoOcc 整體算法框架

      LegoOcc 將問題拆解為兩部分:幾何學習決定空間里哪里「被占據」,語義學習決定這些被占據區域「是什么」。為實現開放詞表場景表達,LegoOcc 采用語言嵌入高斯(LE-Gaussians) 作為統一的中間表示:每個高斯同時攜帶幾何參數(位置、協方差、不透明度)與一個語言對齊的語義嵌入。

      (1)從單目圖像生成語言嵌入的 3D 高斯

      給定輸入圖像,LegoOcc 首先通過前饋網絡預測一組三維高斯,這里的每個高斯不僅包含位置、尺度、協方差和不透明度等幾何參數,還攜帶一個與語言空間對齊的語義嵌入。LegoOcc 模型避免在幾何分支和語義分支中使用兩套獨立表示,而是讓同一組高斯同時服務于幾何建模和開放詞匯語義建模。由此,「空間哪里有東西」和「這個東西是什么」就被統一到了同一個場景表示框架中。

      (2)泊松視角的高斯到占據轉換

      在僅有二值占據監督的設定下,進一步研究如何將高斯表示穩定地聚合為體素占據結果。現有方法在這一環節易出現訓練不穩定,原因在于二維渲染時使用了基于不透明度的 α 混合,但三維占據聚合時卻可能忽略不透明度信息,導致二維渲染監督與三維占據監督之間存在優化沖突。

      為此,LegoOcc 提出了基于泊松過程的高斯到占據轉換(Poisson-based Gaussian-to-Occupancy, G2O),將每個高斯在某個體素位置的有效貢獻視作泊松事件強度,并將「該位置是否被占據」解釋為「至少發生一次事件」的概率。相比伯努利并集式聚合,基于泊松過程的建模方式在弱監督條件下更穩定,也不容易退化到無效的不透明度分配,從而提升了模型幾何學習階段的穩定性與可優化性。



      (3)漸進溫度衰減減少沿光線的特征混合

      在語義學習部分,LegoOcc 采用高斯潑濺將三維高斯的語義特征微渲染到圖像平面,再與一個無需訓練的開放詞匯分割模型(文中采用 Trident)輸出的圖像特征進行余弦相似度對齊。由于 α 混合會讓每個像素特征成為沿光線多個高斯嵌入的加權混合,然而室內場景對象密集、投影重疊多,易導致監督信號鼓勵「混合后的特征」對齊語言,而不是每個高斯本身對齊語言。

      因此提出了漸進溫度衰減(Progressive Temperature Decay ),用帶溫度的 sigmoid 函數控制不透明度,并在訓練中把溫度從較高逐步退火到低,使不透明度逐漸變尖銳,減少了沿光線的特征混合,同時又保留連續梯度(區別于硬 Top?k 的離散選擇),提升語言監督落到單個高斯上的精度,增強了模型在開放詞匯語義理解中的判別能力。



      實驗結果

      論文從定量實驗、消融實驗和可視化結果三個方面驗證了提出的 LegoOcc 模型有效性,LegoOcc 在開放語義占據預測、三維幾何占據預測和推理效率上都展現出了明顯優勢。

      (1)開放詞匯設定下 mIoU 超過此前最佳方法 2 倍

      論文展示了閉集評測和開放詞匯評測兩種設定下的定量實驗結果。在閉集評測中,LegoOcc 在 Occ-ScanNet 的 11 個固定類別上,預測與真實標簽更為一致,幾何準確、語義泛化能力強。在開放詞匯評測中,由視覺語言模型自動抽取名詞作為文本查詢(如「鞋子」「洗手池」),模型生成對應類別的三維語義占據結果,實現文本驅動的任意語義類別定位。

      在 Occ-ScanNet 數據集上,LegoOcc 在開放詞匯設定下取得了 21.05 mIoU 和 59.50 IoU 的結果。相比此前表現最好的開放詞匯方法 LOcc,LegoOcc 的 mIoU 提升了 11.80 個點(超過 2 倍),整體 IoU 提升了 22.80 個點。LegoOcc 的 59.50 IoU 不僅領先開放詞匯方法,甚至還超過了表中所有封閉詞匯模型的最佳整體 IoU。



      (2)Poisson 聚合的作用驗證

      本工作對提出的泊松式高斯到占據轉換(Poisson-based G2O)進行了消融實驗。

      在開放詞匯設定下,當使用 GaussianFormer2 風格聚合時,結果幾乎退化到 0.00 mIoU / 0.00 IoU;當使用 Bernoulli 聚合時,性能恢復到 17.25 mIoU / 46.65 IoU;當使用 Poisson 聚合時,性能進一步提升到 21.05 mIoU / 59.50 IoU。這表明引入 Poisson 聚合能夠讓模型在僅有幾何監督條件下穩定訓練、有效學習。



      (3)漸進溫度衰減緩解特征混合問題

      本文對溫度控制策略進行了消融實驗:若訓練和測試都固定高溫,雖然幾何 IoU 尚可,但 mIoU 明顯偏低,說明語義學習仍受特征混合影響;若訓練時用高溫、測試時突然切換到低溫,則會出現訓練測試不匹配(Train-test Mismatch);若從訓練一開始就使用低溫,則優化會困難,甚至直接退化;當采用漸進溫度衰減,模型能夠兼顧訓練穩定性與最終語義判別性,取得最佳結果。



      (4)推理速度具備優勢,更適合機器人平臺部署

      在單張 RTX 4090 上,LegoOcc 的推理速度達到了 22.47 FPS,明顯快于多種對比方法。相比于自動駕駛等場景,機器人平臺對推理速度和輕量化計算要求更高,因此 LegoOcc 更適用于具身機器人平臺。



      (5)可視化結果

      1. 閉集評測結果

      在 Occ-ScanNet 的固定類別評測中,LegoOcc 的預測結果與真實標簽更為一致,幾何和語義預測能力強。(a) 輸入圖像,(b) 真實標簽,(c)LOcc(對比方法),(d)提出的 LegoOcc。



      圖 3 Occ-ScanNet 閉集測試結果(Closed-vocabulary Results on Occ-ScanNet)

      2. 開放詞匯測試結果

      進一步使用視覺語言模型(Vision-language Model)自動從場景中提取名詞作為文本查詢,例如「鞋子」「洗手池」「顯示器」等,并讓模型生成對應類別的三維語義占據預測結果。LegoOcc 不局限于訓練時給定的固定類別,能夠根據自然語言描述進行三維空間中的目標識別,實現了文本驅動的開放詞匯三維查詢。



      圖 4 開放詞匯測試結果(Open-vocabulary Results)

      展望與意義

      面向具身室內場景,本文提出 LegoOcc ,一種單目開放語義占據預測框架,采用語言嵌入的高斯統一表達幾何與語義場景信息。幾何側以泊松聚合穩定弱監督訓練,語義側用漸進溫度退火削弱特征混合,模型在無需體素語義標注的前提下,實現了文本驅動的三維語義占據預測。

      未來的家用機器人能夠高效地將三維場景表達為體素網格,只需一句「幫我找一下茶幾上的遙控器」,即可在復雜空間中精準定位目標物體,而無需預先「學習」過遙控器這一類別。

      作者介紹

      周常青:香港科技大學(廣州)博士生,致力于高效且穩定的三維場景理解方法研究,當前重點關注端到端軌跡生成模型,以及面向導航任務的高效世界模型構建。

      張涵:香港科技大學(廣州)紅鳥碩士生,專注探索高效可靠的三維場景理解方法,現階段重點探索三維視覺語義定位方法,以及適配導航任務的高效世界模型構建。

      江澤宇:香港科技大學(廣州)博士生,主要研究方向為高效的空間物理智能體,專注于將通用空間智能注入現實開放環境的具身應用場景。

      陳昶昊(通訊作者):香港科技大學(廣州)智能交通學域和人工智能學域助理教授,博士生導師,香港科技大學跨學科學院聯署助理教授,從事具身智能感知、導航與交互研究,組建港科大(廣州)PEAK-Lab 課題組并擔任獨立 PI。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      你拋美債,我拋中債!外資紛紛減持中國債,大量資金流向美國?

      你拋美債,我拋中債!外資紛紛減持中國債,大量資金流向美國?

      混沌錄
      2026-04-22 20:55:37
      竄訪結束,斯威士蘭把事做絕了,國王專機將賴清德連夜送回臺島

      竄訪結束,斯威士蘭把事做絕了,國王專機將賴清德連夜送回臺島

      阿柒的訊
      2026-05-05 13:54:08
      臺中要變天?國民黨34 席齊發,誓要“議會過半”把江啟臣扶正!

      臺中要變天?國民黨34 席齊發,誓要“議會過半”把江啟臣扶正!

      阿天愛旅行
      2026-05-05 14:38:51
      技術越牛,死得越快?一個蘇州新材料老板的深夜困惑

      技術越牛,死得越快?一個蘇州新材料老板的深夜困惑

      胡華成
      2026-04-05 18:18:14
      24集諜戰《醒來》今晚開播,全員狼人殺燃爆

      24集諜戰《醒來》今晚開播,全員狼人殺燃爆

      可樂談情感
      2026-05-05 16:19:36
      權志龍穿涉種族歧視T恤登臺!公司火速道歉

      權志龍穿涉種族歧視T恤登臺!公司火速道歉

      喜歡歷史的阿繁
      2026-05-04 20:04:49
      分錢了!斯諾克世錦賽中國11人,分別拿到多少獎金?吳宜澤夠買房

      分錢了!斯諾克世錦賽中國11人,分別拿到多少獎金?吳宜澤夠買房

      體育大學僧
      2026-05-05 09:09:17
      無懸念!無爭議!就是第一!就是無敵!

      無懸念!無爭議!就是第一!就是無敵!

      左右為籃
      2026-05-05 17:04:56
      603779,控制權擬變更!明天停牌!

      603779,控制權擬變更!明天停牌!

      證券時報e公司
      2026-05-05 17:07:47
      公安部提醒:換身份證后別急著走!這3個關鍵步驟多數人忽略

      公安部提醒:換身份證后別急著走!這3個關鍵步驟多數人忽略

      老特有話說
      2026-05-04 16:04:22
      段鵬79歲臨終前說出隱情:和尚死在黑云寨,是因為和尚知道了……

      段鵬79歲臨終前說出隱情:和尚死在黑云寨,是因為和尚知道了……

      呆子的故事
      2026-02-10 14:44:11
      C羅前女友走紅毯,上半身只靠幾塊手表遮擋,大膽造型引全網熱議

      C羅前女友走紅毯,上半身只靠幾塊手表遮擋,大膽造型引全網熱議

      白面書誏
      2026-05-05 17:19:20
      號稱“親日”的越南新任總理,親自陪著高市早苗,演上了一出好戲

      號稱“親日”的越南新任總理,親自陪著高市早苗,演上了一出好戲

      今夜繁星墜落
      2026-05-05 01:18:30
      當年的嶺南首府,宋徽宗封地,如今卻成了珠三角最落寞的城市

      當年的嶺南首府,宋徽宗封地,如今卻成了珠三角最落寞的城市

      抽象派大師
      2026-05-05 15:31:50
      爸爸吐槽褲子太短把女兒氣哭:這暴露個啥了!

      爸爸吐槽褲子太短把女兒氣哭:這暴露個啥了!

      另子維愛讀史
      2026-05-05 10:12:47
      2026五一真動格!國務院暗訪六省,魔毯公路KTV全查到

      2026五一真動格!國務院暗訪六省,魔毯公路KTV全查到

      愛意隨風起呀
      2026-05-05 16:58:25
      任澤平再預測中國房地產走向,前兩次預測都是對的

      任澤平再預測中國房地產走向,前兩次預測都是對的

      阿離家居
      2026-05-05 12:20:31
      躺平網吧惹爭議,6毛一小時,10元飯管飽,有人直接待了一年

      躺平網吧惹爭議,6毛一小時,10元飯管飽,有人直接待了一年

      映射生活的身影
      2026-05-03 20:10:56
      14年前曾來華授業 57歲臺球皇帝祝賀吳宜澤奪冠 曬出兩人合影炫耀

      14年前曾來華授業 57歲臺球皇帝祝賀吳宜澤奪冠 曬出兩人合影炫耀

      我愛英超
      2026-05-05 07:03:46
      任正非未料:前華為員工執掌全球AI命脈

      任正非未料:前華為員工執掌全球AI命脈

      徐云流浪中國
      2026-05-03 18:53:06
      2026-05-05 18:12:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12917文章數 142642關注度
      往期回顧 全部

      科技要聞

      傳蘋果考慮讓英特爾、三星代工設備處理器

      頭條要聞

      四川一企業盜采河水作飲用水售賣十年 當地回應

      頭條要聞

      四川一企業盜采河水作飲用水售賣十年 當地回應

      體育要聞

      全世界都等著看他笑話,他帶國米拿下冠軍

      娛樂要聞

      英皇25周年演唱會 張敬軒被救護車拉走

      財經要聞

      瀏陽煙花往事

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態度原創

      旅游
      家居
      本地
      房產
      公開課

      旅游要聞

      清晨挑戰浮云嶺山路,在終點感受火紅杜鵑的逆光之美,風景舊曾諳

      家居要聞

      靈動實用 生活藝術場

      本地新聞

      用青花瓷的方式,打開西溪濕地

      房產要聞

      五一樓市徹底明牌!塔尖人群都在重倉凱旋新世界

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产一区二区不卡在线看| 老鸭窝在线视频| 人人狠狠综合久久亚洲88| 色偷偷一区二区无码视频| 99久久婷婷国产综合精品青草漫画 | 一区二区日韩中文字幕| 综合色久七七综合尤物| 99大香伊乱码一区二区| 92国产精品午夜福利免费| 人妻丝袜?在线视频| 中文字幕熟妇人妻在线视频| 国产精品欧美一区二区三区不卡| 翘臀后进少妇大白嫩屁股| 女人天堂AV| 亚洲乱人伦中文字幕无码| 精品国产一区二区三区香蕉 | 欧洲av在线不卡s| 综合五月激情二区视频| 熟妇啊轻点灬大ji巴太粗最新视频| 国产亚洲精品第一综合| 亚洲国产剧情在线精品视| 国产精品女同一区二区| 亚洲人成伊人成综合网久久久| 国产美女被遭高潮免费网站| 国产精品黄色片| 色吊丝2277sds中文字幕| 亚洲av综合av综合| a欧美亚洲日韩在线观看| 国产精品白丝一区二区三区| 制服.丝袜.亚洲.中文.综合| 在线a久青草视频在线观看| 欧洲av在线不卡s| 国产偷国产偷亚洲高清人乐享 | 成人一区二区三区在线午夜 | 男女做爰猛烈吃奶啪啪喷水网站| 国产午夜精品理论片免费观看| 国产品精品久久久久中文| a级毛片免费看| 日本不卡一区二区三区在线| 密臀Av| 欧美色欧美亚洲另类二区|