占據(jù)感知網(wǎng)絡(luò)如何識別動態(tài)物體？

2026-05-14 09:23:35　來源: 智駕最前沿

江蘇舉報

分享至

[首發(fā)于智駕最前沿微信公眾號]占據(jù)感知網(wǎng)絡(luò)（Occupancy Network，簡稱OCC）作為自動駕駛現(xiàn)階段比較火熱的一項技術(shù)，一直被很多人討論。由于自動駕駛應(yīng)用場景的特殊性，感知的物體大多是動態(tài)的，因此，對于占據(jù)感知網(wǎng)絡(luò)的討論，一定要基于感知動態(tài)物體的前提下。

在討論這個話題時，我們需要將視野從單純的三維重建擴展到四維時空感知。動態(tài)物體的難點在于，它們在空間中的位置隨時間變化，且形狀、速度各異。OCC并不是通過簡單的逐幀對比來處理這些變化的，而是通過一套嚴密的時序特征融合與運動矢量預(yù)測機制，實現(xiàn)了對物理世界動態(tài)屬性的深度建模。

時序特征是如何在格點中對齊的？

處理動態(tài)物體的第一步是需要建立一個統(tǒng)一的時間參考系。自動駕駛車輛在行駛過程中，自身的坐標系一直在變動，這意味著不同時間點觀測到的同一個格點，其在圖像空間或特征空間中的位置是不一致的。為了讓占據(jù)感知網(wǎng)絡(luò)能理解物體的運動，必須先進行自車運動補償。

圖片源自：網(wǎng)絡(luò)

系統(tǒng)會利用自車的慣性導(dǎo)航數(shù)據(jù)和里程計信息，將歷史時刻的特征圖投影到當(dāng)前幀的坐標系下。這個過程會涉及特征對齊技術(shù)，即將過去多幀的特征在三維空間中進行平移和旋轉(zhuǎn)轉(zhuǎn)換，使得靜止的背景在時序維度上能夠重合。當(dāng)背景對齊之后，那些在空間中發(fā)生位移的特征點就會顯著地浮現(xiàn)出來，網(wǎng)絡(luò)由此獲得了感知變化的基礎(chǔ)。

在特征融合階段，OCC架構(gòu)會采用三維卷積或時序注意力機制。網(wǎng)絡(luò)不僅提取當(dāng)前的幾何特征，還會回顧過去幾百毫秒甚至更長時間的特征序列。這種多幀融合的方式，讓網(wǎng)絡(luò)能夠跨越單幀圖像的局限，捕捉到物體運動的連續(xù)性。即便在某一幀中物體因為光照或遮擋而變得模糊，歷史幀積累的特征也能提供有效的補充，從而保證了感知結(jié)果的平滑和穩(wěn)定。

占據(jù)流如何量化物體的運動狀態(tài)？

僅僅知道某個格點正在移動是不夠的，系統(tǒng)需要精確地知道它的速度方向和大小。在OCC技術(shù)框架內(nèi)，可通過輸出占據(jù)流來實現(xiàn)。每個被標記為占據(jù)的小方塊，不僅存儲了該位置是否有障礙物的概率，還攜帶了一個三維的運動矢量。

圖片源自：網(wǎng)絡(luò)

這個運動矢量的生成依賴于專門的預(yù)測分支。在網(wǎng)絡(luò)的后端，算法會計算當(dāng)前格點與歷史對應(yīng)格點之間的關(guān)聯(lián)性，推導(dǎo)出該格點在三維空間中的瞬時位移。這意味著，對于路上的每一輛車、每一個行人，OCC輸出的不是一個整體的運動數(shù)值，而是構(gòu)成這些物體的成千上萬個微小格點各自的運動矢量。這種格點級的速度表達，能夠描述如車輛轉(zhuǎn)彎時不同部位的速度差異，或者行人在擺臂時的局部動態(tài)等非常細膩的物體動態(tài)行為。

這種處理方式避開了傳統(tǒng)感知中復(fù)雜的目標跟蹤環(huán)節(jié)。在傳統(tǒng)方案里，如果跟蹤丟了，速度也就沒了；而在OCC中，只要空間依然被占據(jù)，速度矢量就能通過時序特征持續(xù)輸出。這種從底層像素特征直接映射到物理運動屬性的邏輯，使得系統(tǒng)對異形物體和復(fù)雜運動的適應(yīng)性大幅提升，因為網(wǎng)絡(luò)不再試圖理解誰在動，而是在計算這里的空間如何變動。

遮擋下的動態(tài)預(yù)測靠什么維持？

動態(tài)物體感知中最具挑戰(zhàn)性的場景是物體從視線中消失或被部分遮擋。OCC處理這類問題的核心在于其時空一致性的建模能力。當(dāng)一個動態(tài)物體進入遮擋區(qū)域時，當(dāng)前的傳感器數(shù)據(jù)無法提供其位置信息，但網(wǎng)絡(luò)內(nèi)部的時序編碼器會保留該物體的狀態(tài)特征。

圖片源自：網(wǎng)絡(luò)

通過引入時空注意力機制，網(wǎng)絡(luò)可以學(xué)習(xí)到物理運動的慣性規(guī)律。在處理時序特征序列時，注意力機制會分配權(quán)重給那些具有強運動趨勢的特征點。即使當(dāng)前幀的輸入是空的，網(wǎng)絡(luò)依然可以根據(jù)前幾幀的占據(jù)狀態(tài)和速度矢量，在潛在的占據(jù)位置生成預(yù)測。這就像是給感知系統(tǒng)裝上了一個預(yù)判大腦，讓它能夠根據(jù)物體消失前的軌跡，推測其在接下來一兩秒內(nèi)的空間分布。

這種預(yù)測并非盲目猜測，而是基于概率分布的推理。系統(tǒng)會輸出一個隨時間推移而逐漸擴散的占據(jù)概率圖，表示物體可能出現(xiàn)的區(qū)域。這種處理方式能夠極大地優(yōu)化自動駕駛的安全性，因為規(guī)控系統(tǒng)可以提前避開這些高概率被占據(jù)的空間，而不需要等到物體再次完全暴露在視野中才做出反應(yīng)。這種對時空連續(xù)性的深度挖掘，正是OCC相比傳統(tǒng)檢測方案更具安全潛力的關(guān)鍵所在。

這種全場景動態(tài)感知帶來了哪些改變？

這種基于格點的動態(tài)處理方案，徹底改變了自動駕駛處理復(fù)雜路況的效率。在傳統(tǒng)的任務(wù)流中，感知、跟蹤、預(yù)測是三個獨立的環(huán)節(jié)，每個環(huán)節(jié)的誤差都會累積。而OCC將這些功能整合在一個端到端的框架內(nèi)，直接輸出帶有運動屬性的三維空間地圖。這種高度集成的方式，不僅減少了計算延遲，還消除了由于目標匹配錯誤導(dǎo)致的感知中斷。

圖片源自：網(wǎng)絡(luò)

對于下游的決策規(guī)劃來說，這種感知結(jié)果非常友好。規(guī)控算法不再需要處理成百上千個目標的列表，而是面對一張實時更新的、帶有速度信息的動態(tài)三維柵格圖。這張圖清晰地標注了哪些空間是絕對安全的，哪些空間在未來一段時間內(nèi)會被動態(tài)物體占據(jù)。

這種感知邏輯的進步，使得自動駕駛系統(tǒng)在應(yīng)對突發(fā)狀況時更加從容。無論是路邊突然竄出的外賣車，還是前方散落并滑動的貨物，OCC都能以統(tǒng)一的邏輯進行捕捉和處理。這種對物理世界最原始、最本質(zhì)的建模方式，正在成為實現(xiàn)高階自動駕駛能力的重要技術(shù)支撐，讓車輛能夠在瞬息萬變的城市交通中，獲得更加精準和穩(wěn)定的空間掌控感。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.