[首發(fā)于智駕最前沿微信公眾號]占據(jù)感知網(wǎng)絡(luò)(Occupancy Network,簡稱OCC)作為自動駕駛現(xiàn)階段比較火熱的一項技術(shù),一直被很多人討論。由于自動駕駛應(yīng)用場景的特殊性,感知的物體大多是動態(tài)的,因此,對于占據(jù)感知網(wǎng)絡(luò)的討論,一定要基于感知動態(tài)物體的前提下。
在討論這個話題時,我們需要將視野從單純的三維重建擴展到四維時空感知。動態(tài)物體的難點在于,它們在空間中的位置隨時間變化,且形狀、速度各異。OCC并不是通過簡單的逐幀對比來處理這些變化的,而是通過一套嚴密的時序特征融合與運動矢量預(yù)測機制,實現(xiàn)了對物理世界動態(tài)屬性的深度建模。
時序特征是如何在格點中對齊的?
處理動態(tài)物體的第一步是需要建立一個統(tǒng)一的時間參考系。自動駕駛車輛在行駛過程中,自身的坐標系一直在變動,這意味著不同時間點觀測到的同一個格點,其在圖像空間或特征空間中的位置是不一致的。為了讓占據(jù)感知網(wǎng)絡(luò)能理解物體的運動,必須先進行自車運動補償。
圖片源自:網(wǎng)絡(luò)
系統(tǒng)會利用自車的慣性導(dǎo)航數(shù)據(jù)和里程計信息,將歷史時刻的特征圖投影到當(dāng)前幀的坐標系下。這個過程會涉及特征對齊技術(shù),即將過去多幀的特征在三維空間中進行平移和旋轉(zhuǎn)轉(zhuǎn)換,使得靜止的背景在時序維度上能夠重合。當(dāng)背景對齊之后,那些在空間中發(fā)生位移的特征點就會顯著地浮現(xiàn)出來,網(wǎng)絡(luò)由此獲得了感知變化的基礎(chǔ)。
在特征融合階段,OCC架構(gòu)會采用三維卷積或時序注意力機制。網(wǎng)絡(luò)不僅提取當(dāng)前的幾何特征,還會回顧過去幾百毫秒甚至更長時間的特征序列。這種多幀融合的方式,讓網(wǎng)絡(luò)能夠跨越單幀圖像的局限,捕捉到物體運動的連續(xù)性。即便在某一幀中物體因為光照或遮擋而變得模糊,歷史幀積累的特征也能提供有效的補充,從而保證了感知結(jié)果的平滑和穩(wěn)定。
占據(jù)流如何量化物體的運動狀態(tài)?
僅僅知道某個格點正在移動是不夠的,系統(tǒng)需要精確地知道它的速度方向和大小。在OCC技術(shù)框架內(nèi),可通過輸出占據(jù)流來實現(xiàn)。每個被標記為占據(jù)的小方塊,不僅存儲了該位置是否有障礙物的概率,還攜帶了一個三維的運動矢量。
圖片源自:網(wǎng)絡(luò)
這個運動矢量的生成依賴于專門的預(yù)測分支。在網(wǎng)絡(luò)的后端,算法會計算當(dāng)前格點與歷史對應(yīng)格點之間的關(guān)聯(lián)性,推導(dǎo)出該格點在三維空間中的瞬時位移。這意味著,對于路上的每一輛車、每一個行人,OCC輸出的不是一個整體的運動數(shù)值,而是構(gòu)成這些物體的成千上萬個微小格點各自的運動矢量。這種格點級的速度表達,能夠描述如車輛轉(zhuǎn)彎時不同部位的速度差異,或者行人在擺臂時的局部動態(tài)等非常細膩的物體動態(tài)行為。
這種處理方式避開了傳統(tǒng)感知中復(fù)雜的目標跟蹤環(huán)節(jié)。在傳統(tǒng)方案里,如果跟蹤丟了,速度也就沒了;而在OCC中,只要空間依然被占據(jù),速度矢量就能通過時序特征持續(xù)輸出。這種從底層像素特征直接映射到物理運動屬性的邏輯,使得系統(tǒng)對異形物體和復(fù)雜運動的適應(yīng)性大幅提升,因為網(wǎng)絡(luò)不再試圖理解誰在動,而是在計算這里的空間如何變動。
遮擋下的動態(tài)預(yù)測靠什么維持?
動態(tài)物體感知中最具挑戰(zhàn)性的場景是物體從視線中消失或被部分遮擋。OCC處理這類問題的核心在于其時空一致性的建模能力。當(dāng)一個動態(tài)物體進入遮擋區(qū)域時,當(dāng)前的傳感器數(shù)據(jù)無法提供其位置信息,但網(wǎng)絡(luò)內(nèi)部的時序編碼器會保留該物體的狀態(tài)特征。
圖片源自:網(wǎng)絡(luò)
通過引入時空注意力機制,網(wǎng)絡(luò)可以學(xué)習(xí)到物理運動的慣性規(guī)律。在處理時序特征序列時,注意力機制會分配權(quán)重給那些具有強運動趨勢的特征點。即使當(dāng)前幀的輸入是空的,網(wǎng)絡(luò)依然可以根據(jù)前幾幀的占據(jù)狀態(tài)和速度矢量,在潛在的占據(jù)位置生成預(yù)測。這就像是給感知系統(tǒng)裝上了一個預(yù)判大腦,讓它能夠根據(jù)物體消失前的軌跡,推測其在接下來一兩秒內(nèi)的空間分布。
這種預(yù)測并非盲目猜測,而是基于概率分布的推理。系統(tǒng)會輸出一個隨時間推移而逐漸擴散的占據(jù)概率圖,表示物體可能出現(xiàn)的區(qū)域。這種處理方式能夠極大地優(yōu)化自動駕駛的安全性,因為規(guī)控系統(tǒng)可以提前避開這些高概率被占據(jù)的空間,而不需要等到物體再次完全暴露在視野中才做出反應(yīng)。這種對時空連續(xù)性的深度挖掘,正是OCC相比傳統(tǒng)檢測方案更具安全潛力的關(guān)鍵所在。
這種全場景動態(tài)感知帶來了哪些改變?
這種基于格點的動態(tài)處理方案,徹底改變了自動駕駛處理復(fù)雜路況的效率。在傳統(tǒng)的任務(wù)流中,感知、跟蹤、預(yù)測是三個獨立的環(huán)節(jié),每個環(huán)節(jié)的誤差都會累積。而OCC將這些功能整合在一個端到端的框架內(nèi),直接輸出帶有運動屬性的三維空間地圖。這種高度集成的方式,不僅減少了計算延遲,還消除了由于目標匹配錯誤導(dǎo)致的感知中斷。
圖片源自:網(wǎng)絡(luò)
對于下游的決策規(guī)劃來說,這種感知結(jié)果非常友好。規(guī)控算法不再需要處理成百上千個目標的列表,而是面對一張實時更新的、帶有速度信息的動態(tài)三維柵格圖。這張圖清晰地標注了哪些空間是絕對安全的,哪些空間在未來一段時間內(nèi)會被動態(tài)物體占據(jù)。
這種感知邏輯的進步,使得自動駕駛系統(tǒng)在應(yīng)對突發(fā)狀況時更加從容。無論是路邊突然竄出的外賣車,還是前方散落并滑動的貨物,OCC都能以統(tǒng)一的邏輯進行捕捉和處理。這種對物理世界最原始、最本質(zhì)的建模方式,正在成為實現(xiàn)高階自動駕駛能力的重要技術(shù)支撐,讓車輛能夠在瞬息萬變的城市交通中,獲得更加精準和穩(wěn)定的空間掌控感。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.