[首發(fā)于智駕最前沿微信公眾號]在自動駕駛領(lǐng)域,占據(jù)網(wǎng)絡(luò)(Occupancy Network,簡稱OCC)一直是近年來的熱點技術(shù)。不知道大家在了解占用網(wǎng)絡(luò)時,是否會有這么一個想法,那就是既然占據(jù)網(wǎng)絡(luò)能夠通過空間體素化的方式來感知世界,甚至可以識別那些從未見過的異形障礙物,那它是不是不再需要傳統(tǒng)意義上的數(shù)據(jù)標(biāo)注了?事實上,占據(jù)網(wǎng)絡(luò)不僅沒有取消標(biāo)注,反而將標(biāo)注的維度和難度推向了一個新的高度。
為什么占據(jù)網(wǎng)絡(luò)變得如此重要?
早期的自動駕駛感知主要依賴于目標(biāo)檢測的邏輯,也就是給攝像頭看到的物體打上標(biāo)簽并畫上三維邊框,從而實現(xiàn)識別出這是一個行人、一輛轎車或是一棵樹的精準(zhǔn)感知。這種方式雖然直觀,但在處理現(xiàn)實世界中千奇百怪的物體時會顯得捉襟見肘。如果路面上掉落了一個形狀奇特的紙箱,或者出現(xiàn)了一輛翻倒的灑水車,系統(tǒng)如果無法將其歸類為已知的物體,就可能視而不見,從而導(dǎo)致感知上的真空。
![]()
圖片源自:網(wǎng)絡(luò)
占據(jù)網(wǎng)絡(luò)的出現(xiàn)改變了這種邏輯。它不再糾結(jié)于這個物體到底是什么,而是通過將三維空間切分成無數(shù)個微小的方塊(稱為體素),來判斷每一個方塊是被物體填滿了還是空閑的。這種從識別物體到感知空間的轉(zhuǎn)變,讓自動駕駛車輛具備了處理異形障礙物的能力。只要一個空間點被占據(jù),無論它是什么,車輛都會將其視為不可逾越的區(qū)域,從而極大地提升了行駛的安全性。
這種技術(shù)的進步并不代表模型可以無師自通。模型需要通過海量的數(shù)據(jù)訓(xùn)練,才能學(xué)會準(zhǔn)確判斷空間中的體素是否被占據(jù),以及這些體素代表的物理屬性。因此,占據(jù)網(wǎng)絡(luò)的底層依然建立在龐大的數(shù)據(jù)基礎(chǔ)之上,只是標(biāo)注的形式從二維的框或者三維的框,進化成了更加精細的體素化標(biāo)簽。
素化的世界還需要人工標(biāo)注嗎?
既然要訓(xùn)練模型判斷每一個微小方塊的占據(jù)狀態(tài),那么在訓(xùn)練階段,我們就必須給模型提供一套標(biāo)準(zhǔn)的參考答案。這套答案就是標(biāo)注數(shù)據(jù)。在占據(jù)網(wǎng)絡(luò)框架下,標(biāo)注工作不再是簡單地在圖片上畫框,而是要對整個三維空間進行語義分割。這意味著每一個體素不僅要標(biāo)注是否有物體,還要標(biāo)注這是什么物體。
![]()
圖片源自:網(wǎng)絡(luò)
這種標(biāo)注任務(wù)的工程量是極其驚人的。如果僅僅依靠人工手動去給三維空間里的每一個方塊點選屬性,效率將低到無法接受。一個場景可能包含數(shù)百萬個體素,人工根本無法完成這種精度的作業(yè)。因此,占據(jù)網(wǎng)絡(luò)的數(shù)據(jù)標(biāo)注實際上走上了一條半自動化的道路。但這并不意味著人工可以撤出,而是發(fā)生了轉(zhuǎn)變,人工從一線的畫圖員變成了高階的質(zhì)檢員和規(guī)則制定者。
目前的行業(yè)主流做法是利用激光雷達(LiDAR)采集的高精度點云數(shù)據(jù)作為基準(zhǔn),通過算法將點云映射到三維體素網(wǎng)格中,生成初步的占據(jù)標(biāo)簽。激光雷達天生具備深度信息,能夠告訴系統(tǒng)哪里確實有東西。但這還不夠,因為單純的點云并不帶有語義信息。為了讓占據(jù)網(wǎng)絡(luò)不僅知道那里有東西,還知道那是路面還是車輛,標(biāo)注員需要通過多幀融合、跨傳感器協(xié)同等方式,將語義信息注入到這些體素中。
從二維到三維的數(shù)據(jù)跨越如何實現(xiàn)?
占據(jù)網(wǎng)絡(luò)的訓(xùn)練難點之一在于,大多數(shù)車載傳感器,尤其是攝像頭獲取的是二維圖像。如何將二維的像素點與三維的體素標(biāo)簽對應(yīng)起來,是標(biāo)注技術(shù)的核心。在這個過程中,標(biāo)注不再是孤立的一張張照片,而是一段連續(xù)的時空序列。通過先進的離線算法,標(biāo)注系統(tǒng)可以整合車輛行駛過程中的所有傳感器數(shù)據(jù),構(gòu)建出一個完整的三維世界模型。
![]()
圖片源自:網(wǎng)絡(luò)
在這個預(yù)構(gòu)建的四維時空模型(三維空間加上時間軸)中,物體的運動軌跡、形狀變化都被精確記錄下來。系統(tǒng)會利用這些離線的高精度信息來反哺在線的感知模型。簡單來說,就是我們在實驗室里用最貴的設(shè)備、最慢的計算速度生成了一份近乎完美的標(biāo)準(zhǔn)答案,然后要求車上的感知算法在僅有攝像頭輸入的情況下,盡可能去考出接近這份答案的高分。
這種標(biāo)注方式對數(shù)據(jù)一致性的要求極高。如果標(biāo)注過程中出現(xiàn)了時空漂移,或者不同傳感器之間的校準(zhǔn)存在偏差,模型就會產(chǎn)生幻覺。因此,占據(jù)網(wǎng)絡(luò)的標(biāo)注鏈條中,增加了大量關(guān)于傳感器外參標(biāo)定、多幀時序?qū)R的自動化處理環(huán)節(jié)。即便如此,在面對復(fù)雜的遮擋關(guān)系、雨雪天氣帶來的噪點以及長尾場景時,依然需要經(jīng)驗豐富的標(biāo)注專家進行精細化的修正和確認(rèn)。
自動化標(biāo)注真的是終點嗎?
隨著大模型和自監(jiān)督學(xué)習(xí)技術(shù)的發(fā)展,占據(jù)網(wǎng)絡(luò)的標(biāo)注確實在向著減少人工依賴的方向演進。如通過預(yù)測視頻中下一幀的畫面,或者利用物體運動的連續(xù)性,模型可以實現(xiàn)一定程度的自我學(xué)習(xí),通過計算投影誤差來修正自己的感知。這種自監(jiān)督的方式可以在一定程度上緩解對昂貴標(biāo)注數(shù)據(jù)的依賴,但它目前還無法完全替代高質(zhì)量的人工真值。
![]()
圖片源自:網(wǎng)絡(luò)
尤其是在涉及交通法規(guī)和特殊語義理解的場景下,機器依然難以捕捉到那些細微但關(guān)鍵的信息。如一個被風(fēng)吹起的塑料袋和一個堅硬的石塊,在早期的占據(jù)網(wǎng)絡(luò)看來可能都是被占據(jù)的體素,但對于駕駛決策來說,兩者的處理邏輯完全不同。這就需要人工標(biāo)注在語義層面給予模型更深層次的指導(dǎo),將單純的物理占據(jù)提升到具有邏輯判斷的語義感知。
最后的話
占據(jù)網(wǎng)絡(luò)的普及不但沒有消滅標(biāo)注行業(yè),反而推動了標(biāo)注產(chǎn)業(yè)的升級。標(biāo)注公司現(xiàn)在需要具備更強的三維重建能力、更復(fù)雜的算法工具鏈以及對自動駕駛長尾場景更深刻的理解。未來的方向并非取消標(biāo)注,而是讓標(biāo)注變得更加智能和隱形。通過構(gòu)建一個能夠自動生成、自動校驗、自動進化的閉環(huán)數(shù)據(jù)體系,占據(jù)網(wǎng)絡(luò)才能真正發(fā)揮出其感知萬物的潛力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.