自動駕駛占用網(wǎng)絡(luò)還需要數(shù)據(jù)標(biāo)注嗎？

2026-04-17 08:53:21　來源: 智駕最前沿

江蘇舉報

分享至

[首發(fā)于智駕最前沿微信公眾號]在自動駕駛領(lǐng)域，占據(jù)網(wǎng)絡(luò)（Occupancy Network，簡稱OCC）一直是近年來的熱點技術(shù)。不知道大家在了解占用網(wǎng)絡(luò)時，是否會有這么一個想法，那就是既然占據(jù)網(wǎng)絡(luò)能夠通過空間體素化的方式來感知世界，甚至可以識別那些從未見過的異形障礙物，那它是不是不再需要傳統(tǒng)意義上的數(shù)據(jù)標(biāo)注了？事實上，占據(jù)網(wǎng)絡(luò)不僅沒有取消標(biāo)注，反而將標(biāo)注的維度和難度推向了一個新的高度。

為什么占據(jù)網(wǎng)絡(luò)變得如此重要？

早期的自動駕駛感知主要依賴于目標(biāo)檢測的邏輯，也就是給攝像頭看到的物體打上標(biāo)簽并畫上三維邊框，從而實現(xiàn)識別出這是一個行人、一輛轎車或是一棵樹的精準(zhǔn)感知。這種方式雖然直觀，但在處理現(xiàn)實世界中千奇百怪的物體時會顯得捉襟見肘。如果路面上掉落了一個形狀奇特的紙箱，或者出現(xiàn)了一輛翻倒的灑水車，系統(tǒng)如果無法將其歸類為已知的物體，就可能視而不見，從而導(dǎo)致感知上的真空。

圖片源自：網(wǎng)絡(luò)

占據(jù)網(wǎng)絡(luò)的出現(xiàn)改變了這種邏輯。它不再糾結(jié)于這個物體到底是什么，而是通過將三維空間切分成無數(shù)個微小的方塊（稱為體素），來判斷每一個方塊是被物體填滿了還是空閑的。這種從識別物體到感知空間的轉(zhuǎn)變，讓自動駕駛車輛具備了處理異形障礙物的能力。只要一個空間點被占據(jù)，無論它是什么，車輛都會將其視為不可逾越的區(qū)域，從而極大地提升了行駛的安全性。

這種技術(shù)的進步并不代表模型可以無師自通。模型需要通過海量的數(shù)據(jù)訓(xùn)練，才能學(xué)會準(zhǔn)確判斷空間中的體素是否被占據(jù)，以及這些體素代表的物理屬性。因此，占據(jù)網(wǎng)絡(luò)的底層依然建立在龐大的數(shù)據(jù)基礎(chǔ)之上，只是標(biāo)注的形式從二維的框或者三維的框，進化成了更加精細的體素化標(biāo)簽。

素化的世界還需要人工標(biāo)注嗎？

既然要訓(xùn)練模型判斷每一個微小方塊的占據(jù)狀態(tài)，那么在訓(xùn)練階段，我們就必須給模型提供一套標(biāo)準(zhǔn)的參考答案。這套答案就是標(biāo)注數(shù)據(jù)。在占據(jù)網(wǎng)絡(luò)框架下，標(biāo)注工作不再是簡單地在圖片上畫框，而是要對整個三維空間進行語義分割。這意味著每一個體素不僅要標(biāo)注是否有物體，還要標(biāo)注這是什么物體。

圖片源自：網(wǎng)絡(luò)

這種標(biāo)注任務(wù)的工程量是極其驚人的。如果僅僅依靠人工手動去給三維空間里的每一個方塊點選屬性，效率將低到無法接受。一個場景可能包含數(shù)百萬個體素，人工根本無法完成這種精度的作業(yè)。因此，占據(jù)網(wǎng)絡(luò)的數(shù)據(jù)標(biāo)注實際上走上了一條半自動化的道路。但這并不意味著人工可以撤出，而是發(fā)生了轉(zhuǎn)變，人工從一線的畫圖員變成了高階的質(zhì)檢員和規(guī)則制定者。

目前的行業(yè)主流做法是利用激光雷達（LiDAR）采集的高精度點云數(shù)據(jù)作為基準(zhǔn)，通過算法將點云映射到三維體素網(wǎng)格中，生成初步的占據(jù)標(biāo)簽。激光雷達天生具備深度信息，能夠告訴系統(tǒng)哪里確實有東西。但這還不夠，因為單純的點云并不帶有語義信息。為了讓占據(jù)網(wǎng)絡(luò)不僅知道那里有東西，還知道那是路面還是車輛，標(biāo)注員需要通過多幀融合、跨傳感器協(xié)同等方式，將語義信息注入到這些體素中。

從二維到三維的數(shù)據(jù)跨越如何實現(xiàn)？

占據(jù)網(wǎng)絡(luò)的訓(xùn)練難點之一在于，大多數(shù)車載傳感器，尤其是攝像頭獲取的是二維圖像。如何將二維的像素點與三維的體素標(biāo)簽對應(yīng)起來，是標(biāo)注技術(shù)的核心。在這個過程中，標(biāo)注不再是孤立的一張張照片，而是一段連續(xù)的時空序列。通過先進的離線算法，標(biāo)注系統(tǒng)可以整合車輛行駛過程中的所有傳感器數(shù)據(jù)，構(gòu)建出一個完整的三維世界模型。

圖片源自：網(wǎng)絡(luò)

在這個預(yù)構(gòu)建的四維時空模型（三維空間加上時間軸）中，物體的運動軌跡、形狀變化都被精確記錄下來。系統(tǒng)會利用這些離線的高精度信息來反哺在線的感知模型。簡單來說，就是我們在實驗室里用最貴的設(shè)備、最慢的計算速度生成了一份近乎完美的標(biāo)準(zhǔn)答案，然后要求車上的感知算法在僅有攝像頭輸入的情況下，盡可能去考出接近這份答案的高分。

這種標(biāo)注方式對數(shù)據(jù)一致性的要求極高。如果標(biāo)注過程中出現(xiàn)了時空漂移，或者不同傳感器之間的校準(zhǔn)存在偏差，模型就會產(chǎn)生幻覺。因此，占據(jù)網(wǎng)絡(luò)的標(biāo)注鏈條中，增加了大量關(guān)于傳感器外參標(biāo)定、多幀時序?qū)R的自動化處理環(huán)節(jié)。即便如此，在面對復(fù)雜的遮擋關(guān)系、雨雪天氣帶來的噪點以及長尾場景時，依然需要經(jīng)驗豐富的標(biāo)注專家進行精細化的修正和確認(rèn)。

自動化標(biāo)注真的是終點嗎？

隨著大模型和自監(jiān)督學(xué)習(xí)技術(shù)的發(fā)展，占據(jù)網(wǎng)絡(luò)的標(biāo)注確實在向著減少人工依賴的方向演進。如通過預(yù)測視頻中下一幀的畫面，或者利用物體運動的連續(xù)性，模型可以實現(xiàn)一定程度的自我學(xué)習(xí)，通過計算投影誤差來修正自己的感知。這種自監(jiān)督的方式可以在一定程度上緩解對昂貴標(biāo)注數(shù)據(jù)的依賴，但它目前還無法完全替代高質(zhì)量的人工真值。

圖片源自：網(wǎng)絡(luò)

尤其是在涉及交通法規(guī)和特殊語義理解的場景下，機器依然難以捕捉到那些細微但關(guān)鍵的信息。如一個被風(fēng)吹起的塑料袋和一個堅硬的石塊，在早期的占據(jù)網(wǎng)絡(luò)看來可能都是被占據(jù)的體素，但對于駕駛決策來說，兩者的處理邏輯完全不同。這就需要人工標(biāo)注在語義層面給予模型更深層次的指導(dǎo)，將單純的物理占據(jù)提升到具有邏輯判斷的語義感知。

最后的話

占據(jù)網(wǎng)絡(luò)的普及不但沒有消滅標(biāo)注行業(yè)，反而推動了標(biāo)注產(chǎn)業(yè)的升級。標(biāo)注公司現(xiàn)在需要具備更強的三維重建能力、更復(fù)雜的算法工具鏈以及對自動駕駛長尾場景更深刻的理解。未來的方向并非取消標(biāo)注，而是讓標(biāo)注變得更加智能和隱形。通過構(gòu)建一個能夠自動生成、自動校驗、自動進化的閉環(huán)數(shù)據(jù)體系，占據(jù)網(wǎng)絡(luò)才能真正發(fā)揮出其感知萬物的潛力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.