[首發(fā)于智駕最前沿微信公眾號]世界模型應(yīng)該是這兩天自動駕駛行業(yè)討論度非常高的一項技術(shù)。通俗來講,世界模型就像是給自動駕駛車輛裝上了一個具備想象力的大腦。它不僅能看到眼前的紅綠燈和行人,還能根據(jù)當前的狀況推演未來幾秒鐘內(nèi)交通環(huán)境可能發(fā)生的變化。這種預(yù)測未來的能力,是實現(xiàn)復(fù)雜場景自主決策的關(guān)鍵,但在實際部署時,卻有非常多的問題需要解決。
復(fù)雜的世界如何塞進算法?
想要讓算法理解現(xiàn)實世界,首先要解決的是數(shù)據(jù)壓縮與特征提取的問題。現(xiàn)實環(huán)境的信息量是爆炸式的,攝像頭、激光雷達和毫米波雷達每秒鐘產(chǎn)生的數(shù)據(jù)多達數(shù)個GB。如果直接讓模型去處理這些原始像素或點云,計算壓力會大到無法想象。因此,世界模型的第一步是建立一個潛空間,也就是將復(fù)雜的視覺信息壓縮成一組精煉的數(shù)學(xué)向量。
![]()
圖片源自:網(wǎng)絡(luò)
這種壓縮過程非常容易丟失關(guān)鍵細節(jié)。比如遠處的紅綠燈顏色、地面的細微結(jié)冰痕跡或者行人的一個眼神動作,在數(shù)據(jù)大幅度降維的過程中可能被當作“噪聲”過濾掉。而在自動駕駛中,這些細節(jié)往往決定了決策的成敗。如何在保持模型運算效率的同時,精準地捕捉到那些能夠影響駕駛安全的微小特征,是目前技術(shù)實現(xiàn)的第一個難點。
此外,潛空間的狀態(tài)表示需要具備極強的泛化能力。如果模型只在晴天和寬敞的高速公路上訓(xùn)練,當它面對暴雨、大雪或者擁堵的城中村路口時,原有的壓縮邏輯就可能會失效。這種對未知環(huán)境的理解深度,直接決定了世界模型是否能像人類駕駛員那樣,在陌生路段也能迅速做出合理的判斷。
面對不確定性時該怎么辦?
世界模型的核心任務(wù)是預(yù)測未來,但未來本身是具有多重可能性的,這在技術(shù)上被稱為多模態(tài)預(yù)測。當車輛行駛到一個十字路口,左側(cè)的行人可能繼續(xù)直行,也可能突然停下。如果模型只能給出一個確定的預(yù)測結(jié)果,那么一旦現(xiàn)實情況偏離了預(yù)測軌道,系統(tǒng)就會陷入混亂。
![]()
圖片源自:網(wǎng)絡(luò)
對于這個問題,目前的難題在于,模型如何在概率分布中找到平衡。如果預(yù)測得過于發(fā)散,車輛會因為考慮到所有潛在的危險而變得異常膽小,甚至在空曠的路口遲疑不決;如果預(yù)測得過于集中,又容易忽略掉低概率但高風險的極端情況。這種對未來可能性的建模,要求模型不僅要學(xué)習(xí)物體運動的物理規(guī)律,還要在某種程度上理解社會契約和交通心理,這顯然超出了單純圖像識別的范疇。
在長序列預(yù)測中,不確定性帶來的問題會呈幾何倍數(shù)增長。隨著預(yù)測時間軸的拉長,微小的初始誤差會被不斷放大。模型預(yù)測出的未來圖像會從清晰變得模糊,甚至出現(xiàn)違反物理常識的幻覺,造成類似預(yù)測出的車輛憑空消失或建筑發(fā)生形變的情況。如何保證模型在預(yù)測未來數(shù)秒甚至更長時間時,依然能維持畫面的邏輯一致性和物理真實性,是開發(fā)者必須跨越的一道坎。
算力真的跟得上實時響應(yīng)嗎?
自動駕駛對實時性的要求近乎苛刻,任何決策延遲都可能導(dǎo)致嚴重的后果。目前主流的世界模型,尤其是基于擴散模型或自回歸架構(gòu)的模型,其實需要巨大的計算資源。這些模型在生成高質(zhì)量的未來場景預(yù)測時,通常涉及大量的迭代計算,這在云端服務(wù)器上或許可行,但在車載計算平臺上卻面臨著嚴峻的功耗和散熱挑戰(zhàn)。
![]()
圖片源自:網(wǎng)絡(luò)
高分辨率的視頻生成和多傳感器的融合處理,對顯存帶寬和處理器性能提出了極高要求。如果世界模型的推演速度跟不上車輛的實際行駛速度,那么它的預(yù)測價值就會歸零。
目前,行業(yè)內(nèi)正在嘗試各種剪枝、量化和模型蒸餾的方法,試圖在保證預(yù)測精度的前提下,壓減模型的參數(shù)規(guī)模。但這種優(yōu)化其實會面臨著既要又要的局面,減小模型會降低其對復(fù)雜環(huán)境的理解力,維持規(guī)模又難以達到毫秒級的響應(yīng)速度。
另外,訓(xùn)練這些模型本身也是一項耗資巨大的工程。世界模型需要海量的、帶有高質(zhì)量標注的視頻數(shù)據(jù)進行強化學(xué)習(xí),而這些數(shù)據(jù)的收集、清洗和訓(xùn)練過程消耗的電力和硬件資源,對于大多數(shù)企業(yè)來說都是沉重的負擔。如何通過更高效的算法架構(gòu)實現(xiàn)小樣本學(xué)習(xí)或者自監(jiān)督學(xué)習(xí),降低對頂級算力的依賴,是技術(shù)能否大規(guī)模普及的關(guān)鍵。
預(yù)測誤差是如何滾雪球的?
由于世界模型在預(yù)測時會采用自回歸的方式,即把前一刻預(yù)測出的結(jié)果作為下一刻預(yù)測的輸入,這不可避免地引入了誤差累積的問題,這也被形象地稱為“曝光偏差”。在實際駕駛中,即使每一步的預(yù)測誤差只有1%,在經(jīng)過幾十次的連續(xù)反饋后,最終的判斷可能已經(jīng)南轅北轍,導(dǎo)致車輛做出完全錯誤的避障動作。
這種累積誤差在面對突發(fā)狀況時表現(xiàn)得尤為明顯。比如前方車輛突然急剎,模型如果沒能在第一幀準確捕捉到剎車燈亮起的細微變化,后續(xù)的所有推演都會建立在“前車勻速行駛”的錯誤假設(shè)之上。這種閉環(huán)系統(tǒng)中的不穩(wěn)定性,要求模型必須具備強大的實時糾錯能力。
![]()
圖片源自:網(wǎng)絡(luò)
為了解決這個問題,目前的策略是在預(yù)測過程中不斷引入真實的觀測數(shù)據(jù)進行校準。但這又帶來了新的矛盾,如果系統(tǒng)過于依賴實時觀測,世界模型的預(yù)測意義就會被削弱,退化回傳統(tǒng)的感知系統(tǒng);如果過于依賴內(nèi)部推演,又容易脫離現(xiàn)實。尋找預(yù)測推演與實時感知的黃金平衡點,并有效遏制誤差的雪球效應(yīng),依然是當前自動駕駛領(lǐng)域最前沿、也最棘手的課題之一。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.