[首發(fā)于智駕最前沿微信公眾號]目前的自動駕駛技術(shù)正處于一個關(guān)鍵的十字路口,新技術(shù)層出不窮。雖然現(xiàn)有的視覺感知和規(guī)劃算法已經(jīng)能夠處理大部分常規(guī)路況,但在面對復(fù)雜的人類社交行為和從未見過的突發(fā)狀況時,傳統(tǒng)系統(tǒng)依舊會表現(xiàn)得過于死板。為了解決這些難題,有技術(shù)方案嘗試將大語言模型的理解能力與自動駕駛的控制邏輯結(jié)合起來,這便誕生了VLA模型,即“視覺-語言-動作”模型。
為什么自動駕駛需要一顆懂語言的大腦?
在過去很長一段時間里,自動駕駛系統(tǒng)的邏輯更像是查字典。攝像頭和雷達(dá)捕捉到畫面,算法識別出障礙物,然后根據(jù)預(yù)設(shè)的代碼尋找對應(yīng)的操作。比如看到紅燈就停,看到前車減速就跟著減速。這種方式在規(guī)則明確的環(huán)境下表現(xiàn)優(yōu)異,可一旦進(jìn)入邊緣場景中,它就顯得捉襟見肘。當(dāng)路邊有個交警揮手讓繞行,或者遇到一輛逆行的自行車,傳統(tǒng)系統(tǒng)可能因為沒有匹配到完全一致的預(yù)設(shè)案例,而選擇原地停車甚至報錯。
![]()
圖片源自:網(wǎng)絡(luò)
VLA模型的出現(xiàn)改變了這種單向的邏輯。它引入了語言作為思考的中介。這里的語言不僅僅是用來和乘客對話的,它更像是一種通用的邏輯框架。大語言模型在訓(xùn)練過程中吸收了整個人類文明積累的常識和推理能力,這使得它不僅能識別出交警,還能理解交警的手勢代表著一種指揮。這種對場景深度語義的理解,是單純的視覺算法很難具備的,它為自動駕駛補(bǔ)齊了最重要的一塊短板,即對物理世界常識的掌握。
這種模型打破了感知與控制之間的壁壘。以往,車上的傳感器負(fù)責(zé)看,而駕駛算法負(fù)責(zé)開,兩者之間隔著復(fù)雜的參數(shù)轉(zhuǎn)換。但在VLA模型中,視覺信息被轉(zhuǎn)化成了一種模型能讀懂的特征向量,并與語言指令交織在一起。這意味著汽車在做出轉(zhuǎn)彎或剎車決定時,不再僅是因為看到了某些像素點的變化,而是因為它理解了當(dāng)前的交通邏輯。這種跨維度的融合,讓自動駕駛系統(tǒng)從一個只會執(zhí)行指令的工具,進(jìn)化成了一個擁有基礎(chǔ)判斷力的智能體。
視覺、語言與動作是如何實時互動的?
要理解VLA的原理,可以把它想象成一個極速運(yùn)轉(zhuǎn)的翻譯機(jī)。它的輸入端非常豐富,包含了攝像頭采集的高清圖像、激光雷達(dá)生成的點云數(shù)據(jù),甚至是導(dǎo)航地圖里的路名和交規(guī)限制。這些原本形態(tài)各異的數(shù)據(jù),會被轉(zhuǎn)化為一種統(tǒng)一的數(shù)字語言,輸入到大模型的中心處理器中。與此同時,人類的駕駛意圖也會作為一種引導(dǎo)信號加入其中,讓模型知道接下來的目標(biāo)是什么。
在這個中心處理器里,視覺數(shù)據(jù)和語言知識會進(jìn)行深度的對齊。模型會自動在海量的記憶中搜索,在類似的畫面下,人類的規(guī)則和常識會怎么做?這種搜索并不是簡單的匹配,而是一種基于概率和邏輯的推理。比如當(dāng)視覺系統(tǒng)發(fā)現(xiàn)前方路面有大量的積水,而導(dǎo)航顯示這里是低洼地段,語言模型中的常識就會提示水深可能導(dǎo)致熄火或高速通過會產(chǎn)生水滑等。于是,模型會產(chǎn)生一個對應(yīng)的動作決策。
![]()
圖片源自:網(wǎng)絡(luò)
最關(guān)鍵的一步是動作的輸出。VLA模型不會直接給出一個模糊的建議,而是會把推理的結(jié)果轉(zhuǎn)化成汽車能聽懂的控制指令,比如具體的轉(zhuǎn)向角度、剎車力度或者加速百分比。為了讓這些指令更加精準(zhǔn),還會給模型喂入大量的專家駕駛數(shù)據(jù),讓它學(xué)習(xí)老司機(jī)在面對復(fù)雜情況時的處理習(xí)慣。通過這種方式,視覺的捕捉、語言的思考和動作的執(zhí)行會被緊密地鎖在一個循環(huán)里,實現(xiàn)了真正意義上的端到端控制。
這種新技術(shù)能解決哪些駕駛難題?
VLA模型最大的優(yōu)勢在于能處理那些極其罕見的特例場景。在自動駕駛領(lǐng)域,這些被稱為長尾場景,比如路面突然掉落的異形貨物、正在追逐打鬧的小狗或者是正在施工且沒有標(biāo)準(zhǔn)標(biāo)識的臨時路段等都屬于這類場景。傳統(tǒng)的系統(tǒng)很難覆蓋所有的突發(fā)情況,而VLA則可以憑借其強(qiáng)大的泛化能力,利用已有的常識進(jìn)行推斷。即使它從來沒見過掉落的浴缸,它也能通過視覺識別出這是一個不可逾越的固體,并結(jié)合安全邏輯選擇最穩(wěn)妥的繞行路徑。
![]()
圖片源自:網(wǎng)絡(luò)
除了處理突發(fā)狀況,VLA還賦予了汽車更強(qiáng)的人機(jī)交互和解釋能力。現(xiàn)在的端到端自動駕駛像個黑盒,乘客不知道它為什么突然急剎,也不知道它為什么要換道。但基于VLA系統(tǒng)的車輛可以實時將駕駛邏輯轉(zhuǎn)化為自然的語言。它能告訴乘客前方路口有行人視線盲區(qū),我正在減速觀察,或者左側(cè)車輛變道意圖明顯,我選擇了避讓。這種透明度不僅能緩解乘客的焦慮,也讓整個駕駛過程變得更加符合人類的社交習(xí)慣。
此外,這種模型還支持更加復(fù)雜的語音指令。你不需要再通過固定的菜單去設(shè)置導(dǎo)航,甚至可以給它一些模糊的指令,比如在不違規(guī)的前提下盡量開得快一點或者找一個風(fēng)景好且方便靠邊停的地方。VLA能夠理解這些充滿主觀色彩的詞匯,并將其轉(zhuǎn)化為具體的駕駛行為。它能根據(jù)路況的復(fù)雜程度和道路的限速信息,在安全和效率之間找到一個平衡點。這種對復(fù)雜意圖的精準(zhǔn)執(zhí)行,是傳統(tǒng)算法難以企及的。
走向大規(guī)模應(yīng)用還需要跨越哪些門檻?
雖然VLA前景廣闊,但要把這種龐大的模型塞進(jìn)量產(chǎn)車?yán)铮廊幻媾R著巨大的挑戰(zhàn)。計算效率的問題是不可避免的,大模型需要海量的算力支持,而車載芯片的資源是有限的。如果模型處理一幀畫面的時間太長,就會導(dǎo)致駕駛指令的延遲,這在高速行駛中是非常危險的。因此,如何對VLA模型進(jìn)行瘦身和加速,在不犧牲智能的前提下提高運(yùn)行速度,是目前行業(yè)攻關(guān)的核心方向。
![]()
圖片源自:網(wǎng)絡(luò)
還有就是安全性的邊界問題,大語言模型有時會產(chǎn)生幻覺,即說出一些邏輯不通或者脫離現(xiàn)實的話。如果這種現(xiàn)象發(fā)生在駕駛控制上,后果將不堪設(shè)想。因此,在VLA模型的輸出端,必須加上一套堅固的安全護(hù)欄。這套護(hù)欄通常由基礎(chǔ)的物理定律和嚴(yán)苛的交通規(guī)則組成,無論大模型的決策多么智能,只要觸碰了安全紅線,系統(tǒng)就會強(qiáng)行介入并進(jìn)行修正。
數(shù)據(jù)的質(zhì)量和多樣性也決定了VLA模型的天花板。要讓汽車真正像人一樣思考,就需要給它喂入更高質(zhì)量的、帶有詳細(xì)語言標(biāo)注的駕駛數(shù)據(jù)。這不僅要包括汽車跑出來的軌跡,還要包括人類在開車時當(dāng)下的心理活動和判斷邏輯。隨著數(shù)據(jù)規(guī)模的不斷擴(kuò)大和訓(xùn)練方法的持續(xù)演進(jìn),VLA模型將會變得越來越成熟。它不再只是一個輔助工具,而是會逐漸演變成一個真正理解物理世界、能夠獨立應(yīng)對復(fù)雜環(huán)境的數(shù)字化老司機(jī),徹底改變我們的出行方式。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.