2022年從華為轉(zhuǎn)投地平線的蘇箐,這幾年少有公開言論。12月9日,他作為首席架構(gòu)師,在首屆地平線技術(shù)生態(tài)大會(huì)上的講演,相當(dāng)罕見。與總是“贏贏贏”相比,講出當(dāng)前的技術(shù)困難,并從技術(shù)發(fā)展脈絡(luò)的角度,對(duì)未來(lái)進(jìn)行一番預(yù)測(cè)(對(duì)不對(duì)另說(shuō)),還是很有含金量的。這場(chǎng)講演里面,他的高管身份淡了,項(xiàng)目工程師的色彩更濃厚。大家可能都更想聽點(diǎn)業(yè)內(nèi)對(duì)于自動(dòng)駕駛的真話,盡管這些話里“贏”的成分太少。
芯片公司開始做算法
事后有很多人認(rèn)定蘇箐的講演底色是悲觀的。更準(zhǔn)確地說(shuō),他在技術(shù)必然性的樂觀和“工程地獄”的悲觀之間搖擺。其樂觀在于,技術(shù)路徑已經(jīng)非常確定,暫時(shí)找不到比Transformer注意力機(jī)制更好的標(biāo)準(zhǔn)算子(因此他將特斯拉 FSD V12稱之為“奧本海默時(shí)刻”);悲觀性在于,還要做那么多苦工。發(fā)現(xiàn)“端到端”的喜悅,很可能是這幾年工程創(chuàng)新的頂峰。接下來(lái)要不斷收斂定義,做技巧性優(yōu)化。
![]()
看上去“優(yōu)化”似乎沒什么技術(shù)含量。其實(shí)不然,如何設(shè)計(jì)高效的注意力機(jī)制,處理傳感器(主要是攝像頭)產(chǎn)生的海量Token,考慮到處理Token的目標(biāo),都是捕獲時(shí)空長(zhǎng)距離依賴關(guān)系,在端到端的旗幟下,視頻流轉(zhuǎn)化為最適合Transformer理解的連續(xù)向量,技術(shù)挑戰(zhàn)性一直被低估。
光學(xué)畸變、光線變化、陰影估算、多相機(jī)時(shí)空戳精確同步、將視頻流編碼為空間和語(yǔ)義的神經(jīng)表達(dá),都是非常考校技術(shù)實(shí)力的部分。蘇箐所謂“做苦工”,不僅是要處理這些技術(shù)問題,更主要是在SOP期限壓力下,做出堪用的、可供商業(yè)化部署的一攬子解決方案。這些工作現(xiàn)在屬于Soc公司的“菜”,因?yàn)橥ㄟ^定制化計(jì)算單元(NPU、ISP),可能比純軟件方案更高效地解決以上難點(diǎn)。
這恰恰是以前屬于華為、Momenta這類供應(yīng)商,以及蔚小理等新勢(shì)力的技術(shù)護(hù)城河范圍。但現(xiàn)在芯片公司開始做算法,業(yè)內(nèi)的智駕供應(yīng)鏈,又開始發(fā)生微妙且重要的變化。
地平線就做了HSD(Horizon SuperDrive),對(duì)應(yīng)特斯拉的FSD。這意味著芯片公司從Tier2,升級(jí)為Tier1,與其他方案解決商(比如博世、大陸、電裝等)結(jié)成生態(tài)伙伴,由他們基于芯片公司的芯片和感知算法開發(fā)標(biāo)準(zhǔn)軟件,對(duì)車企交付。
可以預(yù)料,芯片公司成為完整的智駕方案Tier1,只是時(shí)間問題。芯片公司自己就成為智駕生態(tài)的中堅(jiān)。跨國(guó)Tier1高興沒多久,就將迎來(lái)更多的對(duì)手。
對(duì)于那些不愿意投入上千人做算法的中小車企、跨國(guó)車企,則是空前的利好。他們也有可能做出與巨無(wú)霸型智駕供應(yīng)商掰手腕的產(chǎn)品了,如果后者不能再領(lǐng)先一步的話。
到頭來(lái),可能會(huì)導(dǎo)致所有的智駕供應(yīng)商,都致力于垂直整合智駕供應(yīng)鏈,從Soc到軟件,從傳感器到執(zhí)行機(jī)構(gòu)一把抓。那么,會(huì)不會(huì)出現(xiàn)智駕供應(yīng)商與車企搶著當(dāng)“鏈主”的局面?大概率不會(huì),因?yàn)橛心芰ψ约捍怪闭系能嚻螅粫?huì)直接采購(gòu)整體智駕方案。
這是蘇箐在演講中并未明言、但反復(fù)暗示的最大的觀點(diǎn)。地平線在產(chǎn)業(yè)中的野心,絕不是解決好車載算力就完事的。
世界模型可能是L4的必要但不充分條件
一段式端到端的特點(diǎn),就是從感知到輸出控制信號(hào)之間是黑盒子,大家不放心。加交通規(guī)則約束兜底是普遍做法。但只要使用規(guī)則,就有寫不完的規(guī)則。有人提議“軟約束”,即給推理出來(lái)的行車方案,在訓(xùn)練中引入評(píng)估模型(基于物理規(guī)則),這就更像人類的“因果關(guān)系”思考模式,比粗暴裁剪輸出優(yōu)雅多了。但這部分算法,大概尚未閉環(huán)。而且這樣造成一些VLA方式的“慢思維鏈”變得更慢了。
世界模型被看成是與VLA對(duì)立的的方案。其實(shí)兩者并不沖突。世界模型(WM)本質(zhì)上是短時(shí)(大概2、3秒)預(yù)測(cè)模型。在L2向L4過渡階段,WM的作用是存疑的。
![]()
現(xiàn)在看,在L2階段,WM的核心價(jià)值在于減少誤剎、提升舒適性。其關(guān)鍵在于,通過對(duì)物理世界的模擬,預(yù)測(cè)出多個(gè)交通參與者意圖活動(dòng)的可能結(jié)果。這就又回到因果預(yù)測(cè),模型需要理解場(chǎng)景中的因果關(guān)系。有些是概率極高、甚至確定的(比如綠燈會(huì)催動(dòng)車流、車輛行人看見紅燈會(huì)停),但無(wú)法預(yù)測(cè)不理智的莽撞行為。后者才是發(fā)生事故的主要誘因。
在L3/L4中,WM必須升級(jí)為可長(zhǎng)時(shí)程推演和“反事實(shí)思考”的認(rèn)知模型。蘇箐的“自動(dòng)泛化”夢(mèng)想,大概依賴于此。真正的瓶頸在于,WM與后續(xù)的決策規(guī)劃模塊仍是“兩張皮”。在很多架構(gòu)中,WM預(yù)測(cè)了結(jié)果,端到端再進(jìn)行代價(jià)計(jì)算,這里面存在信息延誤和誤差積累。有人主張,讓W(xué)M多干點(diǎn)活,不僅預(yù)測(cè),還要評(píng)估各個(gè)行為分支的好與壞。這樣做可能產(chǎn)生更多的代價(jià)。
蘇箐與業(yè)內(nèi)有些公司的看法一致,即沒有WM,L4沒有可能。但僅有WM,仍然解決不了極端場(chǎng)景下的安全降級(jí)策略、實(shí)時(shí)性與穩(wěn)定性的平衡。WM看上去更適合當(dāng)一個(gè)訓(xùn)練“引擎”,安全駕駛不應(yīng)該由其兜底。
L4缺工具,L3需要設(shè)定新規(guī)則
在中美科技與產(chǎn)業(yè)界,大家一股腦地都去投資大模型,“玩命堆算力,不要問有沒有用”。這種瘋狂投入在商業(yè)上是否劃算,取決于一個(gè)規(guī)律——算力成本增加,與性能提升,存在大致的線性比值。但大家有點(diǎn)隱約覺得,快觸碰到“天花板”了,即投資效能在下降。
![]()
這其實(shí)也正常,算力可以堆,但是高質(zhì)量數(shù)據(jù)并非無(wú)限。獲取極端場(chǎng)景數(shù)據(jù)越來(lái)越困難,意味著訓(xùn)練效果也下來(lái)了。雖然訓(xùn)練的“規(guī)模化”一直有效,但追求訓(xùn)練效率,就必須設(shè)計(jì)更好芯片與協(xié)同算法。這就又回到了芯片公司的強(qiáng)項(xiàng)。
現(xiàn)在監(jiān)管批準(zhǔn)了少數(shù)L3量產(chǎn)車型上路,但要在特定路線和特定工況下使用。L3與L2最大的區(qū)別,是誰(shuí)來(lái)兜底。而廠家兜底的前提,仍然是用戶有效接管(依靠數(shù)據(jù)盒子判斷)。但如果不清晰劃定接管條件。L3和L2又有什么區(qū)別。
目前,L2強(qiáng)調(diào)的是統(tǒng)計(jì)意義上的安全(多少億公里的事故率),L4必須追求邏輯意義上的安全(證明通常意義上的場(chǎng)景都安全),后者必須要有新的驗(yàn)證、測(cè)試和仿真技術(shù)。而L3則需要智駕系統(tǒng)證明自己的安全邊界。蘇箐所謂“平滑過渡”,大概率是從體驗(yàn)出發(fā)的,但在L3階段,如果無(wú)法逾越責(zé)任歸屬問題,那么過渡到L4,就成了空話。
當(dāng)然,相比技術(shù)上責(zé)任歸屬,用戶同樣在意商業(yè)責(zé)任歸屬。保險(xiǎn)公司推出“技術(shù)責(zé)任險(xiǎn)”,由主機(jī)廠買單。而智駕方案供應(yīng)商則將算法、芯片與安全里程承諾打包出售給主機(jī)廠,從而實(shí)現(xiàn)層層承諾,將用戶從兜底責(zé)任中解脫出來(lái)。
![]()
這樣做的結(jié)果,就是實(shí)力強(qiáng)且規(guī)模大的智駕供應(yīng)商,迅速瓜分掉主機(jī)廠訂單。即更具垂直整合能力、掌握大筆資源(投資云算力、組建超大算法研發(fā)團(tuán)隊(duì)和芯片硬件研發(fā)團(tuán)隊(duì))的供應(yīng)商,將毫無(wú)懸念地拿到少數(shù)幾張幸存者資格證。
這樣一來(lái),自動(dòng)駕駛商業(yè)模式收斂,經(jīng)歷的時(shí)間將很短,甚至遠(yuǎn)比L2到L4過渡時(shí)間要短得多。至于是否“平滑”,只能由幸存者負(fù)責(zé)闡釋。
注:圖片部分來(lái)源網(wǎng)絡(luò),如有侵權(quán),聯(lián)系刪除。
大廠的共同生存指南 寶馬高翔:在變革中保持謹(jǐn)慎的創(chuàng)新
馬斯克萬(wàn)億薪酬背后
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.