[首發于智駕最前沿微信公眾號]在自動駕駛的技術路徑中,純視覺一直是非常重要的方向,在之前的內容中,我們探討過小鵬汽車轉向純視覺的技術底氣,還聊過特斯拉FSD V14.3的升級。同樣作為純視覺智駕,小鵬和特斯拉在技術上有區別嗎?
端到端是唯一解嗎?
純視覺方案需要解決的,是如何從二維圖像中還原三維世界的信息,再據此做出駕駛決策。傳統做法是把任務拆成感知、預測、規劃、控制等多個獨立模塊,各模塊之間會傳遞處理好的數據。這種方式結構清晰、便于調試,但每個環節都不可避免地會丟失一些原始信息,而且需要工程師為各種場景逐一編寫規則,面對數不清的異常路況,規則是永遠寫不完的。隨著技術提升,端到端方案得到了應用,在特斯拉和小鵬的純視覺方案中,都不約而同地使用了端到端。
![]()
圖片源自:網絡
特斯拉在FSD V12上就率先做了減法,它把感知到控制的整個流程整合進一個統一的神經網絡,從攝像頭畫面輸入到方向盤、剎車指令輸出,全部由一個模型完成。這相當于跳過了所有中間環節,讓模型直接從海量駕駛視頻中學習看到什么該怎么開。V13之后,特斯拉又在模型中引入了時序處理能力,讓車輛能記住過去十幾秒內周圍物體的運動軌跡,即便行人暫時被遮擋,系統也能根據消失前的速度和方向推斷其當前位置和意圖。
小鵬則走了一條不同的路,它的端到端方案由三個獨立訓練的神經網絡協同工作,即XNet負責視覺感知,XPlanner負責軌跡規劃,大語言模型XBrain負責場景理解與決策,三者各有分工,通過內部接口串聯在一起。這種設計的優勢在于每個模塊可以獨立優化,排錯更簡單,而且XBrain能利用語言模型的泛化能力來處理潮汐車道、ETC車道、路牌文字等不常見的場景。
到了2025年底,小鵬又向前邁了一步,它發布的第二代VLA(視覺-語言-動作)大模型放棄了此前多模塊串聯的中間環節,直接讓視覺信號生成駕駛動作指令,從架構形式上向特斯拉的一段式端到端靠攏。不過,兩者在世界模型這個核心概念上的理解仍然不同,這是下一個要討論的問題。
![]()
圖片源自:網絡
同一個詞,兩種理解
世界模型是當前自動駕駛領域的重要技術方向,所謂世界模型,指的是系統在做出駕駛決策前,先在內部構建一個對道路環境的理解。特斯拉和小鵬都在做這件事,但實現方式有明顯區別。
特斯拉的方式更隱式,在FSD的內部,占用網絡(Occupancy Network)將車身周圍的三維空間切成無數細小的立方體,神經網絡逐一判斷每個立方體是否被物體占據、是否在移動、屬于哪一類物體。這套方法最核心的優勢是不依賴物體識別,無論前方是標準車輛還是側翻的貨車、散落的貨物,只要是空間中的實體,都會被標記出來。
![]()
圖片源自:網絡
2025年特斯拉又申請了更高精度的占用網絡專利,把空間劃分從約30厘米一格細化到約10厘米一格,在停車場等低速場景能對地面標記、車位線等細節做更精確的重建。這些空間信息直接參與端到端模型的決策過程,對駕駛員來說是不可見的中間狀態。
小鵬則提出了物理世界大模型的概念,它的第二代VLA不僅能輸出駕駛動作,還能對環境進行顯式建模,生成世界模型表征。小鵬強調這是一套原生多模態的大模型,能同時處理視覺、聽覺和文字信息,跨域應用于汽車、機器人和飛行汽車。在性能指標上,該模型參數達720億,訓練數據接近1億個視頻片段,每5天完成一次全鏈路迭代。配合自研的圖靈AI芯片和定制化編譯器,模型在車端的推理效率提升了12倍。
簡單理解,特斯拉的世界模型更像神經網絡的內部狀態,是決策的中間產物;而小鵬則試圖把世界模型變成一個可以跨任務復用的通用底層能力。
看得更遠,還是看得更細
感知是純視覺方案的基礎,小鵬和特斯拉在技術架構上都采用了BEV(鳥瞰視角)+Transformer的方案,即先把多路攝像頭的畫面融合成一個從俯視角度理解的三維空間,再在此基礎上做決策,不過兩者在細節實現上存在差異。
特斯拉長期使用8顆攝像頭實現車身360度覆蓋,輸入分辨率在AI4硬件上達36Hz全分辨率。占用網絡的體素判斷讓系統不依賴事先定義的白名單來辨認障礙物,通用性很強。
小鵬在感知精度上則做了有針對性的強化,其AI鷹眼視覺方案采用Lofic技術攝像頭,能在暗光、逆光等場景獲得更清晰的成像。它量產的2K純視覺占用網絡用超過200萬個網格重構三維空間,建模精度達5立方厘米/體素。相比特斯拉當前約30厘米的體素分辨率,小鵬在感知細節上更加精細,可以區分道路上的裂縫和坑洼。
![]()
圖片源自:網絡
此外,小鵬的XNet架構整合了動態BEV、靜態BEV和占用網絡三套體系,在統一的框架下同時處理運動物體的預測、靜態環境的結構理解和空間的占位判斷。相比之下,特斯拉的動態物體預測和靜態占用判斷分別由占用網絡內部的不同輸出維度承擔,并非三套獨立網絡,但在功能覆蓋面上大致對應。
數據驅動的兩種策略
數據和算力是純視覺方案的生命線,所有技術架構的差異最終都要靠數據來體現效果。
特斯拉的優勢在于數據規模,截至2024年底,FSD累計行駛里程已超過20億公里,遠高于同類系統。它的車隊在全球多個地區行駛,能接觸到差異化的交通環境和邊緣場景。
在訓練策略上,特斯拉近年做了重要調整,它構建了一個云端世界模型來批量生成合成駕駛數據,再將合成數據與一定比例的真實道路數據混合,用于訓練新的FSD模型。這種做法能快速覆蓋現實中難以遇到的極端天氣、罕見事故形態等長尾場景,也為后續AI5/AI6芯片實現訓練與推理一體化的分布式計算平臺提供了支撐。
![]()
圖片源自:網絡
小鵬的累積里程則相對較少,但迭代速度很快,依賴折算超過10億公里的視頻訓練數據,它的端到端模型能做到約2天迭代一次。第二代VLA的視覺數據總量約50PB,每秒處理約53億字節的信息。
有一點需要提一下的是,小鵬的模型專注于中國道路場景,對人車混行、非機動車穿行、狹窄街道等復雜路況有更深度的訓練覆蓋。實際路測顯示,第二代VLA在窄路、復雜博弈等中國特有場景下的穩定性和處理能力已展現出局部優勢。
相比之下,特斯拉盡管在上海建有數據中心,但核心算法仍由北美團隊主導,在中國開放的實際迭代速度落后于北美版本,在面對外賣騎手穿行、復雜混合車道等場景時還存在適應性不足的問題。
最后的話
概括下這兩家純視覺方案的區別,特斯拉是一個高度一體化的神經網絡,用海量的全球化數據和極簡的架構來讓模型自己學會駕駛,世界模型內嵌于神經網絡的權重之中;小鵬則是從模塊化出發逐步收斂到更統一的架構,在感知精度上做得更精細,并以中國道路的復雜場景為核心進行深度優化,同時試圖把世界模型打造成一個可復用的通用能力層。兩條路線在技術底層上正在趨近,但架構上仍然各具特色。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.