[首發于智駕最前沿微信公眾號]自動駕駛行業在經歷了規則驅動、模仿學習兩個階段之后,正在集體轉向一個關鍵方向,即讓AI理解物理世界本身的運行規律。這個方向在業內被稱為世界模型,它不再只是讓模型看到什么就反應什么,而是要求模型能夠在內部對場景進行推演,回答如果我這樣做,接下來會發生什么這類因果性問題。
2025年10月,特斯拉AI部門副總裁Ashok Elluswamy在計算機視覺頂會ICCV上詳細介紹了FSD的技術框架,多攝像頭圖像、導航地圖、車輛運動信息和音頻信號被輸入一個統一的端到端神經網絡,經海量數據訓練后直接輸出控制信號。Elluswamy明確指出端到端AI才是自動駕駛的未來,并首次公開了特斯拉的神經世界模擬器,該模擬器不預測動作,而是根據當前狀態與下一步動作來合成未來狀態,從而與車端模型形成閉環評估。
幾乎在同一時期,華為、蔚來、Momenta、輕舟智航、地平線、商湯絕影、Wayve等企業先后亮出了各自的世界模型方案。雖然大家把這項技術都叫世界模型,但具體怎么用、放在哪里、解什么問題,各家差異相當大。
世界模型到底是個什么思路?
要理解各家對于世界模型應用的差異,得先把世界模型的底層邏輯搞清楚。
傳統自動駕駛系統采用感知、預測、規劃、控制的級聯架構,每一環都依賴人類工程師定義的規則或標注數據來銜接。這一方案存在一個問題,那就是這些中間環節之間的信息傳遞是有損耗的,上游漏掉的東西下游無法補救。Elluswamy在ICCV演講中明確提出,模塊化方法中感知、預測和規劃之間的接口定義不明確,而在端到端架構中,梯度從控制一直流向傳感器輸入,可以整體優化整個網絡。
世界模型則嘗試在模型內部建立一個對外部環境的壓縮表示,這個表示不但包含了空間幾何和語義信息,還編碼了因果上下文。在這個內部表示空間中,模型能夠根據候選動作推演未來的場景演化,其中不只是會預測將會發生什么,還能做到如果我采取這個動作,其他交通參與者會如何反應這類的判斷,這意味著模型具備了在決策之前預演的能力。
![]()
圖片源自:網絡
需要說明的是,世界模型與端到端并不是互斥概念。卓馭科技首席科學家陳曉智在2025年云棲大會上專門強調,世界模型、VLA、一段式端到端等概念并非互斥的技術路線。實際上,當前多數企業的做法是將世界模型的能力嵌入到一個更大的技術體系中,有的側重云端仿真,有的側重車端推理。
世界模型一般會覆蓋3類任務,即未來物理世界生成、行為規劃與決策、聯合預測與規劃。在實際落地中,有的企業側重云端的數據生成和仿真訓練,有的將世界模型部署到車端參與實時推理,還有的專門用它來做安全評估和驗證。
AI駕校還是隨車大腦,云端與車端的路線區分
雖然很多企業都在研究世界模型,但各家對世界模型的部署位置和功能定位存在分歧,這也反映了不同的技術判斷,即是讓世界模型在云端做好幕后工作,還是把它直接裝進車端參與毫秒級的實時決策。
華為乾崑智駕的WEWA架構是云車分工的代表。2025年底,華為智能汽車解決方案BU CEO靳玉志詳細介紹了這一架構,它包含云端運行的World Engine(世界引擎)和車端運行的World Action Model(世界行為模型)兩個核心部分。
![]()
WEWA架構,圖片源自:網絡
世界引擎被定位為云端駕校,它基于真實道路數據,通過擴散生成模型構建難例場景,如一段原本空曠的道路可以在仿真中疊加突然竄出的行人、側前車Cut-in、前車急剎等組合工況,難例密度相比真實世界提高1000倍,且所有模擬都遵循物理世界規律。
車端的世界行為模型則是業內首個智駕原生基模型,具有全模態感知能力,能根據不同場景調用不同能力,ADS 4(參數丨圖片)系統采用該架構后端到端時延降低50%,通行效率提升20%,重剎率降低30%。
特斯拉的做法在理念上與華為有相似之處,但實現路徑更激進。Elluswamy透露,特斯拉FSD架構面臨維度災難,以7個攝像頭×36FPS×500萬像素×30秒的視覺輸入,加上導航地圖和運動數據,綜合起來約有20億個輸入token,神經網絡需要將這20億個token精簡為2個輸出(轉向和加速)。
![]()
圖片源自:網絡
特斯拉的解法是利用海量車隊數據從中總結出關鍵token,通過稀疏化和聚合保留最有用的信息。在仿真側,特斯拉開發了神經世界模擬器,基于自建海量數據集訓練,能夠根據當前狀態與下一步動作生成未來狀態,與車端的端到端基礎模型構成閉環,既用于評估也用于強化學習訓練。該模擬器還能讓AI在一天內學習相當于人類500年駕駛經驗。
蔚來的NWM(NIO World Model)則將重心放在車端實時推演上。2025年5月,蔚來自主研發的NWM首個版本正式啟動推送,覆蓋超過40萬臺搭載Banyan榕智能系統的車型。NWM是一個多元自回歸生成式模型,具備空間理解能力和時間理解能力,空間上通過生成模型重構傳感器輸入來泛化地抽取信息,時間上通過自回歸模型自動建模長時序環境變化。
![]()
圖片源自:網絡
它能在100毫秒內推演出216種可能軌跡并尋找最優路徑,然后在下一個100毫秒繼續根據外界信息輸入更新內部模型,再次預測216種可能性,持續尋找最優解。NWM之外,蔚來還構建了生成式仿真模型NSim,兩者配合組成閉環仿真測試能力。
Momenta的R7強化學習世界模型則采用三層遞進架構。據Momenta合伙人、研發SVP夏炎介紹,第一層是世界模型預訓練,通過海量真實駕駛數據讓模型習得物理常識;第二層是閉環仿真,通過虛擬仿真推演極端場景;第三層是強化學習,在高度擬真環境中讓AI反復試錯尋優。
Momenta CEO曹旭東在2026年北京車展上宣布R7實現量產首發,提出世界模型與強化學習構成物理AI的兩大核心支柱。這種分層設計把物理常識學習和駕駛行為優化解耦開來,預訓練負責懂物理,強化學習負責開得好。
輕舟智航則采用VLA+世界模型+強化學習的統一架構,并明確提出了安全的端到端理念,即將已得到量產驗證的時空聯合規劃經驗融入One Model設計中,同時在離線訓練階段構建基于運動模擬的世界模型。其運動模擬世界模型的特點是生成的仿真視頻更加可控,能保證時序、空間位置、物體幾何、物理規則的一致性和正確性,這一點與傳統世界模型側重生成視覺逼真度有所不同。
訓練伙伴還是安全考官?
在云端應用層面,各企業對世界模型的功能定位同樣分化出了不同方向。
商湯絕影的絕影開悟世界模型側重生成能力。商湯絕影CEO王曉剛在2025年9月提出,智能駕駛正從規則式智駕1.0、經端到端智駕2.0,邁入生成式智駕3.0階段。在2025年WAIC上,商湯絕影全新升級了行業首個已量產、可交互的“絕影開悟”世界模型,發布了生成式世界模型產品平臺及業內最大規模的生成式駕駛數據集WorldSim-Drive。王曉剛將世界模型的價值概括為三個突破,即突破數據瓶頸(生成無限長尾場景)、確立更確定的技術安全邊界(在仿真中不斷嘗試)、通過自主進化達到超越人類駕駛的體驗。
![]()
圖片源自:網絡
Wayve的GAIA-3則走了一條與眾不同的路,它把世界模型定位成安全考官。2025年12月,Wayve正式發布GAIA-3,一個參數規模達150億的生成式世界模型,規模是前代GAIA-2的兩倍,視頻分詞器同樣翻倍,預訓練數據量提升十倍,覆蓋多個大洲、車型、環境與駕駛條件。
GAIA-3具備安全關鍵場景生成能力,可支持離線環境下的what-if反事實推理測試,并具備embodiment transfer功能,能在不同傳感器配置間做一致性評估。Wayve首席科學家Jamie Shotton表示,GAIA-3將世界建模從視覺合成推進到真正的自動駕駛評估與驗證。早期研究顯示,GAIA-3的仿真測試結果與實際路測高度一致,并將合成測試的拒絕率降低了五分之四。這一思路把生成和評測合并進了同一個世界模型框架,讓安全驗證不再依賴有限的實際路測里程。
學術界的探索也在推動世界模型的通用化。中科院自動化所提出的Drive-WM是第一個與現有端到端規劃模型兼容的駕駛世界模型,論文發表于CVPR 2024。Drive-WM采用多視圖聯合時空建模,通過擴散模型生成高保真的多視圖駕駛視頻,并結合多視圖預測與端到端規劃,為規劃器提供獎懲反饋以優化軌跡選擇。卓馭科技在2025年底也首次對外發布了全新的多模態端到端世界模型,宣告其數據驅動的空間智能移動基座正式成型。
端到端里的世界模型與VLA,并行的技術判斷
在世界模型路線逐漸成型的同時,VLA(視覺—語言—動作模型)也在快速發展,行業圍繞兩條路線的關系產生了不少討論。
華為的立場很明確。WEWA架構中沒有引入語言模型作為中間層,而是讓世界行為模型直接處理多模態感知輸入并輸出駕駛動作。華為認為,在駕駛決策鏈中增加語言推理模塊會帶來信息損耗,真正的自動駕駛應該讓模型直接理解物理世界。
部分企業則走的是VLA與世界模型并行的路線。小鵬汽車在2025年4月披露了720億參數的小鵬世界基座模型,以大語言模型為骨架網絡,具備視覺理解能力、長思維鏈式推理能力和動作生成能力。小鵬的做法是通過基座模型知識蒸餾上車,突破車端模型參數量有限的問題。其技術路徑遵循世界模型理解—推演—生成的框架,模型在內部重構數字形式的物理世界,預測不同決策下環境的變化,選擇最優路徑后直接生成控制動作。這種方案試圖在世界模型的空間推理能力和語言模型的常識推理能力之間找到一個結合點。
![]()
圖片源自:網絡
地平線HSD則選擇了讓VLM(視覺語言模型)只承擔輔助性角色,僅用于識別路牌等文字信息,不通過大語言模型來理解交通狀況本身,駕駛決策的主體仍然是端到端的視覺模型加上在世界模型中的強化學習。HSD采用一段式端到端+強化學習架構,實現從光子輸入到軌跡輸出,通過強化學習在世界模型中自我探索與交互,增強場景理解與推理能力。
值得留意的是,這種路線并行很可能只是過渡狀態。商湯絕影CEO王曉剛指出,端到端自動駕駛的瓶頸在于人類行為就是智能的天花板,同時依賴大量高質量數據,而世界模型和強化學習的組合有望突破這個上限。隨著世界模型在物理常識建模和因果推理能力上的提升,純視覺推演有望逐步覆蓋當前需要語言模型來補充的場景理解功能。反過來,如果大語言模型的多模態推理能力持續進化,也可能進一步模糊兩條路線的邊界。
繞開具體路線的爭論,行業在一個根本問題上其實是沒有分歧的,那就是讓AI真正懂得物理世界的規律,并在安全的虛擬環境里不斷試錯和成長,是通向高階自動駕駛繞不開的一步。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.