5月26日消息,小米技術官方宣布小米汽車正式推出Xiaomi Auto World Model全新框架,將三維重建與視頻生成深度耦合,為業界輔助駕駛世界模型提供了新的整合路徑。
這一框架打破了行業長期將重建與生成獨立拆分的做法,在Waymo、nuScenes等主流基準測試中全面取得SOTA,并已在小米汽車合成數據、仿真測試、智能座艙三大核心場景完成落地。
世界模型本質上是為智能駕駛構建一個可預測、可推理的“數字平行世界”。行業此前存在兩條主要技術路線:重建路線(WorldRec)從多視角觀測恢復幾何精確的3D場景,高保真但只能還原已見內容,缺乏想象能力;生成路線(WorldGen)通過擴散模型直接預測未來畫面,能“想象”未觀測視角,但缺乏顯式3D結構,長時序下容易漂移失真。
小米的方案讓二者深度耦合:重建模塊提供3D幾何結構化錨點約束生成穩定性,生成模塊將預測能力延伸到觀測之外彌補重建邊界,形成閉環互相增益。
技術指標上,重建模塊WorldRec采用稀疏三維錨點表征,替代傳統逐像素稠密高斯方法,10秒視頻重建僅需10秒。生成模塊WorldGen經兩階段訓練(全雙向時序注意力預訓練加因果微調與蒸餾加速),僅需4步去噪、0.19秒生成一幀,支持最長1分鐘視頻,可模擬罕見動物闖入、極端天氣等長尾場景。
在Waymo數據集上重建精度PSNR達28.48,超越此前最佳方法;nuScenes上生成質量FVD達64.97,單視角生成速度較同類自回歸方法快約5.6倍。
落地方面,已交付超過10萬clips高質量合成數據用于感知模型訓練;仿真測試可在系統中復現真實事故進行定向優化;輔助駕駛學堂已上線全車型實景模擬功能,可動態生成第一人稱駕駛教學視頻。
行業趨勢上,如果說2025年的技術熱詞是“端到端”,2026年的焦點就是“世界模型”。傳統端到端模型通過感知輸入直出軌跡,實現“直覺”式反應,但世界模型能理解物理規律和因果關系,預測未來狀態變化。
英偉達副總裁吳新宙在2026北京車展上表示,世界模型是自動駕駛最本質的一環,會與VLA(視覺語言行動模型)在高階輔助駕駛階段深度融合。清華大學鄧志東教授也指出,未來智駕系統將是“世界模型為底、VLA為表”的融合架構。
不過,世界模型并非沒有瓶頸。技術路線上,行業仍分為VLA與世界模型兩大陣營,2026年3月英偉達GTC大會上分歧已公開激化。
算力架構上,世界模型的核心是DiT架構,而市面上幾乎沒有為DiT量身定制的芯片,傳統TOPS算力指標正在失效。
量產上,世界模型加擴散動作專家路線目前還沒有量產上車的案例,商業化落地時間可能比預期更長。
從公開投訴信息來看,小米SU7智駕系統在實際使用中的可靠性仍有提升空間。車質網、中國投訴平臺等多起投訴顯示,AEB自動緊急制動系統無故觸發且無預警驟停、輔助駕駛限速識別錯亂并超速行駛、高速NOA狀態下無故緊急變道避險等問題均有車主反映。
2025年9月,小米因部分車輛L2高速領航輔助駕駛功能在極端特殊場景下識別、預警或處置不足存在安全隱患,召回約11.7萬輛SU7,通過OTA升級解決。2025年1月,湖北高速還發生一起端到端智駕模式下AEB未及時介入致追尾事故的案例。這些事故和安全事件反映出,世界模型能否切實改善實際道路上的安全性,仍需后續實車驗證。
總體而言,小米的一體化框架為世界模型技術路徑提供了新的參考樣本,三項SOTA指標和三項業務落地在行業內具有一定示范性。但行業共識正在形成:物理世界的基座模型是趨勢,融合架構才是終局,單點技術突破仍需經得起時間檢驗和實際道路考驗。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.