網易首頁 > 網易號 > 正文申請入駐

小米汽車發布世界模型新框架融合重建與生成

2026-05-27 12:45:25　來源: i黑馬

北京舉報

分享至

5月26日消息，小米技術官方宣布小米汽車正式推出Xiaomi Auto World Model全新框架，將三維重建與視頻生成深度耦合，為業界輔助駕駛世界模型提供了新的整合路徑。

這一框架打破了行業長期將重建與生成獨立拆分的做法，在Waymo、nuScenes等主流基準測試中全面取得SOTA，并已在小米汽車合成數據、仿真測試、智能座艙三大核心場景完成落地。

世界模型本質上是為智能駕駛構建一個可預測、可推理的“數字平行世界”。行業此前存在兩條主要技術路線：重建路線（WorldRec）從多視角觀測恢復幾何精確的3D場景，高保真但只能還原已見內容，缺乏想象能力；生成路線（WorldGen）通過擴散模型直接預測未來畫面，能“想象”未觀測視角，但缺乏顯式3D結構，長時序下容易漂移失真。

小米的方案讓二者深度耦合：重建模塊提供3D幾何結構化錨點約束生成穩定性，生成模塊將預測能力延伸到觀測之外彌補重建邊界，形成閉環互相增益。

技術指標上，重建模塊WorldRec采用稀疏三維錨點表征，替代傳統逐像素稠密高斯方法，10秒視頻重建僅需10秒。生成模塊WorldGen經兩階段訓練（全雙向時序注意力預訓練加因果微調與蒸餾加速），僅需4步去噪、0.19秒生成一幀，支持最長1分鐘視頻，可模擬罕見動物闖入、極端天氣等長尾場景。

在Waymo數據集上重建精度PSNR達28.48，超越此前最佳方法；nuScenes上生成質量FVD達64.97，單視角生成速度較同類自回歸方法快約5.6倍。

落地方面，已交付超過10萬clips高質量合成數據用于感知模型訓練；仿真測試可在系統中復現真實事故進行定向優化；輔助駕駛學堂已上線全車型實景模擬功能，可動態生成第一人稱駕駛教學視頻。

行業趨勢上，如果說2025年的技術熱詞是“端到端”，2026年的焦點就是“世界模型”。傳統端到端模型通過感知輸入直出軌跡，實現“直覺”式反應，但世界模型能理解物理規律和因果關系，預測未來狀態變化。

英偉達副總裁吳新宙在2026北京車展上表示，世界模型是自動駕駛最本質的一環，會與VLA（視覺語言行動模型）在高階輔助駕駛階段深度融合。清華大學鄧志東教授也指出，未來智駕系統將是“世界模型為底、VLA為表”的融合架構。

不過，世界模型并非沒有瓶頸。技術路線上，行業仍分為VLA與世界模型兩大陣營，2026年3月英偉達GTC大會上分歧已公開激化。

算力架構上，世界模型的核心是DiT架構，而市面上幾乎沒有為DiT量身定制的芯片，傳統TOPS算力指標正在失效。

量產上，世界模型加擴散動作專家路線目前還沒有量產上車的案例，商業化落地時間可能比預期更長。

從公開投訴信息來看，小米SU7智駕系統在實際使用中的可靠性仍有提升空間。車質網、中國投訴平臺等多起投訴顯示，AEB自動緊急制動系統無故觸發且無預警驟停、輔助駕駛限速識別錯亂并超速行駛、高速NOA狀態下無故緊急變道避險等問題均有車主反映。

2025年9月，小米因部分車輛L2高速領航輔助駕駛功能在極端特殊場景下識別、預警或處置不足存在安全隱患，召回約11.7萬輛SU7，通過OTA升級解決。2025年1月，湖北高速還發生一起端到端智駕模式下AEB未及時介入致追尾事故的案例。這些事故和安全事件反映出，世界模型能否切實改善實際道路上的安全性，仍需后續實車驗證。

總體而言，小米的一體化框架為世界模型技術路徑提供了新的參考樣本，三項SOTA指標和三項業務落地在行業內具有一定示范性。但行業共識正在形成：物理世界的基座模型是趨勢，融合架構才是終局，單點技術突破仍需經得起時間檢驗和實際道路考驗。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.