網易首頁 > 網易號 > 正文申請入駐

理想發布MindVLA-o1：一個模型，如何真正理解3D世界？

2026-03-24 11:47:48　來源: 連線Insight

上海舉報

分享至

文/熊逾格

編輯/子夜

3月17日，NVIDIA GTC 2026大會，理想汽車基座模型負責人詹錕發表演講，發布了下一代自動駕駛基礎模型MindVLA-o1。

18日，理想汽車董事長兼CEO李想在B站發布了其與基座模型負責人詹錕的對話，對MindVLA-o1進行了進一步的解讀。

這是一個將視覺、語言與行動統一進同一架構的原生多模態模型，采用多模態MoE Transformer架構，融合3D視覺編碼、世界模型與推理能力。

理想給出MindVLA-o1的能力：讓自動駕駛看得更遠、想得更深、行得更穩、進化更快、部署更高效。

作為一個VLA（Vision-Language-Action Model）模型，MindVLA-o1帶來的想象空間格外大。

“當視覺、語言和行動統一到一個模型中時，它不再只是自動駕駛模型，而是在逐漸演化為面向物理世界的通用智能體。基于同一套VLA模型，不僅可以控制車輛，也能夠擴展到機器人。”詹錕在GTC上總結。

聚光燈下，理想朝著具身智能企業又邁進了一步。

1、感知、思考與行為，通往物理AI的三把鑰匙

要理解MindVLA-o1，需要先理解當下自動駕駛主流技術的問題。

最初，智駕技術的邏輯相當“樸素”。工程師給駕駛系統寫清楚規則，遇到不同的路況執行不同規則，再配上一張把每條路都畫清楚的高精地圖——但規則無窮無盡，永遠會有下一個“例外”。

2021年前后，自動駕駛行業第一場技術轉型開始：工程師直接把大量人類駕駛數據喂給模型，讓模型自己學習。端到端模型輸入視覺信號，輸出實際操作，直接學習人類駕駛行為。

這恰好也符合行業的直覺，越多的駕駛數據，效果越好，數據價值得到強調。

正是從這一年，理想開始自研輔助駕駛，并在2024年轉向端到端模型，但這條路走到2025年，理想發現，當訓練數據到達更大規模，天花板逐漸浮現。

理想透露，當訓練數據積累到1000萬條Clips之后，公司研發團隊等了5個月，模型平均接管里程只增長了2倍左右，遠低于預期。

李想曾對端到端模型打了個不客氣的比喻：“猴子開車”——端到端的本質是模仿學習，模型能學會開車的動作，但永遠不理解物理世界。

沒有因果推理，模型無法理解違反常理的行為；沒有深度思考，只憑模式匹配無法進行復雜決策；安全意識不足，遇到復雜場景無法進行預防性判斷。

“今天無論是具身的AI在工作，在訓練，都是看著2D視頻。但這并不是人類在物理世界真正的工作方式。”李想解釋，“大部分搞模型的，都想直接做成年以后要做的事，拼命訓練。但0-6歲孩子最重要的訓練空間、訓練能力，根本沒解決。”

人類在童年建立起對世界認知，在三維空間跌倒再爬起，通過真實的感知和反饋，校準對距離和速度的判斷。而AI跳過了這個階段，無論如何學不會理解“開車”。

這是VLA出現的背景。感知、思考與行為，從架構設計之初，三種模態就被放入同一表示空間中進行統一訓練。

2025年8月，理想隨理想i8交付推出全球首個量產上車的VLA司機大模型。而MindVLA-o1是在其基礎上的最新成果。

MindVLA-o1核心設計 ，圖源GTC演講

這一次更新，整個架構基于MoE（混合專家架構），在擴大模型容量的同時控制激活參數規模，被重新設計為三層：

首先是感知層。

理想設計了自監督的3D ViT（3D Vision Transformer，三維視覺轉換器）視覺編碼器。訓練時同時引入視覺與LiDAR（激光探測與測距）兩路數據——前者提供豐富的語義信息，后者提供準確的三維幾何結構，讓模型在同一表示空間中同時學習幾何與語義。

自監督3D視覺編碼器架構，圖源GTC演講

為進一步提升場景理解能力，訓練中還引入了前饋式3DGS（3D Gaussian Splatting，三維高斯潑濺）場景表示：系統將場景分解為靜態環境與動態物體分別建模，以“下一狀態預測”作為自監督信號，驅動模型同時學習深度信息、語義結構與物體運動。

最終得到的3D ViT表示融合了空間結構與時間上下文信息，為后續的思考與行動層提供高質量的三維世界表示。

針對3D感知，訓練數據配比也完成重構，大量融入3D數據和自動駕駛圖文數據，主動壓縮文史類數據比例，并加入未來幀預測生成和稠密深度預測任務，專門激發模型對3D空間的理解與推理能力。

其次是思考層。

思考層由三個相互配合的機制構成：顯式推理、未來預測和快慢思考協同。

語言模型引入了 System-2式（慢思考系統）的顯式推理機制——區別于直覺式的快速反應，模型能在復雜場景中進行更深入的分析與決策。

在此基礎上，模型還內嵌了Predictive Latent World Model（預測式隱世界模型），讓自動駕駛不只理解“當前發生了什么”，還能模擬“接下來會發生什么”。

由于直接生成未來圖像的計算成本過高，理想選擇在Latent Space（隱空間）中完成預測：系統首先將當前視覺輸入編碼為一組Latent Tokens（隱變量令牌），作為場景的緊湊表示，再由世界模型基于這些令牌推演未來狀態。

預測式隱世界模型架構，圖源GTC演講

這套世界模型經歷了三階段訓練：第一階段用海量視頻打底，讓模型學會在隱空間里表征未來；第二階段在MindVLA-o1框架內強化未來推演能力；第三階段則將世界模型、多模態推理與駕駛行為三者拉到同一目標下聯合優化。

快慢思考機制也被整合進同一模型：簡單場景下，模型直接輸出Action Token（動作令牌），不走推理鏈；復雜場景下，先經過一段固定簡短的CoT（思維鏈）模板，再輸出動作。

在效率設計上，針對思維鏈采用小詞表加投機推理大幅提速；動作令牌在同一Transformer內以雙向注意力機制一次性并行輸出，思維鏈推理則在因果注意力機制下逐字解碼，兩者并存于同一模型中。

最后是行動層。

行動層采用三層遞進設計：Action Expert（動作專家模塊）負責生成軌跡，Parallel Decoding（并行解碼）保證輸出速度，Discrete Diffusion Refinement（離散擴散優化）負責精修質量。

統一行為生成架構，圖源GTC演講

具體來看，Action Expert從3D場景特征、導航目標、駕駛指令中提取關鍵信息，結合多模態推理生成初始駕駛軌跡。軌跡生成后，Parallel Decoding讓所有軌跡點同時輸出，而非逐點生成，在長序列軌跡預測場景中，效率優勢尤為突出。

Discrete Diffusion Refinement隨后對并行生成的軌跡進行多輪迭代優化，類似逐步去噪，最終使軌跡在空間上連續、時間上穩定，并滿足車輛動力學約束——整個Diffusion（擴散）過程通過ODE（常微分方程）采樣器壓縮至2-3步完成。

Diffusion模型還同時預測自車與周圍車輛、行人的軌跡，通過聯合建模提升復雜交通場景中的博弈能力。對于仍存在偏差的長尾工況，則通過RLHF（基于人類反饋的強化學習）加以修正：篩選大量接管數據建立人類偏好數據集，微調模型的采樣過程，使其逐步對齊人類駕駛行為，安全下限隨偏好數據的積累持續提升。

從看得到，到想得到，再到做得到，這是一場從感知層開始的重建，最終落地于行動層的執行，形成一個完整的閉環。但對于實際應用來說，這還遠遠不是終點。

2、從學術到落地，理想如何跑通？

一套方案能夠在實驗室里跑通，和能裝進量產車里落地，是兩件完全不同的事。

MindVLA-o1面對的第一個挑戰，是難以避免的算力難題。

模型搭載的3D ViT編碼器，復雜度遠遠超過主流的“2D方案”，對端側算力提出更高的要求。

李想與詹錕談論馬赫100芯片，圖源GTC演講

理想的解法是一顆自研芯片“馬赫100”。

它是中國首個采用數據流原生架構的車規級5納米芯片，天然適配AI推理計算。在標準的大規模矩陣乘計算任務上，馬赫100性能較上一代提升約3倍；兩顆馬赫100實際運行VLA大模型時的有效算力，是英偉達Thor-U的5到6倍。

在馬赫100上，理想成功部署參數規模達上一代6倍、計算量提升10倍的VLA模型，實現運行幀率更高，推理速度更快，從傳感器輸入到車輛執行輸出，整體延時僅200到300毫秒。

此外，馬赫100還取消了上一代XCU控制器，聯合星環OS整合替代，單顆BOM成本大幅低于外購方案。

解決了算力難題，訓練成本問題成了第二個“攔路虎”。

3D ViT要大規模預訓練，強化學習要在仿真環境里反復迭代。傳統的逐步優化式重建太慢，無法支撐大規模并行訓練。

為此，理想與NVIDIA團隊共建了3D Gaussian Splatting渲染引擎及分布式訓練框架，渲染速度提升近2倍，整體訓練成本降低約75%。

在這個過程中，理想的世界模擬器也升級為前饋式場景重建，可以瞬時生成大規模高保真駕駛場景，模擬環境還能擴展、編輯和生成新場景，不只是復現真實世界。

最后的難題，落在車端的部署。

高精度的模型跑不進車端，能跑進去的精度又不夠。為了讓模型匹配車端，傳統做法是大量實驗反復調整模型結構，但這通常需要數月時間。

為了達到更高的效率，理想一方面在模型上通過Sparse Attention（稀疏注意力）機制，進一步提升稀疏化率，保障端側實時推理效率。

另一方面提出了軟硬件協同設計定律：

結合Roofline模型刻畫硬件計算能力和內存帶寬的限制，在模型性能與硬件約束之間建立統一的分析框架，在約2000種架構配置里尋找精度與推理延遲的最優解。

經過實驗得出的最終結論相當“反直覺”：算力受限的條件下，“更寬更淺”的模型比“更深”的模型更高效。

憑借這一成果，理想將架構探索時間從數月縮短至幾天。

三道大山一一翻過去，VLA模型帶來的變化肉眼可見。

例如，今年1月理想更新的OTA 8.2車機系統，在世界模型中加入了毫秒級方向盤和電門動作數據，讓VLA進行行為強化學習——橫縱向控制不再機械跟隨預設參數，基于對當前場景的綜合理解動態輸出。

在人車混行路段、小路通行、窄路會車等七個典型城區場景里，它的表現格外突出：例如，在人車混行路段，車輛實時預測行人和非機動車的運動意圖，橫向避讓與縱向調速同步規劃；在小路通行時，加減速更細膩，動靜態障礙物都能合理避讓；在窄路會車，車速和橫向位置自動調整，縱向減速平穩沒有頓挫。

MindVLA-o1模型通過自研語言指令理解環境語義，圖源GTC演講

在一般場景下，VLA能力也有更多變化。例如，語言指令可以直接改變駕駛行為，“開快點，我趕時間”這類說法，模型能夠理解并執行了。

據理想透露，截至2025年底，VLA月使用率80%，VLA指令使用次數1225.4萬次。用戶最常用的三個指令是左右變道、直行、加減速。

最終，降本、加速、算力，三點合力使得MindVLA-o1模型具備量產條件，而不是停留在紙面。

3、結語

在GTC上，MindVLA-o1的一個演示片段，無關自動駕駛，而是駕馭一條機械臂，輕輕拿起一瓶養樂多，倒進桌上的杯子里。

MindVLA-o1模型的三個不同演示場景，圖源GTC演講

為什么一個為自動駕駛設計的模型，能夠操作機械臂？

理想的解釋是，同一套VLA模型可以驅動不同形態的物理智能體，自動駕駛與機器人控制共用同一套模型與數據體系。不同執行器，本質上對這套模型來說卻是同一類問題——理解環境、推理意圖、生成動作序列。

截至2025年11月，理想一共累計近15億公里的駕駛數據。

如果我們進一步深思，就會發現這樣的邏輯：理想正在用大規模的駕駛數據，做通用物理AI的預訓練。

短短數年，當人們再次審視理想這家公司，不難發現它已經在通往具身智能的路上走了相當遠。

2025年，理想研發投入113億元，AI相關占比50%；2026年1月，理想將研發團隊按“造硅基人”的邏輯重構為四大體系——臟器、腦、軟件、硬件；2026年Q2，馬赫100將完成量產上車。

“人工智能就是在造人。Agent是數字化的人，具身是物理化的人，只是它是硅基的人，不是我們碳基的。”李想稱，L4自動駕駛的汽車，會是生活中一個最重要的硅基人。

他表示，未來3到5年中高端汽車的競爭，本質上是具身智能的競爭。過去，從功能機到智能手機的演進，來自芯片和操作系統的改變，而在具身智能時代，改變對應的是芯片和模型的Co-Design。

這份認知驅動著理想，從2022年自研芯片，到2023年構建基座模型，一步步將能力向底層收攏。

如今，理想已經搭建起一套從算力、感知到決策的完整體系，其定位也從“造車公司”，轉向“以汽車為載體的物理AI公司”。汽車不再只是產品，而是規模化落地與持續訓練的現實世界接口。

因此，MindVLA-o1的意義，遠不止性能提升。它標志著一種范式的轉變：模型開始真正進入三維世界，從對輸入的被動響應，轉向對環境的主動建模與推演。

自動駕駛的邊界正在變得模糊，跨越界線，理想的物理AI之路，或許才剛剛開始。

（本文頭圖來源于理想汽車官網。）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

連線Insight

產業升級創新者的聚集地。

1735文章數 1502關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

家居

旅游

手機

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

理想發布MindVLA-o1：一個模型，如何真正理解3D世界？

馬斯克說會談很順利 黃仁勛點贊 庫克比耶

媒體：中美元首會晤 世界吃下一顆“定心丸”

媒體：中美元首會晤 世界吃下一顆“定心丸”

登海報！哈登30+8+6創多項紀錄 第8次贏天王山

肖戰提名金海燕獎，這一步走得太穩

習近平同美國總統特朗普會談

C級純電轎跑 吉利銀河"TT"申報圖來了

態度原創

充滿光感的花卉油畫 | 亞歷山大·沙巴德伊

精神奢享 對話塔尖需求

摩旅自駕必穿，它就是中國東海岸一號公路?，隨處可見震撼的山海

盧偉冰揭秘全新Xiaomi 17 Max樣片彩蛋：三張樣片“一脈同源”

馬斯克說會談很順利黃仁勛點贊庫克比耶

媒體：中美元首會晤世界吃下一顆“定心丸”

媒體：中美元首會晤世界吃下一顆“定心丸”

登海報！哈登30+8+6創多項紀錄第8次贏天王山

C級純電轎跑吉利銀河"TT"申報圖來了

精神奢享對話塔尖需求