<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      理想發布MindVLA-o1:一個模型,如何真正理解3D世界?

      0
      分享至



      文/熊逾格

      編輯/子夜

      3月17日,NVIDIA GTC 2026大會,理想汽車基座模型負責人詹錕發表演講,發布了下一代自動駕駛基礎模型MindVLA-o1。

      18日,理想汽車董事長兼CEO李想在B站發布了其與基座模型負責人詹錕的對話,對MindVLA-o1進行了進一步的解讀。

      這是一個將視覺、語言與行動統一進同一架構的原生多模態模型,采用多模態MoE Transformer架構,融合3D視覺編碼、世界模型與推理能力。

      理想給出MindVLA-o1的能力:讓自動駕駛看得更遠、想得更深、行得更穩、進化更快、部署更高效。

      作為一個VLA(Vision-Language-Action Model)模型,MindVLA-o1帶來的想象空間格外大。

      “當視覺、語言和行動統一到一個模型中時,它不再只是自動駕駛模型,而是在逐漸演化為面向物理世界的通用智能體。基于同一套VLA模型,不僅可以控制車輛,也能夠擴展到機器人。”詹錕在GTC上總結。

      聚光燈下,理想朝著具身智能企業又邁進了一步。

      1、感知、思考與行為,通往物理AI的三把鑰匙

      要理解MindVLA-o1,需要先理解當下自動駕駛主流技術的問題。

      最初,智駕技術的邏輯相當“樸素”。工程師給駕駛系統寫清楚規則,遇到不同的路況執行不同規則,再配上一張把每條路都畫清楚的高精地圖——但規則無窮無盡,永遠會有下一個“例外”。

      2021年前后,自動駕駛行業第一場技術轉型開始:工程師直接把大量人類駕駛數據喂給模型,讓模型自己學習。端到端模型輸入視覺信號,輸出實際操作,直接學習人類駕駛行為。

      這恰好也符合行業的直覺,越多的駕駛數據,效果越好,數據價值得到強調。

      正是從這一年,理想開始自研輔助駕駛,并在2024年轉向端到端模型,但這條路走到2025年,理想發現,當訓練數據到達更大規模,天花板逐漸浮現。

      理想透露,當訓練數據積累到1000萬條Clips之后,公司研發團隊等了5個月,模型平均接管里程只增長了2倍左右,遠低于預期。

      李想曾對端到端模型打了個不客氣的比喻:“猴子開車”——端到端的本質是模仿學習,模型能學會開車的動作,但永遠不理解物理世界。

      沒有因果推理,模型無法理解違反常理的行為;沒有深度思考,只憑模式匹配無法進行復雜決策;安全意識不足,遇到復雜場景無法進行預防性判斷。

      “今天無論是具身的AI在工作,在訓練,都是看著2D視頻。但這并不是人類在物理世界真正的工作方式。”李想解釋,“大部分搞模型的,都想直接做成年以后要做的事,拼命訓練。但0-6歲孩子最重要的訓練空間、訓練能力,根本沒解決。”

      人類在童年建立起對世界認知,在三維空間跌倒再爬起,通過真實的感知和反饋,校準對距離和速度的判斷。而AI跳過了這個階段,無論如何學不會理解“開車”。

      這是VLA出現的背景。感知、思考與行為,從架構設計之初,三種模態就被放入同一表示空間中進行統一訓練。

      2025年8月,理想隨理想i8交付推出全球首個量產上車的VLA司機大模型。而MindVLA-o1是在其基礎上的最新成果。



      MindVLA-o1核心設計 ,圖源GTC演講

      這一次更新,整個架構基于MoE(混合專家架構),在擴大模型容量的同時控制激活參數規模,被重新設計為三層:

      首先是感知層。

      理想設計了自監督的3D ViT(3D Vision Transformer,三維視覺轉換器)視覺編碼器。訓練時同時引入視覺與LiDAR(激光探測與測距)兩路數據——前者提供豐富的語義信息,后者提供準確的三維幾何結構,讓模型在同一表示空間中同時學習幾何與語義。



      自監督3D視覺編碼器架構,圖源GTC演講

      為進一步提升場景理解能力,訓練中還引入了前饋式3DGS(3D Gaussian Splatting,三維高斯潑濺)場景表示:系統將場景分解為靜態環境與動態物體分別建模,以“下一狀態預測”作為自監督信號,驅動模型同時學習深度信息、語義結構與物體運動。

      最終得到的3D ViT表示融合了空間結構與時間上下文信息,為后續的思考與行動層提供高質量的三維世界表示。

      針對3D感知,訓練數據配比也完成重構,大量融入3D數據和自動駕駛圖文數據,主動壓縮文史類數據比例,并加入未來幀預測生成和稠密深度預測任務,專門激發模型對3D空間的理解與推理能力。

      其次是思考層。

      思考層由三個相互配合的機制構成:顯式推理、未來預測和快慢思考協同。

      語言模型引入了 System-2式(慢思考系統)的顯式推理機制——區別于直覺式的快速反應,模型能在復雜場景中進行更深入的分析與決策。

      在此基礎上,模型還內嵌了Predictive Latent World Model(預測式隱世界模型),讓自動駕駛不只理解“當前發生了什么”,還能模擬“接下來會發生什么”。

      由于直接生成未來圖像的計算成本過高,理想選擇在Latent Space(隱空間)中完成預測:系統首先將當前視覺輸入編碼為一組Latent Tokens(隱變量令牌),作為場景的緊湊表示,再由世界模型基于這些令牌推演未來狀態。



      預測式隱世界模型架構,圖源GTC演講

      這套世界模型經歷了三階段訓練:第一階段用海量視頻打底,讓模型學會在隱空間里表征未來;第二階段在MindVLA-o1框架內強化未來推演能力;第三階段則將世界模型、多模態推理與駕駛行為三者拉到同一目標下聯合優化。

      快慢思考機制也被整合進同一模型:簡單場景下,模型直接輸出Action Token(動作令牌),不走推理鏈;復雜場景下,先經過一段固定簡短的CoT(思維鏈)模板,再輸出動作。

      在效率設計上,針對思維鏈采用小詞表加投機推理大幅提速;動作令牌在同一Transformer內以雙向注意力機制一次性并行輸出,思維鏈推理則在因果注意力機制下逐字解碼,兩者并存于同一模型中。

      最后是行動層。

      行動層采用三層遞進設計:Action Expert(動作專家模塊)負責生成軌跡,Parallel Decoding(并行解碼)保證輸出速度,Discrete Diffusion Refinement(離散擴散優化)負責精修質量。



      統一行為生成架構,圖源GTC演講

      具體來看,Action Expert從3D場景特征、導航目標、駕駛指令中提取關鍵信息,結合多模態推理生成初始駕駛軌跡。軌跡生成后,Parallel Decoding讓所有軌跡點同時輸出,而非逐點生成,在長序列軌跡預測場景中,效率優勢尤為突出。

      Discrete Diffusion Refinement隨后對并行生成的軌跡進行多輪迭代優化,類似逐步去噪,最終使軌跡在空間上連續、時間上穩定,并滿足車輛動力學約束——整個Diffusion(擴散)過程通過ODE(常微分方程)采樣器壓縮至2-3步完成。

      Diffusion模型還同時預測自車與周圍車輛、行人的軌跡,通過聯合建模提升復雜交通場景中的博弈能力。對于仍存在偏差的長尾工況,則通過RLHF(基于人類反饋的強化學習)加以修正:篩選大量接管數據建立人類偏好數據集,微調模型的采樣過程,使其逐步對齊人類駕駛行為,安全下限隨偏好數據的積累持續提升。

      從看得到,到想得到,再到做得到,這是一場從感知層開始的重建,最終落地于行動層的執行,形成一個完整的閉環。但對于實際應用來說,這還遠遠不是終點。

      2、從學術到落地,理想如何跑通?

      一套方案能夠在實驗室里跑通,和能裝進量產車里落地,是兩件完全不同的事。

      MindVLA-o1面對的第一個挑戰,是難以避免的算力難題。

      模型搭載的3D ViT編碼器,復雜度遠遠超過主流的“2D方案”,對端側算力提出更高的要求。



      李想與詹錕談論馬赫100芯片,圖源GTC演講

      理想的解法是一顆自研芯片“馬赫100”。

      它是中國首個采用數據流原生架構的車規級5納米芯片,天然適配AI推理計算。在標準的大規模矩陣乘計算任務上,馬赫100性能較上一代提升約3倍;兩顆馬赫100實際運行VLA大模型時的有效算力,是英偉達Thor-U的5到6倍。

      在馬赫100上,理想成功部署參數規模達上一代6倍、計算量提升10倍的VLA模型,實現運行幀率更高,推理速度更快,從傳感器輸入到車輛執行輸出,整體延時僅200到300毫秒。

      此外,馬赫100還取消了上一代XCU控制器,聯合星環OS整合替代,單顆BOM成本大幅低于外購方案。

      解決了算力難題,訓練成本問題成了第二個“攔路虎”。

      3D ViT要大規模預訓練,強化學習要在仿真環境里反復迭代。傳統的逐步優化式重建太慢,無法支撐大規模并行訓練。

      為此,理想與NVIDIA團隊共建了3D Gaussian Splatting渲染引擎及分布式訓練框架,渲染速度提升近2倍,整體訓練成本降低約75%。

      在這個過程中,理想的世界模擬器也升級為前饋式場景重建,可以瞬時生成大規模高保真駕駛場景,模擬環境還能擴展、編輯和生成新場景,不只是復現真實世界。

      最后的難題,落在車端的部署。

      高精度的模型跑不進車端,能跑進去的精度又不夠。為了讓模型匹配車端,傳統做法是大量實驗反復調整模型結構,但這通常需要數月時間。

      為了達到更高的效率,理想一方面在模型上通過Sparse Attention(稀疏注意力)機制,進一步提升稀疏化率,保障端側實時推理效率。

      另一方面提出了軟硬件協同設計定律:

      結合Roofline模型刻畫硬件計算能力和內存帶寬的限制,在模型性能與硬件約束之間建立統一的分析框架,在約2000種架構配置里尋找精度與推理延遲的最優解。

      經過實驗得出的最終結論相當“反直覺”:算力受限的條件下,“更寬更淺”的模型比“更深”的模型更高效。

      憑借這一成果,理想將架構探索時間從數月縮短至幾天。

      三道大山一一翻過去,VLA模型帶來的變化肉眼可見。

      例如,今年1月理想更新的OTA 8.2車機系統,在世界模型中加入了毫秒級方向盤和電門動作數據,讓VLA進行行為強化學習——橫縱向控制不再機械跟隨預設參數,基于對當前場景的綜合理解動態輸出。

      在人車混行路段、小路通行、窄路會車等七個典型城區場景里,它的表現格外突出:例如,在人車混行路段,車輛實時預測行人和非機動車的運動意圖,橫向避讓與縱向調速同步規劃;在小路通行時,加減速更細膩,動靜態障礙物都能合理避讓;在窄路會車,車速和橫向位置自動調整,縱向減速平穩沒有頓挫。



      MindVLA-o1模型通過自研語言指令理解環境語義,圖源GTC演講

      在一般場景下,VLA能力也有更多變化。例如,語言指令可以直接改變駕駛行為,“開快點,我趕時間”這類說法,模型能夠理解并執行了。

      據理想透露,截至2025年底,VLA月使用率80%,VLA指令使用次數1225.4萬次。用戶最常用的三個指令是左右變道、直行、加減速。

      最終,降本、加速、算力,三點合力使得MindVLA-o1模型具備量產條件,而不是停留在紙面。

      3、結語

      在GTC上,MindVLA-o1的一個演示片段,無關自動駕駛,而是駕馭一條機械臂,輕輕拿起一瓶養樂多,倒進桌上的杯子里。



      MindVLA-o1模型的三個不同演示場景,圖源GTC演講

      為什么一個為自動駕駛設計的模型,能夠操作機械臂?

      理想的解釋是,同一套VLA模型可以驅動不同形態的物理智能體,自動駕駛與機器人控制共用同一套模型與數據體系。不同執行器,本質上對這套模型來說卻是同一類問題——理解環境、推理意圖、生成動作序列。

      截至2025年11月,理想一共累計近15億公里的駕駛數據。

      如果我們進一步深思,就會發現這樣的邏輯:理想正在用大規模的駕駛數據,做通用物理AI的預訓練。

      短短數年,當人們再次審視理想這家公司,不難發現它已經在通往具身智能的路上走了相當遠。

      2025年,理想研發投入113億元,AI相關占比50%;2026年1月,理想將研發團隊按“造硅基人”的邏輯重構為四大體系——臟器、腦、軟件、硬件;2026年Q2,馬赫100將完成量產上車。

      “人工智能就是在造人。Agent是數字化的人,具身是物理化的人,只是它是硅基的人,不是我們碳基的。”李想稱,L4自動駕駛的汽車,會是生活中一個最重要的硅基人。

      他表示,未來3到5年中高端汽車的競爭,本質上是具身智能的競爭。過去,從功能機到智能手機的演進,來自芯片和操作系統的改變,而在具身智能時代,改變對應的是芯片和模型的Co-Design。

      這份認知驅動著理想,從2022年自研芯片,到2023年構建基座模型,一步步將能力向底層收攏。

      如今,理想已經搭建起一套從算力、感知到決策的完整體系,其定位也從“造車公司”,轉向“以汽車為載體的物理AI公司”。汽車不再只是產品,而是規模化落地與持續訓練的現實世界接口。

      因此,MindVLA-o1的意義,遠不止性能提升。它標志著一種范式的轉變:模型開始真正進入三維世界,從對輸入的被動響應,轉向對環境的主動建模與推演。

      自動駕駛的邊界正在變得模糊,跨越界線,理想的物理AI之路,或許才剛剛開始。

      (本文頭圖來源于理想汽車官網。)

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      兩性關系:55-65歲這十年,惜命最好的方式,不是鍛煉,做好這6點

      兩性關系:55-65歲這十年,惜命最好的方式,不是鍛煉,做好這6點

      三農老歷
      2026-04-13 17:10:06
      民營:不能永遠帶著原罪的鐐銬前行

      民營:不能永遠帶著原罪的鐐銬前行

      生命可以承受之輕
      2026-05-12 08:50:45
      動真格了?國際足聯做出新決定,世界杯版權有轉機,央視下定決心

      動真格了?國際足聯做出新決定,世界杯版權有轉機,央視下定決心

      攬星河的筆記
      2026-05-13 17:35:03
      四級應急響應!江蘇,大暴雨要來了!

      四級應急響應!江蘇,大暴雨要來了!

      南通攻略
      2026-05-14 10:46:58
      德國巨頭懵了,壟斷全球幾十年的“菜刀之王”,被廣東小城掀翻

      德國巨頭懵了,壟斷全球幾十年的“菜刀之王”,被廣東小城掀翻

      毒sir財經
      2026-05-13 21:33:38
      日媒:三笘薰基本確定無法趕上今夏的世界杯賽事

      日媒:三笘薰基本確定無法趕上今夏的世界杯賽事

      懂球帝
      2026-05-13 23:30:14
      特朗普:今天的會談舉世矚目

      特朗普:今天的會談舉世矚目

      澎湃新聞
      2026-05-14 12:57:07
      這菜不起眼,卻是“補鉀高手”!夏天一周吃2次,強骨骼、解疲勞

      這菜不起眼,卻是“補鉀高手”!夏天一周吃2次,強骨骼、解疲勞

      阿龍美食記
      2026-05-12 15:57:38
      國際足聯妥協,世界杯轉播報價出爐,降價60%僅需8億,盼央視點頭

      國際足聯妥協,世界杯轉播報價出爐,降價60%僅需8億,盼央視點頭

      阿晞體育
      2026-05-14 13:41:58
      “骨盆前傾成這樣,還不去醫院?”家長曬一年級女兒體態,被群嘲

      “骨盆前傾成這樣,還不去醫院?”家長曬一年級女兒體態,被群嘲

      妍妍教育日記
      2026-04-24 11:15:25
      河南省兩區委書記調整

      河南省兩區委書記調整

      汲古知新
      2026-05-14 13:24:07
      馬斯克表示:他絕對能建造出比中國任何公共交通系統都更好的系統

      馬斯克表示:他絕對能建造出比中國任何公共交通系統都更好的系統

      華史談
      2026-04-14 13:00:13
      烏軍繳獲俄軍T-90M坦克,直接開進指揮部一鍋端!

      烏軍繳獲俄軍T-90M坦克,直接開進指揮部一鍋端!

      世界探索發現
      2026-05-14 11:10:30
      廣州的“強對流套餐”來了,地鐵會受影響嗎?

      廣州的“強對流套餐”來了,地鐵會受影響嗎?

      廣州地鐵
      2026-05-14 07:55:45
      布馮:當年買了輛保時捷但父親覺得張揚,不到一年我就賣了

      布馮:當年買了輛保時捷但父親覺得張揚,不到一年我就賣了

      懂球帝
      2026-05-14 09:57:48
      英如鏑直播怒斥巴圖:改名宋驍,半年不回私信想當大伯?

      英如鏑直播怒斥巴圖:改名宋驍,半年不回私信想當大伯?

      陳意小可愛
      2026-05-12 09:28:38
      當年千手觀音的聾啞人領舞,被富商苦追8年,如今她成了這副模樣

      當年千手觀音的聾啞人領舞,被富商苦追8年,如今她成了這副模樣

      混沌錄
      2026-05-12 23:09:07
      宋佳調侃張嘉益:為何不推薦我試鏡《主角》? 張嘉益回復全場笑翻

      宋佳調侃張嘉益:為何不推薦我試鏡《主角》? 張嘉益回復全場笑翻

      娛最資訊
      2026-05-14 09:47:07
      徹底瞞不住了,何九華承認自己當爹,稱孩子已2歲,王鷗回應打臉

      徹底瞞不住了,何九華承認自己當爹,稱孩子已2歲,王鷗回應打臉

      觀察者海風
      2026-05-14 11:50:48
      中美元首會談結束

      中美元首會談結束

      澎湃新聞
      2026-05-14 14:11:04
      2026-05-14 14:43:00
      連線Insight incentive-icons
      連線Insight
      產業升級創新者的聚集地。
      1735文章數 1502關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      媒體:中美元首會晤 世界吃下一顆“定心丸”

      頭條要聞

      媒體:中美元首會晤 世界吃下一顆“定心丸”

      體育要聞

      登海報!哈登30+8+6創多項紀錄 第8次贏天王山

      娛樂要聞

      肖戰提名金海燕獎,這一步走得太穩

      財經要聞

      習近平同美國總統特朗普會談

      汽車要聞

      C級純電轎跑 吉利銀河"TT"申報圖來了

      態度原創

      藝術
      家居
      旅游
      手機
      公開課

      藝術要聞

      充滿光感的花卉油畫 | 亞歷山大·沙巴德伊

      家居要聞

      精神奢享 對話塔尖需求

      旅游要聞

      摩旅自駕必穿,它就是中國東海岸一號公路?,隨處可見震撼的山海

      手機要聞

      盧偉冰揭秘全新Xiaomi 17 Max樣片彩蛋:三張樣片“一脈同源”

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品一久久香蕉国产线看播放| 99国产精品久久久蜜芽 | 国产综合久久久久影院 | 久久免费少妇高潮久久精品99| 久久www精品成人免费看| 国产精品成人精品久久久| 久久亚洲欧美国产精品| 亚洲国产av无码综合原创国产 | 亚洲色人| 2021av在线天堂网| 在线国产成人自拍视频| 宅男噜噜噜66网站高清| 夜夜夜夜撸| 国产精品9999| 久久天天躁狠狠躁夜夜2020| 国产欧美日韩亚洲一区二区三区| 色欲av永久无码精品无码蜜桃| 免费高清一区二区| 激情五月开心综合亚洲| 中文 在线 日韩 亚洲 欧美| 日日嗨av一区二区三区四区| 亚洲色成人网站www永久| 人妻操人妻爽人妻精品| 亚洲欧美日韩综合在线丁香 | 日韩专区中文字幕| 国产精品自产拍在线观看中文| 亚洲~V| 欧美丰满熟妇xxxxx| 欧美色网| 国产精品偷伦免费观看的| 99视频在线精品免费观看6| bt天堂新版中文在线| 国产99re| 亚洲日本乱码一区二区在线二产线 | 少妇性l交大片久久免费| 久久久久无码专区亚洲av| 日韩女人毛片在线播放| 亚洲成人www| 日本少妇春药特殊按摩3| 人妻体内射精一区二区| 久热精品播放视频在线观看|