<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      小米陳龍團隊首作:統(tǒng)一具身與自動駕駛的開源模型

      0
      分享至


      MiMo-Embodied 證實核心感知與推理能力可在多場景間共享。

      作者丨鄭佳美

      編輯丨馬曉寧

      在發(fā)布多款自研大模型之后,小米又交出了一份重要成果。

      小米具身智能團隊正式發(fā)布了首篇論文,提出統(tǒng)一具身智能與自動駕駛的新模型MiMo-Embodied。模型在 17 項具身任務和 12 項自動駕駛任務中取得領先表現(xiàn),更重要的是,它從工程層面展示了這兩個長期分離的技術領域可以在同一框架下實現(xiàn)統(tǒng)一建模。

      小米智駕團隊的郝孝帥是論文的核心第一作者,小米智駕團隊首席科學家陳龍博士擔任project leader。

      該模型是陳龍團隊的首個重大成果。由于以羅福莉團隊之前發(fā)布的MiMo-VL作為基座進行了continue-train,這也是文章作者欄中有“羅福莉”的原因。此前有媒體曾誤解為羅福莉首個小米成果,也引發(fā)了當事人發(fā)朋友圈澄清事實。


      這篇論文關注的核心問題是:同一套視覺語言模型,能否在面對“抓取物體”與“駕駛車輛”這兩類差異極大的任務時,仍保持一致的理解方式和決策邏輯。

      這一問題長期困擾多場景智能體的研究,而 MiMo-Embodied 正是小米對這一方向給出的首次系統(tǒng)回應。


      01

      多任務統(tǒng)領式領先

      這篇論文中主要圍繞兩個主要方向進行了系統(tǒng)實驗:具身智能自動駕駛

      整體結果非常突出,可以用一句話概括:MiMo-Embodied 在 17 個具身智能任務和 12 個自動駕駛任務中,都取得了全面領先的表現(xiàn),在多數(shù)關鍵基準上都處于第一。


      具身智能方面,實驗評測涵蓋可供性推斷、任務規(guī)劃和空間理解三個能力。

      其實可供性推斷的測試主要評估模型是否能夠正確理解物體的使用方式。例如識別物體上可操作的部位、精確指出指定位置、判斷場景中哪些區(qū)域可以放置物品,或在多個相似物體中找到與描述相符的那一個。

      在這類任務中,MiMo-Embodied 在五個主流基準上均表現(xiàn)突出。在 RoboRefIt 中,它可以從一組高度相似的物體中準確定位目標;在 Part-Afford 中,它能夠識別物體的可操作部件;在 VABench-Point 中,它能根據(jù)文字描述精確給出坐標,整體表現(xiàn)達到當前最優(yōu)水平。


      任務規(guī)劃方面的測試關注模型根據(jù)情境推斷下一步行動的能力。例如根據(jù)視頻判斷任務的后續(xù)步驟、依據(jù)目標從多個候選動作中選擇正確的操作,或根據(jù)已有步驟推斷接下來可能發(fā)生的事件。MiMo-Embodied 在 RoboVQA、Cosmos-Reason1 和 EgoPlan2 等基準中均處于領先位置,說明其在行動推理與任務結構理解方面具有較強的綜合能力。


      空間理解相關任務要求模型對場景中的空間關系有準確把握,包括判斷物體之間的相對方位、在圖像中定位對象、輸出精確坐標,或回答涉及空間推理的文字問題。

      在九個代表性測試中,MiMo-Embodied 在 CV-Bench、RoboSpatial、RefSpatial 與 CRPE-relation 等核心基準上取得最高分,在 EmbSpatial 與 SAT 等任務中也保持在第一梯隊,體現(xiàn)出扎實的空間推理能力。


      自動駕駛方面,實驗同樣覆蓋三個核心模塊:場景感知、行為預測和駕駛規(guī)劃。

      場景感知的測試要求模型看清路上的車輛、行人和交通標志,描述場景內容,識別潛在風險,并輸出關鍵目標的位置。MiMo-Embodied 在 CODA-LM 等復雜場景理解任務中表現(xiàn)與專用模型相當甚至更好,在 DRAMA 中對關鍵物體的定位精度最高,在 OmniDrive 與 MME-RealWorld 中也保持領先。


      行為預測要求模型能夠推測其他交通參與者可能采取的動作,例如車輛是否會變道、是否會讓行,或從多視角畫面中理解整體交通流動趨勢。MiMo-Embodied 在 MME-RealWorld 與 DriveLM 等基準中表現(xiàn)穩(wěn)定且領先,顯示出對動態(tài)交通場景的良好理解能力。

      駕駛規(guī)劃則要求模型給出車輛應當采取的動作,并解釋其決策依據(jù),同時保證遵守交通規(guī)則、避免風險。MiMo-Embodied 在多個核心基準上取得領先,包括在 LingoQA 中準確解釋駕駛行為,在 DriveLM 中從多視角場景推導合理規(guī)劃,在 MAPLM 中理解道路結構參與決策,在 BDD-X 中清晰說明駕駛理由,整體表現(xiàn)甚至超過一些專門為自動駕駛設計的模型。


      02

      從單域到跨域的四階段訓練框架

      實驗結果之外,團隊還構建了一套由四個階段組成的訓練流程,使模型的能力從最初的具身理解,逐步拓展至自動駕駛決策,并進一步發(fā)展出可解釋的推理能力與更高的輸出精度。

      值得注意的是,這四個階段均以羅福莉所屬的 Xiaomi LLM-Core(大語言核心團隊)推出的MiMo-VL作為統(tǒng)一的基礎模型展開。整個訓練體系以能力逐級遞進為結構,每個階段都為下一階段奠定能力基礎,從而形成一套連續(xù)且可擴展的模型演進路徑。


      第一階段中,模型主要接受具身智能相關的監(jiān)督訓練,訓練數(shù)據(jù)覆蓋可供性推斷、任務規(guī)劃和空間理解等任務。

      這些數(shù)據(jù)讓模型能夠先掌握如何看懂物體的結構、識別可操作部位、理解場景中的空間關系,并能對一段任務過程進行正確的下一步推斷。經(jīng)過這一階段,模型具備了基本的空間推理能力、初步的任務規(guī)劃能力,以及對可供性的感知與表達能力。

      第二階段專門引入自動駕駛領域的監(jiān)督訓練。模型開始學習處理復雜的交通場景,訓練數(shù)據(jù)包括多視角相機畫面、駕駛視頻、自動駕駛問答、關鍵目標的坐標標注以及與道路結構相關的知識。

      通過這些訓練,模型能夠理解道路環(huán)境、讀取交通元素、預測其他交通參與者的行為,并給出符合規(guī)則的駕駛規(guī)劃。此階段使模型掌握動態(tài)場景分析、意圖預測以及駕駛決策等關鍵自動駕駛能力。

      第三階段加入鏈式思維訓練,也就是讓模型學習“把推理過程說出來”。訓練數(shù)據(jù)含有明確的推理步驟,模型在此階段被引導按照“觀察場景→分析要素→提出候選→給出理由→得出結論”的順序組織回答。

      結果是模型開始能夠自洽地解釋自己的判斷邏輯,不論是在具身任務還是在駕駛任務中,都能給出清晰、可讀的推理鏈條,顯著提升輸出的透明度與一致性。


      最后在第四階段進行強化學習微調,目的在于進一步提升模型在細節(jié)層面的準確度。例如,多選題會根據(jù)是否答對給予獎勵;定位類任務通過預測區(qū)域與真實區(qū)域的 IoU 分數(shù)提供更精細的反饋;推理回答的形式會通過格式模板進行嚴格約束。

      通過這些規(guī)則化的獎勵機制,模型在坐標定位精度、推理質量及細節(jié)判斷能力上都有明顯增強,最終成為一個在多任務場景中都能穩(wěn)定發(fā)揮的統(tǒng)一具身模型。


      03

      打通兩個世界的第一步

      這項工作的價值不只在于模型性能領先,而在于它解決了長期困擾業(yè)界的一道核心難題:機器人和自動駕駛本應屬于兩個完全不同的世界,卻第一次被放進了同一個大腦里。

      過去的模型要么專門做室內具身任務,要么專門做自動駕駛,兩個方向無論是場景、感知還是動作都完全割裂,彼此幾乎沒有可共享的能力。

      但 MiMo-Embodied 的實驗結果證明,底層的關鍵智能能力,空間理解、因果推理、動態(tài)場景分析,其實可以跨域遷移。機器人理解桌面物體的方式,可以幫助汽車理解路口;汽車處理交通動態(tài)的能力,也能讓機器人更好地規(guī)劃任務步驟。

      這意味著“智能體”的邊界第一次被打通。

      除此之外,為了驗證這種跨場景融合是否真正可行,團隊還專門構建了一個前所未有的大規(guī)模評測體系:17 個具身智能基準加上 12 個自動駕駛基準,覆蓋可供性、規(guī)劃、空間理解,以及感知、預測、駕駛決策等多維能力。

      模型在如此復雜而全面的體系下依舊保持穩(wěn)定領先,證明它不是“弱項補短”,而是實實在在具備跨領域的泛化智能。這不僅驗證了模型本身,也相當于是替整個行業(yè)點亮了“跨域評測”的新標準。

      更重要的是,MiMo-Embodied 提供了一種可復制的范式。論文提出的四階段訓練路線:先學具身,再學駕駛,再疊加鏈式推理,最后用強化學習摳細節(jié),實際上就是一條通向“通用具身智能體”的訓練路徑。

      它告訴行業(yè):智能體能力并不必須分散在不同的模型中,而可以像課程一樣逐層積累,讓統(tǒng)一模型在多種復雜場景中都保持穩(wěn)定表現(xiàn)。

      而從產(chǎn)業(yè)角度看,這更像一次“開鎖”的動作。小米把跨域智能的這把鑰匙直接扔給了開源社區(qū),意味著未來即便是小團隊,也能在這套基礎上做改造,做出既能開車又能操作機械臂的多場景智能體。

      電動車越來越像“帶輪子的智能體”,機器人越來越像“帶四肢的智能體”,而 MiMo-Embodied 的出現(xiàn),讓這兩條原本平行的技術路線第一次有機會匯流。

      更難得的是,這不是一個性能堪堪夠用的概念模型,而是在 17 個具身測試 + 12 個自動駕駛測試里都能打、還能贏的大模型,連不少閉源私有模型都被它壓了一頭。

      這一工作所展示的,早已不只是一種新的模型形態(tài),而是向行業(yè)明確證明:自動駕駛與具身智能的能力可以在同一個體系中進行訓練、評測和集成部署。這種統(tǒng)一方式為未來智能體的發(fā)展打開了新的方向,可能會重新塑造多場景智能系統(tǒng)的整體格局。

      04

      首篇論文背后的團隊陣容

      這是小米具身智能團隊發(fā)布的首篇論文,由小米智駕團隊的郝孝帥擔任第一作者,項目負責人則是小米智駕團隊首席科學家陳龍


      郝孝帥今年 8 月加入小米智駕團隊。博士畢業(yè)于中國科學院大學信息工程研究所,現(xiàn)任小米汽車自動駕駛與具身智能算法專家,研究方向為自動駕駛感知和具身智能基座大模型。

      在博士期間,他曾在亞馬遜實習,師從李沐老師。在北京人工智能研究院擔任研究員期間,深度參與了 Robobrain 1.0 和 Robobrain 2.0 等重大項目。結合github等公開信息,自從今年8月加入小米以來,MiMo-Embodied是郝孝帥首次以第一核心成員身份做出的重要貢獻,也是首個自動駕駛與具身智能統(tǒng)一基座大模型 。

      除此之外,郝孝帥還曾在 Information Fusion、NeurIPS、ICLR、CVPR、ECCV、AAAI、ICRA 等頂級會議與期刊上發(fā)表論文五十余篇,并在 CVPR、ICCV 等國際競賽中取得了多次前三的成績,科研背景十分扎實。


      項目負責人陳龍博士同樣在今年加入小米,擔任小米汽車 Principal Scientist,自動駕駛與機器人部 VLA 負責人,他曾任職于端到端自動駕駛獨角獸公司 Wayve,擔任 Staff Scientist,帶領團隊成功研發(fā)并部署了全球首個上車的視覺語言自動駕駛系統(tǒng) Lingo,被 Fortune,F(xiàn)inancial Times,MIT Technology Review 等國際媒體報導。

      此前在 Lyft 自動駕駛部門負責基于眾包數(shù)據(jù)的深度學習規(guī)劃模型研發(fā)工作陳龍博士憑借在輔助駕駛領域引入視覺-語言-行為(VLA)模型的卓越工作,成功入選《麻省理工科技評論》2025 年度亞太區(qū)“ 35 歲以下科技創(chuàng)新 35 人”。


      加入小米后,陳龍開始帶領VLA 團隊推進端到端自動駕駛大模型的技術路線,進一步提升模型在復雜交通場景中的泛化、推理和解釋能力。他與葉航軍、陳光、王乃巖共同構成小米智駕團隊的核心技術力量,組成了當前小米智駕體系的關鍵架構班底。


      作者主頁:

      https://haoxiaoshuai.github.io/homepage/

      https://www.linkedin.com/in/long-chen-in/

      論文鏈接:

      https://arxiv.org/abs/2511.16518

      未經(jīng)「AI科技評論」授權,嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      我今年72了,用一生的經(jīng)驗告訴你:永遠不要跟任何人,透露這3個底牌,哪怕是最親的人

      我今年72了,用一生的經(jīng)驗告訴你:永遠不要跟任何人,透露這3個底牌,哪怕是最親的人

      東林夕亭
      2026-05-07 09:32:41
      吳心伯親歷特朗普歡迎晚宴:同桌美國人主動說“我們是朋友”

      吳心伯親歷特朗普歡迎晚宴:同桌美國人主動說“我們是朋友”

      澎湃新聞
      2026-05-15 21:38:04
      影壇大咖去世,66歲鐘楚紅淚灑靈堂,周星馳周潤發(fā)送花,眾星現(xiàn)身

      影壇大咖去世,66歲鐘楚紅淚灑靈堂,周星馳周潤發(fā)送花,眾星現(xiàn)身

      一盅情懷
      2026-05-15 15:39:55
      王勵勤三次挽留樊振東均落空,根本不是沒面子,小胖只是太累了

      王勵勤三次挽留樊振東均落空,根本不是沒面子,小胖只是太累了

      冷桂零落
      2026-05-15 00:45:45
      中美元首會晤全記錄:從人民大會堂、天壇到中南海

      中美元首會晤全記錄:從人民大會堂、天壇到中南海

      中國新聞周刊
      2026-05-15 18:49:29
      U17國足3-1逆轉沙特!22年后再進亞洲杯4強 何思凡傳射+連場破門

      U17國足3-1逆轉沙特!22年后再進亞洲杯4強 何思凡傳射+連場破門

      我愛英超
      2026-05-16 03:02:33
      1959年,人民大會堂建成,毛主席指著天花板問:這到底是誰的主意

      1959年,人民大會堂建成,毛主席指著天花板問:這到底是誰的主意

      貓眼觀史
      2024-11-29 15:50:03
      隊記:火箭或與范弗利特重簽合同,三年5000萬美元加球員選項

      隊記:火箭或與范弗利特重簽合同,三年5000萬美元加球員選項

      懂球帝
      2026-05-15 11:07:10
      效力國家隊12年,與梁靖崑傳緋聞是孫穎莎陪練,如今27歲官宣退役

      效力國家隊12年,與梁靖崑傳緋聞是孫穎莎陪練,如今27歲官宣退役

      以茶帶書
      2026-05-15 23:49:26
      特朗普訪華前急派心腹“敲打”日本

      特朗普訪華前急派心腹“敲打”日本

      小眼睛小世界
      2026-05-16 02:40:54
      被中國制裁6年的魯比奧,為何能隨特朗普訪華?真相來了

      被中國制裁6年的魯比奧,為何能隨特朗普訪華?真相來了

      燕梳樓頻道
      2026-05-14 19:54:33
      上不了臺面?方媛凌晨2點硬剛全網(wǎng),8年天王嫂遮羞布被徹底撕開

      上不了臺面?方媛凌晨2點硬剛全網(wǎng),8年天王嫂遮羞布被徹底撕開

      手工制作阿殲
      2026-05-15 18:49:16
      呼吁:立馬停止飲用這種茶葉,比煙酒還要傷肝,盡早戒掉

      呼吁:立馬停止飲用這種茶葉,比煙酒還要傷肝,盡早戒掉

      新時代的兩性情感
      2026-05-12 08:42:32
      奧運冠軍李小鵬一家近照,定居香港,身家過億,女兒已是大美女

      奧運冠軍李小鵬一家近照,定居香港,身家過億,女兒已是大美女

      大西體育
      2026-04-28 22:28:58
      瞬間成為百萬富翁!有網(wǎng)友用AI某找回含有5枚比特幣的錢包密碼,激動的瘋狂爆粗

      瞬間成為百萬富翁!有網(wǎng)友用AI某找回含有5枚比特幣的錢包密碼,激動的瘋狂爆粗

      西游日記
      2026-05-14 10:46:28
      特朗普幫了中國大忙,中國首次成為全球第一,日本完全被踩在腳下

      特朗普幫了中國大忙,中國首次成為全球第一,日本完全被踩在腳下

      小小科普員
      2026-03-26 00:27:10
      天津16歲高中女生,被男同學帶出租屋纏綿并偷拍,遭同學霸凌后續(xù)

      天津16歲高中女生,被男同學帶出租屋纏綿并偷拍,遭同學霸凌后續(xù)

      漢史趣聞
      2026-05-15 15:41:47
      52球,利物浦創(chuàng)隊史38輪英超賽季丟球數(shù)新高

      52球,利物浦創(chuàng)隊史38輪英超賽季丟球數(shù)新高

      懂球帝
      2026-05-16 04:50:59
      裁判嚴格點,孫康博上半場就罰下了 大連兩翼中甲級 斯坦丘帶不動

      裁判嚴格點,孫康博上半場就罰下了 大連兩翼中甲級 斯坦丘帶不動

      替補席看球
      2026-05-15 22:21:50
      成立模型委員會,百度也坐不住了

      成立模型委員會,百度也坐不住了

      鈦媒體APP
      2026-05-15 12:40:14
      2026-05-16 05:07:00
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7280文章數(shù) 20751關注度
      往期回顧 全部

      科技要聞

      直降千元起步!蘋果華為率先開啟618讓利

      頭條要聞

      黃仁勛在北京喝豆汁痛苦皺眉 問“這是什么東西”

      頭條要聞

      黃仁勛在北京喝豆汁痛苦皺眉 問“這是什么東西”

      體育要聞

      德約科維奇買的球隊,從第6級聯(lián)賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經(jīng)要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態(tài)度原創(chuàng)

      房產(chǎn)
      手機
      數(shù)碼
      藝術
      家居

      房產(chǎn)要聞

      老黃埔熱銷之下,珠江春,為何去化僅3成?

      手機要聞

      iPhone 17系列全系跳水,最高立減2500!

      數(shù)碼要聞

      聯(lián)想發(fā)布ThinkPad T14 Gen 7 支持LPCAMM2可更換內存

      藝術要聞

      1008米!沙特“世界第一高樓”項目,為何極有可能建成?

      家居要聞

      110㎡淡而有致的生活表達

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 性生交大片免费看女人按摩 | 亚洲高清最新AV网站| 午夜寂寞网站| 国产成人亚洲综合无码精品| 国产精品久久久久成人| 99ri国产在线观看| 国产粉嫩高中无套进入| 午夜精品一区二区三区在线视| 美女裸体自慰在线观看| 国产三级在线播放视频| 麻豆国产va免费精品高清在线| 久久久久99人妻一区二区三区 | 国产一区二区三级在线| 四川丰满少妇无套内谢| 欧美wwww| 国产精品香蕉在线| 国产视频资源在线观看| 亚洲av鲁丝一区二区三区黄| 色88久久久久高潮综合影院| 国产一区二区精品在线| 澄江县| 亚洲精品美女一区二区| 亚非秘?一区二区三区四区| 欧美寡妇xxxx黑人猛交| 国产精品亚洲精品日韩电影| 亚洲毛片αv无线播放一区| 亚洲无码丝袜熟女| 天天日天天躁| 亚洲综合国产成人av| 日韩免费一区二区三区高清| 亚洲天堂三区| 中文字幕精品无亚洲字幕| 日本熟女一区二区视频| 国产成人亚洲影院在线播放| 97精品一区二区视频在线观看| 久久亚洲精品成人无码网站| 国产国语在线播放视频| 色吊丝亚洲欧美| 91蝌蚪视频在线观看| 看黄a大片日本真人视频直播| 黑人巨茎美女高潮视频|