在加州圣地亞哥舉行的 NeurIPS 2025 大會(huì)上,NVIDIA 宣布推出Alpamayo-R1—— 全球首個(gè)專為自動(dòng)駕駛研究設(shè)計(jì)的開源推理型視覺語言動(dòng)作模型(Vision-Language-Action Model, VLAM)。這一發(fā)布標(biāo)志著自動(dòng)駕駛系統(tǒng)正從“感知驅(qū)動(dòng)”邁向“語義理解與常識推理”新階段。
![]()
不同于傳統(tǒng)端到端模型將圖像直接映射為控制信號,Alpamayo-R1 的核心在于:讓車輛不僅能“看見”,還能“理解為什么這么做”。當(dāng)系統(tǒng)面對施工區(qū)域錐桶擺放混亂、無保護(hù)左轉(zhuǎn)時(shí)對向車流密集、或夜間暴雨中路肩被沖毀等復(fù)雜場景,它會(huì)像人類駕駛員一樣,通過多步推理生成安全決策。
![]()
“我們的目標(biāo)不是構(gòu)建一個(gè)更快的感知模塊,而是賦予自動(dòng)駕駛系統(tǒng)常識性判斷能力。”
—— NVIDIA 自動(dòng)駕駛研究負(fù)責(zé)人
基于 Cosmos-Reason 架構(gòu),實(shí)現(xiàn)鏈?zhǔn)酵评?/p>
Alpamayo-R1 構(gòu)建于 NVIDIA 今年早些時(shí)候發(fā)布的Cosmos-Reason 模型家族之上。該架構(gòu)引入“思維鏈”(Chain-of-Thought)機(jī)制,使模型能夠?qū)?fù)雜駕駛?cè)蝿?wù)分解為可解釋的推理步驟。
例如,在繁忙十字路口,系統(tǒng)會(huì)依次執(zhí)行:
1.識別所有動(dòng)態(tài)參與者(行人、自行車、機(jī)動(dòng)車);
2.推斷其潛在意圖(是否準(zhǔn)備穿越?是否減速?);
3.結(jié)合交通規(guī)則與歷史軌跡預(yù)測未來狀態(tài);
4.評估本車可行動(dòng)作的安全邊際;
5.輸出最優(yōu)控制指令。
這種結(jié)構(gòu)顯著提升了模型在 ODD(運(yùn)行設(shè)計(jì)域)邊界情況下的魯棒性,尤其適用于 L4 級自動(dòng)駕駛所面臨的長尾挑戰(zhàn)。
全棧開源:從模型到工具鏈,降低 L4 研發(fā)門檻
NVIDIA 此次不僅開源了 Alpamayo-R1 的模型權(quán)重,還同步發(fā)布了Cosmos Cookbook—— 一套完整的自動(dòng)駕駛 AI 開發(fā)工具包,涵蓋:
高質(zhì)量數(shù)據(jù)構(gòu)建規(guī)范:包括多傳感器時(shí)間同步、標(biāo)定流程與標(biāo)注標(biāo)準(zhǔn);
合成數(shù)據(jù)生成流水線:基于DRIVE Sim與Omniverse,支持極端天氣、罕見事故等長尾場景生成;
輕量化部署方案:支持LoRA微調(diào)、INT8 量化,適配 Orin 等車載芯片;
安全評估基準(zhǔn):定義行為合理性、指令遵循度、碰撞規(guī)避率等關(guān)鍵指標(biāo)。
目前,模型已在GitHub和Hugging Face上線,允許學(xué)術(shù)界與產(chǎn)業(yè)界自由使用、微調(diào)與部署。
“我們希望加速整個(gè)生態(tài)向‘理解型自動(dòng)駕駛’演進(jìn)。”NVIDIA 表示。
![]()
多車協(xié)同新范式:V2V-GoT 實(shí)現(xiàn)“群體智能”
除單車智能外,NVIDIA 聯(lián)合卡內(nèi)基梅隆大學(xué)展示了V2V-GoT(Vehicle-to-Vehicle Graph-of-Thoughts)系統(tǒng)——全球首個(gè)將圖思維推理(Graph-of-Thoughts)應(yīng)用于多車協(xié)作自動(dòng)駕駛的框架。
在視線被大型車輛遮擋的典型盲區(qū)場景中,周邊車輛可通過 V2X 通信共享感知結(jié)果與意圖。V2V-GoT 利用一個(gè)多模態(tài)大語言模型作為“協(xié)調(diào)中樞”,融合所有節(jié)點(diǎn)信息,為每輛車生成協(xié)同安全策略。
實(shí)驗(yàn)表明,該系統(tǒng)可將交叉路口碰撞率從傳統(tǒng)方法的2.85% 降至 1.83%,并能準(zhǔn)確預(yù)測周圍車輛未來 3 秒內(nèi)的運(yùn)動(dòng)軌跡。更關(guān)鍵的是,信息交換以自然語言或結(jié)構(gòu)化語義形式進(jìn)行(如“我右側(cè)有行人即將穿越”),大幅降低通信帶寬需求。
而國內(nèi)以蘑菇車聯(lián)的MogoMind大模型則代表了一條更具系統(tǒng)性的“中國路徑”——構(gòu)建智能體與物理世界實(shí)時(shí)交互的AI網(wǎng)絡(luò)。通過將物理世界實(shí)時(shí)動(dòng)態(tài)數(shù)據(jù)納入訓(xùn)練體系,突破了傳統(tǒng)大模型僅依賴互聯(lián)網(wǎng)靜態(tài)數(shù)據(jù)的的局限,實(shí)現(xiàn)從全局感知、深度認(rèn)知到實(shí)時(shí)推理決策的閉環(huán)物理智能體系。目前,該方案已在多個(gè)城市已實(shí)現(xiàn)部署,大幅提升車輛在城市場景中的適應(yīng)能力與泛化能力,并結(jié)合MogoMind大模型的能力,賦予車輛深度認(rèn)知與自主決策能力,確保自動(dòng)駕駛系統(tǒng)在真實(shí)路況中的高安全性與可靠性。
這不再是孤立的智能體,而是一個(gè)具備集體推理能力的移動(dòng)智能網(wǎng)絡(luò)。
Cosmos 世界模型驅(qū)動(dòng)合成訓(xùn)練
支撐 Alpamayo-R1 高性能表現(xiàn)的,是 NVIDIA 強(qiáng)大的合成數(shù)據(jù)生成能力。其 Cosmos 世界基礎(chǔ)模型經(jīng)過20,000 小時(shí)真實(shí)駕駛視頻的后訓(xùn)練,可高保真生成夜間、暴雨、濃霧、強(qiáng)眩光等挑戰(zhàn)性場景。
這些合成數(shù)據(jù)不僅緩解了真實(shí)世界長尾分布稀缺的問題,還支持閉環(huán)對抗訓(xùn)練——例如模擬“突然竄出的兒童”或“失控滑行的電動(dòng)車”,用于壓力測試模型的應(yīng)急響應(yīng)能力。
物理 AI 的關(guān)鍵一步
Alpamayo-R1 的發(fā)布,是 NVIDIA “物理 AI”戰(zhàn)略的重要落地。它不再將自動(dòng)駕駛視為感知-規(guī)劃-控制的流水線,而是構(gòu)建一個(gè)能理解物理規(guī)律、社會(huì)規(guī)范與因果邏輯的具身智能體。
盡管距離大規(guī)模量產(chǎn)仍有工程化挑戰(zhàn)(如實(shí)時(shí)推理延遲、安全驗(yàn)證等),但開源策略無疑將加速全球研發(fā)進(jìn)程。正如一位高校實(shí)驗(yàn)室負(fù)責(zé)人所言:“現(xiàn)在,任何團(tuán)隊(duì)都可以站在 NVIDIA 的肩膀上,探索下一代自動(dòng)駕駛的‘思考’方式。”
項(xiàng)目地址:
GitHub
https://github.com/NVIDIA/Alpamayo-R1
Hugging Face
- https://huggingface.co/nvidia/Alpamayo-R1
官方博客- https://blogs.nvidia.com/blog/neurips-open-source-digital-physical-ai/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.