NVIDIA開源 Alpamayo-R1：讓車真正“理解”駕駛

2025-12-03 12:02:34　來源: 山自

北京舉報(bào)

分享至

在加州圣地亞哥舉行的 NeurIPS 2025 大會(huì)上，NVIDIA 宣布推出Alpamayo-R1—— 全球首個(gè)專為自動(dòng)駕駛研究設(shè)計(jì)的開源推理型視覺語言動(dòng)作模型（Vision-Language-Action Model, VLAM）。這一發(fā)布標(biāo)志著自動(dòng)駕駛系統(tǒng)正從“感知驅(qū)動(dòng)”邁向“語義理解與常識推理”新階段。

不同于傳統(tǒng)端到端模型將圖像直接映射為控制信號，Alpamayo-R1 的核心在于：讓車輛不僅能“看見”，還能“理解為什么這么做”。當(dāng)系統(tǒng)面對施工區(qū)域錐桶擺放混亂、無保護(hù)左轉(zhuǎn)時(shí)對向車流密集、或夜間暴雨中路肩被沖毀等復(fù)雜場景，它會(huì)像人類駕駛員一樣，通過多步推理生成安全決策。

“我們的目標(biāo)不是構(gòu)建一個(gè)更快的感知模塊，而是賦予自動(dòng)駕駛系統(tǒng)常識性判斷能力。”
—— NVIDIA 自動(dòng)駕駛研究負(fù)責(zé)人

基于 Cosmos-Reason 架構(gòu)，實(shí)現(xiàn)鏈?zhǔn)酵评?/p>

Alpamayo-R1 構(gòu)建于 NVIDIA 今年早些時(shí)候發(fā)布的Cosmos-Reason 模型家族之上。該架構(gòu)引入“思維鏈”（Chain-of-Thought）機(jī)制，使模型能夠?qū)?fù)雜駕駛?cè)蝿?wù)分解為可解釋的推理步驟。

例如，在繁忙十字路口，系統(tǒng)會(huì)依次執(zhí)行：

1.識別所有動(dòng)態(tài)參與者（行人、自行車、機(jī)動(dòng)車）；

2.推斷其潛在意圖（是否準(zhǔn)備穿越？是否減速？）；

3.結(jié)合交通規(guī)則與歷史軌跡預(yù)測未來狀態(tài)；

4.評估本車可行動(dòng)作的安全邊際；

5.輸出最優(yōu)控制指令。

這種結(jié)構(gòu)顯著提升了模型在 ODD（運(yùn)行設(shè)計(jì)域）邊界情況下的魯棒性，尤其適用于 L4 級自動(dòng)駕駛所面臨的長尾挑戰(zhàn)。

全棧開源：從模型到工具鏈，降低 L4 研發(fā)門檻

NVIDIA 此次不僅開源了 Alpamayo-R1 的模型權(quán)重，還同步發(fā)布了Cosmos Cookbook—— 一套完整的自動(dòng)駕駛 AI 開發(fā)工具包，涵蓋：

高質(zhì)量數(shù)據(jù)構(gòu)建規(guī)范：包括多傳感器時(shí)間同步、標(biāo)定流程與標(biāo)注標(biāo)準(zhǔn)；

合成數(shù)據(jù)生成流水線：基于DRIVE Sim與Omniverse，支持極端天氣、罕見事故等長尾場景生成；

輕量化部署方案：支持LoRA微調(diào)、INT8 量化，適配 Orin 等車載芯片；

安全評估基準(zhǔn)：定義行為合理性、指令遵循度、碰撞規(guī)避率等關(guān)鍵指標(biāo)。

目前，模型已在GitHub和Hugging Face上線，允許學(xué)術(shù)界與產(chǎn)業(yè)界自由使用、微調(diào)與部署。

“我們希望加速整個(gè)生態(tài)向‘理解型自動(dòng)駕駛’演進(jìn)。”NVIDIA 表示。

多車協(xié)同新范式：V2V-GoT 實(shí)現(xiàn)“群體智能”

除單車智能外，NVIDIA 聯(lián)合卡內(nèi)基梅隆大學(xué)展示了V2V-GoT（Vehicle-to-Vehicle Graph-of-Thoughts）系統(tǒng)——全球首個(gè)將圖思維推理（Graph-of-Thoughts）應(yīng)用于多車協(xié)作自動(dòng)駕駛的框架。

在視線被大型車輛遮擋的典型盲區(qū)場景中，周邊車輛可通過 V2X 通信共享感知結(jié)果與意圖。V2V-GoT 利用一個(gè)多模態(tài)大語言模型作為“協(xié)調(diào)中樞”，融合所有節(jié)點(diǎn)信息，為每輛車生成協(xié)同安全策略。

實(shí)驗(yàn)表明，該系統(tǒng)可將交叉路口碰撞率從傳統(tǒng)方法的2.85% 降至 1.83%，并能準(zhǔn)確預(yù)測周圍車輛未來 3 秒內(nèi)的運(yùn)動(dòng)軌跡。更關(guān)鍵的是，信息交換以自然語言或結(jié)構(gòu)化語義形式進(jìn)行（如“我右側(cè)有行人即將穿越”），大幅降低通信帶寬需求。

而國內(nèi)以蘑菇車聯(lián)的MogoMind大模型則代表了一條更具系統(tǒng)性的“中國路徑”——構(gòu)建智能體與物理世界實(shí)時(shí)交互的AI網(wǎng)絡(luò)。通過將物理世界實(shí)時(shí)動(dòng)態(tài)數(shù)據(jù)納入訓(xùn)練體系，突破了傳統(tǒng)大模型僅依賴互聯(lián)網(wǎng)靜態(tài)數(shù)據(jù)的的局限，實(shí)現(xiàn)從全局感知、深度認(rèn)知到實(shí)時(shí)推理決策的閉環(huán)物理智能體系。目前，該方案已在多個(gè)城市已實(shí)現(xiàn)部署，大幅提升車輛在城市場景中的適應(yīng)能力與泛化能力，并結(jié)合MogoMind大模型的能力，賦予車輛深度認(rèn)知與自主決策能力，確保自動(dòng)駕駛系統(tǒng)在真實(shí)路況中的高安全性與可靠性。

這不再是孤立的智能體，而是一個(gè)具備集體推理能力的移動(dòng)智能網(wǎng)絡(luò)。

Cosmos 世界模型驅(qū)動(dòng)合成訓(xùn)練

支撐 Alpamayo-R1 高性能表現(xiàn)的，是 NVIDIA 強(qiáng)大的合成數(shù)據(jù)生成能力。其 Cosmos 世界基礎(chǔ)模型經(jīng)過20,000 小時(shí)真實(shí)駕駛視頻的后訓(xùn)練，可高保真生成夜間、暴雨、濃霧、強(qiáng)眩光等挑戰(zhàn)性場景。

這些合成數(shù)據(jù)不僅緩解了真實(shí)世界長尾分布稀缺的問題，還支持閉環(huán)對抗訓(xùn)練——例如模擬“突然竄出的兒童”或“失控滑行的電動(dòng)車”，用于壓力測試模型的應(yīng)急響應(yīng)能力。

物理 AI 的關(guān)鍵一步

Alpamayo-R1 的發(fā)布，是 NVIDIA “物理 AI”戰(zhàn)略的重要落地。它不再將自動(dòng)駕駛視為感知-規(guī)劃-控制的流水線，而是構(gòu)建一個(gè)能理解物理規(guī)律、社會(huì)規(guī)范與因果邏輯的具身智能體。

盡管距離大規(guī)模量產(chǎn)仍有工程化挑戰(zhàn)（如實(shí)時(shí)推理延遲、安全驗(yàn)證等），但開源策略無疑將加速全球研發(fā)進(jìn)程。正如一位高校實(shí)驗(yàn)室負(fù)責(zé)人所言：“現(xiàn)在，任何團(tuán)隊(duì)都可以站在 NVIDIA 的肩膀上，探索下一代自動(dòng)駕駛的‘思考’方式。”

項(xiàng)目地址：
GitHub
https://github.com/NVIDIA/Alpamayo-R1
Hugging Face
https://huggingface.co/nvidia/Alpamayo-R1
官方博客
https://blogs.nvidia.com/blog/neurips-open-source-digital-physical-ai/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.