網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

CVPR 2026 自動駕駛與協(xié)作智能梳理：模型正在走向可控真實世界

2026-05-14 18:17:39　來源: AI科技評論

廣東舉報

分享至

從仿真構造到多主體配合，AI 正在補齊行動決策鏈條。

作者丨鄭佳美

編輯丨馬曉寧

過去，視覺模型更多是在回答“看見了什么”，但當 AI 進入自動駕駛、游戲、機器人和多智能體協(xié)作場景時，問題已經(jīng)不只是識別環(huán)境，而是“看見之后如何行動”。

一輛自動駕駛汽車不能只知道前方有車，還要判斷如何避讓、如何規(guī)劃路線，甚至要在遮擋、夜晚和復雜天氣中借助外部信息補足感知，一個游戲智能體不能只識別畫面里的角色、障礙和敵人，還要把連續(xù)觀察轉化成具體操作；多個機器人或虛擬人也不能只是各自執(zhí)行動作，而要根據(jù)隊友位置、物體形狀、任務目標和團隊規(guī)模動態(tài)配合。

這種變化在 CVPR 2026 的相關研究中變得更加清晰：自動駕駛方向不再只關注單一感知模塊，而是開始圍繞可控場景生成、真實感仿真、端到端駕駛對齊和空間檢索增強展開。

智能體方向也不再停留在“看見運動”，而是進一步探索如何從視頻追蹤走向動作學習，如何從互聯(lián)網(wǎng)規(guī)模的玩家視頻中恢復操作監(jiān)督；多智能體方向則把問題推進到更復雜的團隊行為，包括任意隊伍規(guī)模下的人形協(xié)作，以及離線數(shù)據(jù)條件下的多目標協(xié)作學習。

這些研究看似分布在自動駕駛、游戲智能體和多人協(xié)作等不同任務里，但背后其實都在推動同一條能力鏈條：讓模型從環(huán)境感知走向行動決策。

它們關心的不只是輸入圖像是否被正確理解，而是場景能否被構造，動作能否被學習，策略能否在閉環(huán)中穩(wěn)定執(zhí)行，多個主體能否在同一任務中形成配合。

也正因此，AI 的能力正在從“理解世界”進一步延伸到“參與世界”——不只是看見道路、角色或物體，而是能在復雜環(huán)境中判斷、行動，并與其他主體協(xié)同完成任務。

從可控場景生成到空間記憶增強

自動駕駛研究正在從“讓模型看懂當前畫面”，進一步走向“讓模型能夠構造、編輯和利用更復雜的駕駛世界”。在仿真與訓練中，一個關鍵問題是：如何生成足夠真實、可控且多樣的駕駛場景，尤其是那些真實道路中少見但對安全至關重要的危險交互、罕見軌跡和復雜交通情況。

由 NEC 美國研究院、石溪大學和加州大學圣地亞哥分校共同提出的《HorizonForge: Driving Scene Editing with Any Trajectories and Any Vehicles》。研究的是自動駕駛場景中的可控視頻生成與編輯問題，也就是如何在已有駕駛視頻中精確修改車輛軌跡、插入新車輛，或者改變自車與其他交通參與者的運動方式，同時保持畫面的真實感、空間一致性和時間連續(xù)性。

現(xiàn)有方法往往難以同時做到高真實感和精確控制：要么編輯能力有限，要么生成結果容易出現(xiàn)結構不穩(wěn)定、時序不連貫的問題。

HorizonForge 的核心思路是先把駕駛場景重建成可編輯的 Gaussian Splats 和 Meshes，再在這個 3D 表示上進行精細操作。系統(tǒng)可以直接修改車輛軌跡、調整場景幾何，或根據(jù)語言指令插入新車輛；編輯后的結果再通過 noise-aware video diffusion 渲染出來，用擴散模型補足真實感，并保證空間和時間一致性。

相比每條軌跡都要重新優(yōu)化的方法，HorizonForge 可以在一次前向推理中生成多種場景變化，更適合大規(guī)模自動駕駛仿真。

論文地址：https://arxiv.org/pdf/2602.21333v2

它的亮點在于，把 3D 可編輯表示和視頻擴散生成結合起來：前者負責軌跡和車輛控制，后者負責最終視頻的自然性和連貫性。論文還提出 HorizonSuite 評測基準，覆蓋自車和交通參與者兩個層面的編輯任務，包括軌跡修改和物體操作等場景。

實驗中，Gaussian-Mesh 表示相比其他 3D 表示能帶來更高保真度，視頻擴散中的時間先驗也對連貫合成非常關鍵；最終 HorizonForge 相比第二名方法實現(xiàn)了 83.4% 的用戶偏好提升和 25.19% 的 FID 改進。

整體來看，這篇論文把自動駕駛場景生成從“生成一段看起來像駕駛視頻的畫面”，推進到“可精確編輯軌跡、車輛和 3D 場景結構的可控仿真”。它的意義不只是讓駕駛視頻更真實，也在于為感知、預測和規(guī)劃模型提供更可控、更可擴展的訓練與測試環(huán)境。

有了可編輯的仿真場景后，另一個問題隨之出現(xiàn)：仿真畫面本身是否足夠真實，能否在插入車輛、行人等動態(tài)物體后，仍然保持自然的光照、陰影和前后景一致性。

由英偉達、多倫多大學、康奈爾大學和以色列理工學院合作完成《DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion 的Enhancer》，研究的就是自動駕駛和機器人仿真中的真實感增強問題。

現(xiàn)在很多仿真環(huán)境可以通過 NeRF、3D Gaussian Splatting 等神經(jīng)重建方法從真實數(shù)據(jù)中恢復出來，但在新視角渲染、稀疏視角外推，或插入其他場景的動態(tài)物體時，常常會出現(xiàn)幾何偽影、缺失區(qū)域、光照不一致、陰影缺失和前景背景風格不統(tǒng)一等問題。

DiffusionHarmonizer 的核心思路是把神經(jīng)重建渲染出的不完美畫面，在線增強成更真實、更連貫的仿真視頻幀。它不是重新構建整個 3D 場景，而是在渲染后加入生成式增強模塊，用來修復新視角偽影、協(xié)調前景和背景外觀，并為插入物體生成更合理的陰影。

模型由預訓練的多步圖像擴散模型改造成 single-step temporally-conditioned enhancer，只需一步推理就能增強當前幀，同時利用前幾幀作為時間上下文，保證在線仿真中的時間穩(wěn)定性。

論文地址：https://arxiv.org/pdf/2602.24096v2

它的亮點在于，既保留擴散模型的真實感生成能力，又盡量滿足在線仿真的效率要求。普通視頻擴散模型計算成本太高，普通圖像增強模型又容易造成幀間閃爍；因此論文把多步擴散模型改造成確定性的單步增強器，并加入時間條件。

同時，作者還設計了專門的數(shù)據(jù)構建流程，合成外觀協(xié)調、偽影修復、重光照、陰影生成和物體重新插入的數(shù)據(jù)，讓模型學會處理顏色不一致、重建錯誤和光照不真實等問題。

整體來看，這篇論文把神經(jīng)重建仿真從“能渲染出場景”，推進到“能生成更接近真實世界的在線仿真畫面”。它的價值不只是讓畫面更好看，而是讓基于真實數(shù)據(jù)重建的仿真環(huán)境更可信、更穩(wěn)定，也更適合大規(guī)模訓練和評測。

而當仿真環(huán)境變得更真實、更可控之后，訓練出來的駕駛模型是否能在閉環(huán)中穩(wěn)定執(zhí)行，又取決于專家示范和學生模型之間是否真正對齊。由德國圖賓根大學及圖賓根人工智能中心、英偉達研究院以及德國“人工智能科學”卓越集群合作完成的《LEAD: Minimizing Learner-Expert Asymmetry in End-to-End Driving》研究就的是端到端自動駕駛中的模仿學習問題。

雖然仿真器可以生成大量駕駛數(shù)據(jù)，但用專家軌跡訓練出的學生模型，在閉環(huán)駕駛時仍然容易不穩(wěn)定，核心原因在于專家和學生之間存在明顯的信息不對稱。專家往往擁有更強的“上帝視角”，而學生模型在測試時只能依賴車載傳感器輸入和有限導航信息，因此很難可靠模仿專家行為。

LEAD 的重點不是單純換一個更大的模型，而是系統(tǒng)性地縮小 learner-expert asymmetry。作者把這種差距分成兩類：一類是 state alignment，即專家看到的信息和學生實際能看到的信息不一致；另一類是 intent alignment，即學生在測試時只拿到一個目標點，導航意圖過于模糊。

論文地址：https://arxiv.org/pdf/2512.20563v2

針對這些問題，論文對專家生成方式、學生輸入、導航目標表達和訓練數(shù)據(jù)監(jiān)督進行了修改，讓學生學到的駕駛策略更接近自己真實測試時能執(zhí)行的行為。

這項研究它沒有把端到端自動駕駛的失敗簡單歸因于模型容量不足，而是指出了模仿學習中更根本的訓練偏差：

如果專家示范依賴學生看不到的信息，學生即使學得很像，也可能在閉環(huán)中犯錯。通過減少可見性差異、不確定性差異和導航意圖差異，論文訓練出的 TransFuser v6（TFv6）在多個公開 CARLA 閉環(huán) benchmark 上取得新的最好結果，例如在 Bench2Drive 上達到 95 DS，并在 Longest6 v2 和 Town13 上超過以往方法兩倍以上。

整體來看，這篇論文把端到端自動駕駛中的模仿學習問題，從“如何讓學生更好地模仿專家”，推進到“如何讓專家示范更適合學生真實可見、可執(zhí)行的條件”。

此外，論文還將感知監(jiān)督整合進 sim-to-real 流程，并在 NAVSIM 和 Waymo Vision-Based End-to-End Driving benchmark 上帶來穩(wěn)定提升，說明這種對齊思路也有助于真實世界數(shù)據(jù)下的端到端駕駛泛化。

如果說 LEAD 關注專家與學生之間的信息對齊，那么《Spatial Retrieval Augmented Autonomous Driving》則進一步把自動駕駛的輸入來源從車載傳感器擴展到外部空間記憶。

論文由復旦大學可信具身智能研究院、上海交通大學、中國科學院空天信息創(chuàng)新研究院目標認知與應用技術重點實驗室、中國科學技術大學共同提出，研究的是自動駕駛中的一個新思路：現(xiàn)有自動駕駛系統(tǒng)主要依賴車載攝像頭、激光雷達、IMU 等實時傳感器感知環(huán)境，但這種方式很容易受限于當前視野。

一旦遇到遮擋、夜晚、雨天或視距不足，模型就可能看不清道路結構。人類駕駛員在這種情況下往往會憑借對道路布局的記憶繼續(xù)判斷，而這篇論文希望給自動駕駛模型也加入類似的“空間記憶”能力。

論文提出的核心范式叫 spatial retrieval，也就是根據(jù)車輛當前位置檢索離線地理圖像，比如衛(wèi)星圖、街景圖或已有自動駕駛數(shù)據(jù)集中的地理圖像，并把它們作為額外輸入提供給自動駕駛模型。

論文地址：https://arxiv.org/pdf/2512.06865

這些信息不需要增加新的車載傳感器，可以從離線地圖緩存或公開地圖 API 中獲得，因此更像是一種可插拔的外部空間先驗。論文還擴展了 nuScenes 數(shù)據(jù)集，通過 Google Maps API 檢索地理圖像，并將這些圖像與自車軌跡對齊，形成 nuScenes-Geography 數(shù)據(jù)，用來系統(tǒng)評估這種空間檢索范式。

它的亮點在于，不是單純提升某一個自動駕駛模塊，而是把地理檢索信息接入多個核心任務。論文圍繞 3D 目標檢測、在線地圖構建、占用預測、端到端規(guī)劃和生成式世界模型建立基線，并設計了可插拔的 Spatial Retrieval Adapter，用于把檢索到的地理圖像融合進現(xiàn)有模型。

同時，論文還引入 Reliability Estimation，根據(jù)檢索信息本身的可靠性來自適應決定該信多少、用多少，避免錯誤或不匹配的地理信息干擾駕駛模型。

從項目頁給出的結果來看，空間檢索信息在多個任務中都能帶來提升：在生成式世界模型中，加入地理圖像可以降低 FVD 和 FID，減少場景漂移并保持幾何一致性；在在線地圖構建中，額外道路背景信息有助于恢復被遮擋的車道線；

在占用預測中，地理先驗尤其能提升靜態(tài)類別和地面區(qū)域的預測；在端到端規(guī)劃中，地理先驗可以補償遮擋或低光條件下的感知失敗，并在夜間復雜場景中把碰撞率從 0.55% 降到 0.48%。

從看見運動到學會行動

自動駕駛系統(tǒng)需要理解動態(tài)場景，而更基礎的視覺能力之一，是在視頻中穩(wěn)定追蹤點、物體和運動軌跡。《CoWTracker: Tracking by Warping instead of Correlation》由牛津大學視覺幾何組和 Meta AI 共同提出。

研究的是視頻中的 dense point tracking，也就是在一段視頻中追蹤任意像素點隨時間變化的軌跡。這個任務對視頻理解、機器人操作、光流估計等都很重要，但現(xiàn)有很多方法依賴 cost volume 做跨幀特征匹配，計算復雜度會隨著圖像分辨率呈平方級增長，因此在高分辨率、長視頻和密集點追蹤場景中很難高效擴展。

CoWTracker 的核心思路是用 warping 替代傳統(tǒng)的 feature correlation / cost volume。模型不會在整張圖里暴力搜索大量候選匹配，而是先維護每個點當前位置的估計，再根據(jù)這個估計把目標幀特征反向 warp 到查詢幀附近，然后由 spatio-temporal transformer 聯(lián)合更新軌跡、可見性和置信度。簡單來說，它不是“到處找這個點在哪里”，而是“先猜一個位置，再反復把特征對齊并修正”。

論文地址：https://arxiv.org/pdf/2602.04877v1

它的亮點在于，把密集點追蹤做得更簡單、更高效，也更容易擴展到高分辨率視頻。CoWTracker 不需要顯式計算 cost volume，卻能通過空間注意力和時間注意力同時建模同一幀中不同點之間的關系，以及同一個點在長時間序列中的運動變化。因此它可以處理長距離運動、大視角變化、遮擋和重新出現(xiàn)等復雜情況，還能輸出每個點的軌跡、可見性和置信度。

從結果來看，CoWTracker 在 TAP-Vid-DAVIS、TAP-Vid-Kinetics 和 RoboTAP 等密集點追蹤 benchmark 上表現(xiàn)很強，項目頁給出的平均結果包括 Mean AJ 71.3、Mean δ_avg 81.8、Mean OA 93.3，高于 CoTracker 3 和 AllTracker 等方法。

更有意思的是，同一個模型在不專門訓練光流數(shù)據(jù)的情況下，也能在 Sintel、KITTI-2015 和 Spring 等光流 benchmark 上取得有競爭力的結果，例如在 Sintel 和 KITTI 上的 EPE 分別達到 0.78 和 1.04。

整體來看，這篇論文把密集點追蹤從依賴昂貴相關匹配，推進到基于迭代 warping 和時空推理的統(tǒng)一框架，并說明 dense tracking 和 optical flow 有機會用同一種架構處理。

從“追蹤運動”繼續(xù)往前走，就是讓模型根據(jù)視覺輸入直接做出動作決策。《NitroGen: An Open Foundation Model for Generalist Gaming Agents》由英偉達、斯坦福大學、加州理工學院、芝加哥大學和德克薩斯大學奧斯汀分校合作完成。

論文研究的是面向游戲環(huán)境的通用智能體基礎模型，也就是讓一個模型能夠在不同類型、不同機制的游戲中，根據(jù)畫面觀察直接輸出游戲手柄動作，而不是只針對某一個游戲單獨訓練。

作者認為，具身智能長期缺少像視覺和語言模型那樣的大規(guī)模預訓練數(shù)據(jù)，強化學習雖然能在個別游戲中取得很強效果，但往往依賴專門模擬器和高成本訓練；而現(xiàn)有行為克隆方法又受限于昂貴的人類示范數(shù)據(jù)，很難擴展到大量游戲。

NitroGen 的核心思路是利用公開視頻中的游戲手柄 overlay 自動恢復玩家操作，從而構建大規(guī)模“視頻—動作”數(shù)據(jù)集。很多游戲視頻會在畫面角落實時顯示玩家按鍵和搖桿輸入，NitroGen 先定位并裁剪這些手柄區(qū)域，再用模型解析搖桿位置和按鍵狀態(tài)，最終從公開游戲視頻中提取逐幀動作標簽。

通過這種方式，作者整理出約 4 萬小時、覆蓋 1000 多款游戲的數(shù)據(jù)，并在此基礎上訓練統(tǒng)一的 vision-action transformer，用畫面觀察預測 gamepad actions。

論文地址：https://arxiv.org/pdf/2601.02427v1

它的亮點在于，把互聯(lián)網(wǎng)上原本只是“給人看的游戲視頻”轉化成了可用于訓練智能體的動作監(jiān)督數(shù)據(jù)，從而繞開昂貴的人工采集和專門環(huán)境搭建。除了數(shù)據(jù)集，論文還構建了一個多游戲評測環(huán)境，包含 10 款商業(yè)游戲中的 30 個任務，覆蓋戰(zhàn)斗、導航、決策、平臺跳躍、探索和解謎等能力，并通過統(tǒng)一的 Gymnasium API 封裝不同游戲，讓模型能在更真實的跨游戲環(huán)境中測試泛化能力。

從效果來看，NitroGen 在 3D 動作游戲戰(zhàn)斗、2D 平臺跳躍高精度控制、程序生成世界探索等任務中都表現(xiàn)出較強能力，并且能夠遷移到未見過的新游戲。論文中提到，在相同數(shù)據(jù)和計算預算下，用 NitroGen 預訓練權重進行微調，相比從零訓練的模型，任務成功率最高可獲得 52% 的相對提升。作者還開源了數(shù)據(jù)集、評測套件和模型權重。

整體來看，這篇論文把游戲智能體從“針對單個游戲訓練專用策略”，推進到“利用互聯(lián)網(wǎng)規(guī)模視頻數(shù)據(jù)預訓練通用視覺—動作基礎模型”。它的意義不只在游戲本身，也在于為具身智能提供了一條新的數(shù)據(jù)路徑：通過公開視頻恢復動作監(jiān)督，讓模型從大量人類玩家行為中學習跨環(huán)境、跨任務的操作能力。

從單體控制到團隊行為學習

如果說 NitroGen 關注的是一個智能體如何從視覺中學會行動，那么在人形控制和機器人協(xié)作中，更復雜的問題是多個智能體如何像團隊一樣協(xié)同完成任務。

由 Garena、Sea AI Lab，以及新加坡國立大學共同提出的《TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size》研究的就是多個人形智能體之間的協(xié)作式人—物交互問題，也就是讓多個虛擬人或機器人一起搬運、抬起、移動物體，并且能夠根據(jù)隊伍人數(shù)和物體形狀自動調整協(xié)作方式。

現(xiàn)有物理人形控制已經(jīng)能完成不少單人動作和人—物交互任務，但一旦進入多人協(xié)作場景，就會遇到兩個難點：一是很多策略只能適配固定人數(shù)，難以擴展到不同團隊規(guī)模；二是高質量多人協(xié)作動作數(shù)據(jù)很少，模型很難學到自然、多樣且物理合理的協(xié)同行為。

論文地址：https://arxiv.org/pdf/2603.07988

TeamHOI 的核心思路是訓練一個統(tǒng)一的去中心化策略，讓每個智能體基于自己的局部觀測獨立行動，但又能通過同一個策略網(wǎng)絡感知隊友狀態(tài)并形成協(xié)作。

具體來說，TeamHOI 使用 Transformer-based policy network，把其他智能體的狀態(tài)表示成 teammate tokens，讓策略可以適配不同數(shù)量的隊友，而不是像傳統(tǒng) MLP 那樣被固定輸入維度限制。這樣，同一個策略就可以在 2 到 8 個智能體，甚至更多未見過的隊伍規(guī)模中復用，而不需要重新訓練或微調。

它的另一個關鍵設計是 masked Adversarial Motion Prior（masked AMP）。由于多人協(xié)作動作數(shù)據(jù)稀缺，論文仍然使用單人參考動作來約束運動自然性，但會在 AMP 監(jiān)督中遮掉與物體交互的身體部位，讓手部、接觸和搬運動作更多由任務獎勵來引導。

這樣模型既能保持整體動作自然，又不會被單人動作數(shù)據(jù)過度限制，可以從單人參考動作中衍生出更多樣的多人協(xié)作行為。論文還設計了不依賴隊伍人數(shù)和物體形狀的 formation reward，引導智能體圍繞物體形成穩(wěn)定隊形，從而更平穩(wěn)地抬起和搬運桌子。

這篇論文的亮點在于，它把多人協(xié)作從“固定人數(shù)、固定策略”的控制問題，推進到“任意團隊規(guī)模下的統(tǒng)一協(xié)作策略”。在桌子搬運任務中，TeamHOI 能讓 2 到 8 個智能體協(xié)同搬運方形、長方形或圓形桌子，并在普通重量設置下保持很高成功率。

主實驗中，TeamHOI 在 2 人、4 人和 8 人設置下分別達到 99.1%、99.2% 和 97.5% 的成功率，而在 5 倍重量的重載設置下，8 人團隊仍能達到 81.1% 成功率。相比之下，基線方法往往只能在訓練時對應的人數(shù)上表現(xiàn)較好，一旦隊伍規(guī)模變化就容易失敗或不穩(wěn)定。

TeamHOI 展示的是具體協(xié)作任務中的策略學習，而要讓多智能體協(xié)作研究進一步發(fā)展，還需要更系統(tǒng)的任務集合、離線數(shù)據(jù)和統(tǒng)一評測標準。

《MangoBench: A Benchmark for Multi-Agent Goal-Conditioned Offline Reinforcement Learning》由中山大學和香港理工大學共同提出，研究的是多智能體離線強化學習中的一個關鍵問題：

多個智能體如何在不能在線試錯、只能使用已有數(shù)據(jù)的情況下，學會根據(jù)不同目標進行協(xié)作。現(xiàn)有離線多智能體強化學習方法往往依賴人工設計的獎勵函數(shù)，但這類獎勵函數(shù)對細微變化非常敏感，也很難讓策略泛化到新目標；而單智能體中的目標條件離線強化學習雖然已經(jīng)能緩解這個問題，但在多智能體協(xié)作場景中還缺少系統(tǒng)框架和統(tǒng)一評測基準。

論文地址：https://wendyeewang.github.io/MangoBench

MangoBench 是面向 goal-conditioned offline MARL 的第一個全協(xié)作、多目標基準。它覆蓋 3 個環(huán)境、4 類智能體和 47 個協(xié)作任務，包括聯(lián)合控制的運動任務，以及同步和異步的雙臂操作任務。

論文還把目標條件學習擴展到多智能體場景中，同時支持完全去中心化訓練和 CTDE 兩種范式；在去中心化設置下，系統(tǒng)會把全局目標拆分成各個智能體可使用的局部目標，而在 CTDE 設置下，則把個體目標整合到統(tǒng)一全局目標中進行更強的價值學習，但執(zhí)行時每個智能體仍根據(jù)自己的局部目標行動。

它的亮點在于，不只是提供一個任務集合，而是把“目標條件、多智能體、離線數(shù)據(jù)、稀疏獎勵和多目標評測”統(tǒng)一到同一個框架中。MangoBench 包含 45 個 locomotion 任務和 2 個 manipulation 任務：在運動任務中，多個智能體分別控制同一個機器人身體的不同關節(jié)，共同完成 AntMaze、AntSoccer 等目標。

在操作任務中，兩個機械臂需要完成 lift-barrier 和 place-food 等協(xié)作任務，其中既有同步協(xié)作，也有異步協(xié)作。論文還基于開放數(shù)據(jù)集轉換出適合目標條件離線多智能體學習的數(shù)據(jù)格式，并為每個任務設計多目標評測，避免只在單一目標上評估導致結果偏差。

為了讓這個基準真正可用，論文還提出了 6 個 baseline 算法，覆蓋完全去中心化和 CTDE 兩種訓練范式，包括 GCMBC、ICRL、IHIQL、HIQL-CTDE、GCOMIGA 和 GCOMAR。

這些方法分別用于評估行為克隆、對比價值學習、層級策略、目標重標注和離線多智能體方法在稀疏獎勵、多目標泛化和協(xié)作控制中的表現(xiàn)。實驗表明，這些 baseline 在稀疏獎勵下已經(jīng)能展現(xiàn)一定的多目標泛化能力，但沒有一種方法可以在所有任務中穩(wěn)定占優(yōu)，說明 goal-conditioned offline MARL 仍然是一個復雜且遠未解決的問題。

這次去 CVPR 現(xiàn)場，一定不要錯過

【認識大牛+賺外快】的機會

需要你做什么：把你最關注的10個大會報告，每頁PPT都拍下來

你能獲得什么？

認識大牛：你將可以進入CVPR名師博士社群；

錢多活少：提供豐厚獎金，任務量精簡；

聽會自由：你的行程你做主，順手就把外快賺。拍下你最感興趣的10個報告PPT即可。

如果你即將前往CVPR，想邊聽會邊賺錢，還能順便為AI學術社區(qū)做貢獻、認識更多大牛，歡迎聯(lián)系我們：[添加微信號:MS_Yahei]

【限額5位，先到先得】

未經(jīng)「AI科技評論」授權，嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.