<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      ReconVLA:具身智能研究首次獲得AI頂級會議最佳論文獎

      0
      分享至



      在長期以來的 AI 研究版圖中,具身智能雖然在機器人操作、自動化系統與現實應用中至關重要,卻常被視為「系統工程驅動」的研究方向,鮮少被認為能夠在 AI 核心建模范式上產生決定性影響。

      而 ReconVLA 獲得 AAAIOutstandingPaper Awards,釋放了一個清晰而重要的信號:讓智能體在真實世界中「看、想、做」的能力,已經成為人工智能研究的核心問題之一。

      這是具身智能(Embodied Intelligence / Vision-Language-Action)方向歷史上,首次獲得 AI 頂級會議 Best Paper 的研究工作。這是一次真正意義上的 community-level 認可:不僅是對某一個模型、某一項指標的認可,更是對具身智能作為通用智能核心范式之一的肯定。



      • 論文標題:ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver
      • 論文地址:https://arxiv.org/abs/2508.10333
      • 論文代碼:https://github.com/Chowzy069/Reconvla

      VLA 模型關鍵瓶頸:機器人真「看準」了嗎?



      近年來,Vision-Language-Action(VLA)模型在多任務學習與長時序操作中取得了顯著進展。然而,我們在大量實驗中發現,一個基礎但被長期忽視的問題嚴重制約了其性能上限:視覺注意力難以穩定、精準地聚焦于任務相關目標。

      以指令「將藍色積木放到粉色積木上」為例,模型需要在復雜背景中持續鎖定「藍色積木」和「粉色積木」。但現實中,許多 VLA 模型的視覺注意力呈現為近似均勻分布,不同于人類行為專注于目標物體,VLA 模型容易被無關物體或背景干擾,從而導致抓取或放置失敗。

      已有工作主要通過以下方式嘗試緩解這一問題:

      • 顯式裁剪或檢測目標區域(Explicit Grounding)
      • 預測目標邊界框作為中間輸出(COT Grounding)

      然而,這些方法并未從根本上改變模型自身的視覺表征與注意力分配機制,提升效果有限。

      ReconVLA:重建式隱式視覺定位的新范式


      為解決上述瓶頸,我們提出ReconVLA,一種重建式(Reconstructive)Vision-Language-Action 模型。其核心思想是:

      不要求模型顯式輸出「看哪里」,而是通過「能否重建目標區域」,來約束模型必須學會精準關注關鍵物體。

      在 ReconVLA 中,動作預測不再是唯一目標。在生成動作表征的同時,模型還需要完成一項輔助任務:

      重建當前時刻所「凝視」的目標區域 ----- 我們稱之為 Gaze Region。

      這一重建過程由輕量級擴散變換器(Diffusion Transformer)完成,并在潛在空間中進行高保真復原。由于要最小化重建誤差,模型被迫在其內部視覺表示中編碼關于目標物體的精細語義與結構信息,從而在注意力層面實現隱式而穩定的對齊。

      這一機制更接近人類的視覺凝視行為,而非依賴外部檢測器或符號化坐標監督。



      方法概覽


      ReconVLA 的整體框架由兩個協同分支組成:

      1. 動作預測分支: 模型以多視角圖像、自然語言指令與機器人本體狀態為輸入,生成動作 token,直接驅動機器人執行操作。

      2. 視覺重建分支: 利用凍結的視覺 tokenizer,將指令關注的目標區域(Gaze region)編碼為高保真潛在 token。主干網絡額外輸出同維度的重建 token,并以此作為條件,引導擴散去噪過程逐步復原目標區域的視覺表示。

      重建損失在像素與潛在空間層面為模型提供了隱式監督,使視覺表征與動作決策在訓練過程中緊密耦合。



      大規模重建預訓練


      為賦予 ReconVLA 穩定的視覺重建與泛化能力,我們構建了一個大規模機器人預訓練數據集:

      • 數據規模:超過 10 萬條交互軌跡,約 200 萬張圖像。
      • 數據來源:BridgeData V2、LIBERO、CALVIN 等開源機器人數據集。
      • 自動化標注:利用微調后的 Grounding DINO 或 Yolo 等方式,從原始圖像中自動生成指令對應的目標物體區域(Gaze region),用于重建監督。

      該預訓練過程不依賴動作標簽,卻顯著提升了模型在視覺重建、隱式 Grounding 以及跨場景泛化方面的能力,并為未來擴展至互聯網級視頻數據奠定了一定基礎。

      實驗結果



      在 CALVIN 仿真基準上,ReconVLA 在長時序任務中顯著優于現有方法:

      • ABC→D 泛化任務:平均完成長度達到3.95,全面領先同期所有對比方法。
      • ABCD→D 長程任務:平均完成長度為4.23,完整任務成功率達70.5%。

      值得一提的是,在 CALVIN 極具挑戰的長程任務「stack block」上我們的方法成功率達到 79.5%,遠高于 Baseline 的 59.3%,這說明我們的局部重建作為隱式監督的方法可以在復雜長程任務中實現更靈活的運動規劃。



      在真實機器人實驗中,我們基于 AgileX PiPer 六自由度機械臂,測試了疊碗、放水果、翻杯與清理餐桌等任務。ReconVLA 在所有任務上均顯著優于 OpenVLA 與 PD-VLA,并在未見物體條件下仍保持 40% 以上的成功率,展現出強大的視覺泛化能力。



      對比于 Explicit Grounding 和 COT Grounding,ReconVLA 在 CALVIN 上獲得了遠高于前兩者的成功率,由此可分析出:

      僅用精細化的目標區域作為模型隱式監督可以實現更加精確的注意力,更高的任務成功率以及更簡單的模型夾構。



      而消融實驗表明:

      1. 全圖重建仍然由于僅有動作監督的基線,因為全圖重建提升了模型的全局感知和理解能力。但由于視覺冗余使得在未知環境下難以展現更好的效果。

      2. 重建目標區域(Gaze region)具有顯著效果,這個機制使得模型專注于目標物體,避免被無關背景干擾。

      3. 大規模預訓練顯著提升了模型在視覺重建,隱式 Grounding 及跨場景泛化的能力。

      總結


      ReconVLA 的核心貢獻并非引入更復雜的結構,而是重新審視了一個基礎問題:機器人是否真正理解了它正在注視的世界。

      通過重建式隱式監督,我們為 VLA 模型提供了一種更自然、更高效的視覺對齊機制,使機器人在復雜環境中做到「看得準、動得穩」。

      我們期待這一工作能夠推動具身智能從經驗驅動的系統設計,邁向更加扎實、可擴展的通用智能研究范式。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      蘇-57發射超遠程導彈,絕殺烏克蘭預警機!給印度空軍上了一堂課

      蘇-57發射超遠程導彈,絕殺烏克蘭預警機!給印度空軍上了一堂課

      聞識
      2026-05-13 04:47:05
      飄了!張本美和:比賽感覺王曼昱有一點膽怯 利用這一心態強勢拿下

      飄了!張本美和:比賽感覺王曼昱有一點膽怯 利用這一心態強勢拿下

      818體育
      2026-05-13 13:20:45
      菲律賓一夜變天!伊梅臨陣反水,13票把親弟盟友踢出參議院

      菲律賓一夜變天!伊梅臨陣反水,13票把親弟盟友踢出參議院

      趣味八卦
      2026-05-12 18:23:32
      炸穿臺灣政壇!蔣友松強行遷走兩蔣懸棺,半世紀漂泊終要歸鄉

      炸穿臺灣政壇!蔣友松強行遷走兩蔣懸棺,半世紀漂泊終要歸鄉

      陳漎侃故事
      2026-04-14 17:28:18
      復仇戰火力全開!石宇奇2-0橫掃前世界第2,泰國公開賽首戰告捷

      復仇戰火力全開!石宇奇2-0橫掃前世界第2,泰國公開賽首戰告捷

      釘釘陌上花開
      2026-05-13 13:19:11
      穿禮服后退款后續:女子身份曝光社死,工作遭牽連,商家準備起訴

      穿禮服后退款后續:女子身份曝光社死,工作遭牽連,商家準備起訴

      八斗小先生
      2026-05-12 17:23:09
      A股:股民要準備好了,明天(5月14日),不出意外要這么走了

      A股:股民要準備好了,明天(5月14日),不出意外要這么走了

      財經大拿
      2026-05-13 13:44:59
      比美國更害怕中國崛起的,是俄羅斯,他擰巴的不只是領土那點事

      比美國更害怕中國崛起的,是俄羅斯,他擰巴的不只是領土那點事

      七號說三國
      2026-05-12 17:17:59
      青島海牛抵京備戰國安,王牌外援離奇缺席,三連勝恐遇攔路虎

      青島海牛抵京備戰國安,王牌外援離奇缺席,三連勝恐遇攔路虎

      余憁搞笑段子
      2026-05-13 20:32:19
      廣東連續兩年八強游!俱樂部面臨生死抉擇:天價續約、召回棄將、清洗老將

      廣東連續兩年八強游!俱樂部面臨生死抉擇:天價續約、召回棄將、清洗老將

      冷桂零落
      2026-05-13 14:54:30
      俄烏戰爭主動權首次向烏克蘭傾斜!俄軍春季攻勢潰敗

      俄烏戰爭主動權首次向烏克蘭傾斜!俄軍春季攻勢潰敗

      項鵬飛
      2026-05-12 18:12:50
      隱患全面爆發!廣東管理層或將出手整頓,王朝困局已徹底暴露!

      隱患全面爆發!廣東管理層或將出手整頓,王朝困局已徹底暴露!

      田先生籃球
      2026-05-12 22:52:10
      女子碩士入學清華后參與智力測驗,僅得25分,回應:無論是學習、工作、創業,我都沒有遇到困難,但我居然智力中下

      女子碩士入學清華后參與智力測驗,僅得25分,回應:無論是學習、工作、創業,我都沒有遇到困難,但我居然智力中下

      揚子晚報
      2026-05-11 07:48:21
      本賽季五大聯賽過人王TOP10:18歲巨星斷層領跑!

      本賽季五大聯賽過人王TOP10:18歲巨星斷層領跑!

      仰臥撐FTUer
      2026-05-13 19:53:12
      淚崩!劉國梁卸任后吐真言:親手毀掉天才?我腦子沒病!

      淚崩!劉國梁卸任后吐真言:親手毀掉天才?我腦子沒病!

      子芫伴你成長
      2026-03-17 22:25:40
      心理學有個殘忍發現:讓別人對你產生敬畏感的,從來不是你的強硬,也不取決于你的反擊,而是你悄然拿捏的這兩種“人性軟肋”

      心理學有個殘忍發現:讓別人對你產生敬畏感的,從來不是你的強硬,也不取決于你的反擊,而是你悄然拿捏的這兩種“人性軟肋”

      心理觀察局
      2026-05-13 08:15:22
      知情人士:阿聯酋秘密打擊伊朗,正式成為參戰方,4月初曾襲擊伊朗拉旺島一座煉油廠

      知情人士:阿聯酋秘密打擊伊朗,正式成為參戰方,4月初曾襲擊伊朗拉旺島一座煉油廠

      每日經濟新聞
      2026-05-12 21:45:10
      美媒:中國運20B運輸機,全球最大,世界第一,可能有多大?

      美媒:中國運20B運輸機,全球最大,世界第一,可能有多大?

      萬里繁華
      2026-05-11 11:18:13
      津媒:U19國青出戰土倫杯以小打大,隊內不少頗具潛質的球員

      津媒:U19國青出戰土倫杯以小打大,隊內不少頗具潛質的球員

      懂球帝
      2026-05-13 11:27:05
      特朗普專機還沒落地,美精英獅子大開口:不許中國囤積化肥和糧食

      特朗普專機還沒落地,美精英獅子大開口:不許中國囤積化肥和糧食

      墨蘭史書
      2026-05-13 20:10:03
      2026-05-13 21:16:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12986文章數 142648關注度
      往期回顧 全部

      科技要聞

      騰訊一季度營收1964.6億元 同比增9%

      頭條要聞

      美國總統時隔9年再次訪華 特朗普抵達北京

      頭條要聞

      美國總統時隔9年再次訪華 特朗普抵達北京

      體育要聞

      14年半,74萬,何冰嬌沒選那條更安穩的路

      娛樂要聞

      白鹿掉20萬粉,網友為李晨鳴不平

      財經要聞

      美國總統特朗普抵達北京

      汽車要聞

      C級純電轎跑 吉利銀河"TT"申報圖來了

      態度原創

      親子
      旅游
      數碼
      手機
      軍事航空

      親子要聞

      見義勇為的小工程車

      旅游要聞

      五月泉城水勢豐盈,濟南“月牙飛瀑”在線249天刷新紀錄

      數碼要聞

      九州風神玄冰600單塔散熱器新增ARGB版本,119元起

      手機要聞

      紅魔11S Pro+搶先看 可視化雙主動散熱本月見

      軍事要聞

      沙特被指3月曾對伊朗發動多次“報復性”空襲

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产成人精品三上悠亚久久| 免费无码一区二区三区蜜桃大| 99国产视频| 综合色就爱涩涩涩综合婷婷| 最新的国产成人精品2022| 亚洲国产精品国自拍av| 国产美女一区二区| 精品香蕉一区二区三区| 岛国大片视频在线播放| 午夜精品久久久久久久四虎| 无码综合天天久久综合网| 国产白丝网站精品污在线入口| 午夜三级a三级三点窝| 91日韩在线| 躁躁躁日日躁| 四虎8848精品成人免费网站| 少妇无码一区二区三区| 国产在线国偷精品免费看| 成人国产精品一区二区不卡| 亚洲一区二区三区av在线| 色综合久久中文综合久久激情 | 少妇高潮惨叫喷水在线观看| 国产久免费热视频在线观看| 国产a∨国片精品白丝美女视频| wwww免费网站| 久久青草免费91观看| 污网站免费在线观看| 国产精品青青草原免费无码| 国产精品毛片va一区二区三区| 日韩成人性视频在线观看| 四虎8848| 亚洲男人第一无码av网| 国产97色在线?|?日韩| 亚洲国产另类久久久精品小说 | 97国产视频| 色综亚洲国产vv在线观看| AV影院亚洲无码| 精品在线观看视频二区| 亚洲中文字幕无码一区二区三区 | 狠狠躁夜夜躁无码中文字幕| 日韩AV无码免费大片BD|