<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Benchmark,具身智能研究最缺乏的“基礎設施”

      0
      分享至



      作者:彭堃方

      編輯:呂鑫燚

      出品:具身研習社

      具身智能模型的結構性矛盾在于,一面是飛速迭代的模型,另一面則是滯后的基準線。

      換句話說,具身模型一直沒有一個科學、可靠的評測標準去讓它從發散地“野蠻生長”到牟足勁兒地“向上生長”。

      “木受繩以直”,具身模型也需要一個科學的 Benchmark 去精細地評估、診斷甚至是指導未來研究方向。但現狀是,由于長期缺乏統一、高標準的真機測評體系,模型的迭代與產業化進程正深受制約。

      事實上,任何產業從技術探索走向規模化,都會經歷一個從“百花齊放”到“標準收斂”的階段。

      這是從多個萬億級市場規模的產業中驗證過的成功路徑,互聯網時代,協議標準讓全球網絡互聯互通;深度學習的爆發也離不開評測體系。它們并不直接創造產品,卻決定了技術進步的方向與速度。

      具身智能正處在類似的早期階段。過去兩年,從 VLA(Vision-Language-Action)模型到世界模型,技術路徑層出不窮,研究范式高度分散。但行業其實并不缺模型,也不缺演示視頻,缺的是一個能夠回答模型“在真實世界中究竟能做到什么程度”的統一標尺。

      沒有 Benchmark,模型提升還更多停留在敘事層面。有了 Benchmark,技術進步才具備可驗證、可復現、可積累的產業價值。

      在這樣的背景下,CVPR 2026 官方競賽 ManipArena 的啟動,其意義就不再是又多了一場比賽,而在于它試圖補齊具身智能領域最關鍵、卻長期缺位的一塊基礎設施:面向真實世界的統一評測體系。



      更重要的是,一個可持續運行的研發平臺能夠不斷沉淀數據、驗證結論并反哺模型迭代,形成“評測-改進-再評測”的正向循環,從而撬動整個領域從無序探索走向系統進化。



      從表面看,ManipArena 是一項機器人操作競賽,但其設計邏輯更接近一次系統化能力測量。

      長期以來,機器人評測依賴于仿真環境或精心布置、高度簡化的桌面抓取任務。這類基準雖然推動了算法進步,卻難以反映真實世界的復雜性。而真正能還原物理世界的長時序決策、空間移動、多模態感知、不可預測的物理交互,往往被排除在評測之外。這便導致,研發人員只能蒙眼狂奔,無法精準迭代,模型也可能是在實驗室表現亮眼,卻難以遷移到現實場景。

      ManipArena 的核心目標正是填補這一鴻溝。賽事共設置 20 個真實機器人任務,并在統一環境下進行真機評測,覆蓋推理能力、泛化能力、長時序決策以及多模態感知等關鍵維度。相比過往那些“簡單的抓取”測試,這更接近對完整操作能力的系統審視。



      ManipArena 賽事花了很多時間進行科學設計。其中一個重要設計是“一個模型完成全部任務”(One Model for All Tasks)。參賽者不能針對不同任務分別訓練模型,而必須依賴統一策略完成所有挑戰。這一規則本質上是在篩選通用能力,而非單點技巧或任務過擬合。

      另一項關鍵設計是分層 OOD(Out-of-Distribution)評估。每個任務通過物理屬性、空間布局和語義組合等多維變化,構造不同難度等級,從域內變化到語義外推,系統測試模型在未知情況下的表現。這使評測不再只給出一個分數,而是呈現能力曲線,揭示模型究竟卡在感知、推理還是執行環節。

      此外,ManipArena 將評測范圍從桌面操作擴展到包含導航與全身控制的移動任務,例如整理衣物、掛畫、收納物品等,覆蓋更接近真實生活的操作場景。這意味著它不再評估“機械臂技能”,而是評估“具身系統能力”。

      換句話說,這項競賽的目標并不是展示機器人已經能做什么,而是盡可能準確地界定它們暫時還做不到什么。

      這正是產業決策最需要的信息。所以這次賽事,帶來的不一定是榜單上的狂歡,但一定會幫助研究人員認清技術的真實狀況。



      ManipArena 更深遠的意義,或許在于它并不只是一次競賽,而是一個可持續運行的研究平臺,它有著“常態化評測”“持續性運營”“大幅降低門檻”等特色。

      首先,它具備常態化評測能力。參賽者可以基于公開數據訓練模型,通過遠程接口提交算法,由平臺完成真機測試并返回結果。這種機制不僅適用于比賽,也適用于日常研究驗證,使其成為一個持續可用的 Benchmark,而非一次性活動。

      其次,平臺提供了高質量真實世界數據與精細評測體系,包括 188 小時高質量真機數據,并承諾未來持續開源數據,為模型訓練與分析提供直接支撐。在機器人領域,獲取真實數據的成本極高,這種集中供給本身就是重要的科研基礎設施。

      更關鍵的是,它顯著降低了參與門檻。研究團隊無需購買昂貴機器人設備,僅依托一臺 GPU 服務器即可參與全流程評測。

      這是一個非常關鍵的轉折點,具身智能研究長期受制于硬件成本,只有少數實驗室擁有設備優勢,而大多數團隊難以開展真實世界實驗。遠程真機評測機制使更多研究者能夠參與競爭,擴大創新來源。

      額外多說一點,這種統一硬件的方式,避免了硬件差異對結果的影響。而且,由于自變量的“量子一號”等硬件設施是 AI 原生、為模型而生,其能夠更好的發揮模型性能。倘若 ManipArena 真能夠長續發展,也將有助于形成統一的硬件標準。



      當性能差異主要由算法而非設備決定時,研究重點將更像模型聚焦,從而加速軟件層面的競爭與收斂。

      “要想富,先修路”,今天的具身智能研究,想要從粗狂的野蠻生長走向規范化發展,正缺少這樣穩定、科學的基礎設施建設。



      外界可能會問,為什么是一家模型企業來推動這項工作?答案恰恰在于,只有真正開發過模型的人,才最清楚模型的能力邊界與潛在漏洞。

      首先要認識到,Benchmark 從來不是中性的。它隱含著對未來技術方向的假設:

      - 比方說,ManipArena 將推理、長時序決策和多模態融合放在核心位置,實際上是在對具身智能的主流發展路徑做出判斷,是對過去簡單任務評測的一次技術矯正; - 再者像,賽事中開源的多維數據里所特意強調的電機電流和關節速度,如官方所說“電機電流和關節速度可作為力和接觸的代理信號,當前主流模型(VLA、World Model)均未有效利用電流和關節速度信號”,ManipArena 此舉針對性開源將有助于推動力敏感策略研究;

      - 此外,官方在表態中多次強調 VLA 與世界模型同臺競技,是否各有千秋,到底孰優孰劣在賽中見真章,某種程度上也昭示出技術的趨勢。

      其次,做過模型的人更了解模型如何“取巧”。在許多基準測試中,模型可以通過統計偏差、環境規律或特定技巧獲得高分,而不具備真正的通用能力。ManipArena 的設計明顯試圖規避這些問題,例如統一環境、均勻分布變化、跨任務通用模型要求等,都旨在防止過擬合和投機行為。

      再次,真正科學有效的 Benchmark 設計往往來自大量經驗的積累。只有那些從零到一全鏈路自研,趟踩過足夠多的坑,才知道模型會在哪里崩潰。從這個角度看,“做題做多了的人更會出題”并非調侃,而是一種技術現實。評測體系本質上是對過去研究經驗的結構化沉淀,也是對未來技術路徑的引導。

      而作為長期堅持端到端具身大模型路線的企業,自變量深度參與了從 VLA 到世界模型融合范式的演進過程,對模型在真實物理世界中的能力邊界與失效模式有著一手認知。

      其自研的 WALL-A 模型首創將 VLA 與世界模型深度融合,在統一多模態輸入輸出架構下引入具身多模態思維鏈,通過時空狀態預測、視覺因果推理與可學習記憶機制,使機器人能夠在非結構化環境中實現更強的零樣本泛化能力 。同時,依托大規模真機強化學習,模型在持續與物理世界交互中積累高質量經驗,自主修復長尾問題,形成“基礎模型—真實交互—能力進化”的技術閉環 。而在此基礎上開源的 WALL-OSS 也表現出優異的長程操作能力、因果推理與空間理解能力。

      正是這種從模型架構、訓練方法到真實部署的全鏈路實踐,使自變量不僅深諳模型訓練坑坑洼洼、與模型技術發展同頻脈動,也成為具身智能能力評測體系的積極塑造者。 對于一項技術革命來說,其福澤社會從來不論到底是哪家企業的技術強弱,反而是從行業逐漸沉淀出可靠的標尺開始。放在具身智能領域,也是如此。

      模型的競賽只是見證技術迅猛發展一方面,如果 ManipArena 能夠持續運行,它記錄的將不僅是排行榜,更可能是具身智能走向產業化的時間刻度。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      天熱了,遇到這肉別手軟,比雞鴨魚便宜,比牛羊肉鮮美,營養解饞

      天熱了,遇到這肉別手軟,比雞鴨魚便宜,比牛羊肉鮮美,營養解饞

      阿龍美食記
      2026-05-19 12:26:36
      進球被吹+比分0-0,中超第2遭中超第3阻擊,38歲劉建業率隊6輪不勝

      進球被吹+比分0-0,中超第2遭中超第3阻擊,38歲劉建業率隊6輪不勝

      俯身沖頂
      2026-05-20 21:55:46
      澳大利亞接到直白警告,一旦明搶達爾文港,中國不排除采取反制

      澳大利亞接到直白警告,一旦明搶達爾文港,中國不排除采取反制

      劉森森
      2026-05-19 18:20:22
      把瑜伽褲穿成日常的松弛感美女

      把瑜伽褲穿成日常的松弛感美女

      只要高興就好
      2026-04-13 14:30:30
      他潛伏臺灣軍方數十年,為何臺灣寧可吃虧也不愿交換

      他潛伏臺灣軍方數十年,為何臺灣寧可吃虧也不愿交換

      長江濁酒客
      2026-05-10 14:30:08
      阿斯:若維持當前轉會市場增速,2031年足壇將迎10億歐元先生

      阿斯:若維持當前轉會市場增速,2031年足壇將迎10億歐元先生

      懂球帝
      2026-05-20 21:50:08
      西安發布重要公告:5月22日至6月22日,管控!

      西安發布重要公告:5月22日至6月22日,管控!

      91.6陜西交通廣播
      2026-05-20 14:45:14
      美中將終于交底:中國三大“底牌”已曝光,每一張都戳中西方痛點

      美中將終于交底:中國三大“底牌”已曝光,每一張都戳中西方痛點

      嘆為觀止易
      2026-05-17 01:26:08
      意外?59歲李鐵過生日社媒未更新 沒被封 網友:在里面吃碗長壽面

      意外?59歲李鐵過生日社媒未更新 沒被封 網友:在里面吃碗長壽面

      念洲
      2026-05-20 15:42:37
      林園損失慘重,不少產品慘遭劇烈贖回!碧桂園賣飛長鑫,或少賺300億

      林園損失慘重,不少產品慘遭劇烈贖回!碧桂園賣飛長鑫,或少賺300億

      金石隨筆
      2026-05-20 00:15:34
      翟欣欣逼死前夫,和其他男人不雅聊天曝光,當著自己父親在家約炮

      翟欣欣逼死前夫,和其他男人不雅聊天曝光,當著自己父親在家約炮

      小人物看盡人間百態
      2025-01-23 14:28:52
      新華社快訊:俄羅斯總統普京結束訪華離開北京

      新華社快訊:俄羅斯總統普京結束訪華離開北京

      海外網
      2026-05-20 22:58:05
      AI集體漲價后,打工人反而「贏麻」了?

      AI集體漲價后,打工人反而「贏麻」了?

      鳳凰WEEKLY
      2026-05-19 20:27:41
      2.8萬億杠桿資金續創新高!誰在為歷史天量買單?主力已搶先離場

      2.8萬億杠桿資金續創新高!誰在為歷史天量買單?主力已搶先離場

      小白鴿財經
      2026-05-20 10:35:45
      岳云鵬早期有多“卑微”,一張德云社舊相片,與君把酒話當年!

      岳云鵬早期有多“卑微”,一張德云社舊相片,與君把酒話當年!

      放開他讓wo來
      2026-02-25 22:52:19
      突發:取消入境免簽!中國澳洲護照都中招!

      突發:取消入境免簽!中國澳洲護照都中招!

      澳洲紅領巾
      2026-05-20 15:33:52
      二十多年來首次!普京訪華打破慣例,德媒:中國正在成為世界中心

      二十多年來首次!普京訪華打破慣例,德媒:中國正在成為世界中心

      臨云史策
      2026-05-20 12:24:26
      尼日爾撕毀4億美元合同,并驅逐中方高管,我方暗藏后手漂亮反擊

      尼日爾撕毀4億美元合同,并驅逐中方高管,我方暗藏后手漂亮反擊

      詭譎怪談
      2025-04-30 22:17:42
      46歲董潔北京SKP瘦到90斤,少女感十足顯年輕

      46歲董潔北京SKP瘦到90斤,少女感十足顯年輕

      無處遁形
      2026-05-17 08:52:12
      狂人回歸!穆里尼奧二進宮皇馬,官宣三大功勛離隊,姆巴佩徹底被放棄

      狂人回歸!穆里尼奧二進宮皇馬,官宣三大功勛離隊,姆巴佩徹底被放棄

      生活新鮮市
      2026-05-20 10:40:47
      2026-05-20 23:35:00
      具身研習社
      具身研習社
      記錄具身智能浪潮迭代。
      157文章數 1關注度
      往期回顧 全部

      科技要聞

      一文看懂谷歌I/O2026:谷歌打響智能體大戰

      頭條要聞

      白宮稱中方同意近3年每年買170億美元農產品 中方回應

      頭條要聞

      白宮稱中方同意近3年每年買170億美元農產品 中方回應

      體育要聞

      尼克斯贏下最窒息的一場翻盤,場場都是逆天局

      娛樂要聞

      王菲“沒事兒”,成年人學不來的松弛

      財經要聞

      白酒榜|汾酒營收凈利雙增 口子窖"造富"

      汽車要聞

      26.98萬起步 看小鵬GX如何詮釋一車多能以及滿配的科技與豪華

      態度原創

      本地
      教育
      家居
      手機
      健康

      本地新聞

      用云錦的方式,打開江蘇南京

      教育要聞

      我國被嚴重低估的3所大學,500多分就能上,畢業就業能完爆985!

      家居要聞

      日常印記 靜謐溫馨

      手機要聞

      蘋果公布App Store 2025年安全防護成績單

      專家:別把PRP當作“自體干細胞”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: AV极品无码专区亚洲AV| 九九国产视频| 亚洲午夜无码视频在线播放| 色中射| 影音先锋2020色资源网| 色婷婷在线精品国自产拍| 国产欧美精品午夜在线播放| 欧美伊人久久大香线蕉综合| A成片人| 国产乱人伦无无码视频试看| 成人免费视频视频在线观看 免费| 中文字幕永久精品国产| http://国产熟女.com| 亚洲色欲色欲www| 亚洲乱码中字幕综合| 日本乱码一区二区三区不卡| 免费无码又爽又刺激高潮| 成人A级片| 日韩人妻一曲二曲| 人妻少妇无码中文幕久久| 波多野吉衣亚洲Av无码| 国产女人乱人伦精品一区二区 | av片免费网站| 久久国产精品萌白酱免费| 一级片黄色一区二区三区| 亚洲欧美日本久久综合网站| 色综合久久久久综合99| 饥渴少妇av| 99精产国品一二三产品香蕉| 国产精品乱码一区二区三区| 午夜性影院爽爽爽爽爽爽| 免费VA国产高清大片在线| 国产美女精品一区| 亚洲精品无码你懂的网站| AV成人黄色电影网站| av网站免费线看精品| 奇米四色7777中文字幕| 尹人97| 亚洲日本欧美日韩中文字幕 | 国产综合色产在线精品| 婷婷五月亚洲综合图区|