<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      對(duì)話清華商宇丨從生成視頻到支撐行動(dòng),世界模型需要新的評(píng)測(cè)標(biāo)準(zhǔn)

      0
      分享至


      WorldArena:一套檢驗(yàn)世界模型能否從「生成世界」走向“使用世界”的評(píng)測(cè)框架

      作者丨鄭佳美

      編輯丨岑 峰

      在今天的 AI 敘事里,“世界模型”幾乎成了通往具身智能的必經(jīng)之路。

      它被期待理解物理規(guī)律、預(yù)測(cè)環(huán)境變化,并為機(jī)器人決策提供依據(jù)。但一個(gè)尖銳的問題是:當(dāng)一個(gè)模型能生成一段足夠逼真的未來視頻時(shí),我們究竟該相信它真的理解了世界,還是只是更擅長(zhǎng)復(fù)刻世界的表象?

      咬了一口的蘋果會(huì)自動(dòng)愈合,墜落的杯子在空中漂移——在具身智能的視角下,這種AI視頻“感知與功能的斷裂”無疑是致命的。

      一個(gè)模型即便能生成 4K 分辨率的視覺幻象,如果它無法理解重力約束、因果關(guān)聯(lián)與物體永久性,它就永遠(yuǎn)無法支撐機(jī)器人在復(fù)雜物理世界中的抓取、規(guī)劃與交互。視覺真實(shí)不等于功能可用,這道長(zhǎng)期被忽視的“裂縫”,正是當(dāng)前視覺智能通往 AGI 的最大障礙。

      CVPR 2026 正在釋放一個(gè)明確的信號(hào):計(jì)算機(jī)視覺(CV)與計(jì)算機(jī)圖形學(xué)(CG)的傳統(tǒng)邊界正在模糊。視覺研究的主線正從單純的“像素預(yù)測(cè)”轉(zhuǎn)向?qū)Α笆澜鐒?dòng)力學(xué)”的重建,世界模型不再僅僅滿足于“看”,而是要構(gòu)建一個(gè)具備物理一致性的內(nèi)部沙盒。這意味著,下一代視覺智能必須跨越 2D 藩籬,去硬碰硬地解決因果律、重力與 3D 空間的拓?fù)溥壿嫛?/p>

      這種轉(zhuǎn)向,不僅標(biāo)志著視覺研究正在從“圖像處理”回歸到“世界建?!?,更核心的演進(jìn)在于,世界模型正從“被動(dòng)觀測(cè)”轉(zhuǎn)向“動(dòng)作驅(qū)動(dòng)”。

      作為 CVPR 2026 備受矚目的競(jìng)賽項(xiàng)目,清華團(tuán)隊(duì)提出的 WorldArena 恰逢其時(shí)。在論文《WorldArena: A Unified Benchmark for Evaluating Perception and Functional Utility of Embodied World Models》中,它審問的是模型作為“具身大腦”的真實(shí)含金量:能否作為可靠的數(shù)據(jù)引擎?能否充當(dāng)精準(zhǔn)的策略評(píng)估環(huán)境?能否在長(zhǎng)程任務(wù)中保持邏輯的不漂移?

      它將會(huì)對(duì)過去世界模型評(píng)測(cè)沿用視頻生成的邏輯——畫面是否清晰、運(yùn)動(dòng)是否自然、結(jié)果是否逼真——進(jìn)行重新審視。

      但在具身場(chǎng)景中,“看起來像”遠(yuǎn)遠(yuǎn)不等于“用得起來”。一個(gè)模型即便能生成高質(zhì)量視頻,也可能無法支持機(jī)器人完成抓取、規(guī)劃、交互和長(zhǎng)程執(zhí)行。換句話說,視覺真實(shí)與功能可用之間,存在一道尚未被充分正視的裂縫。

      而 WorldArena,正是試圖把世界模型從“生成世界”的審美競(jìng)賽,推向“使用世界”的能力審判。

      除此之外,作為CVPR 2026 關(guān)鍵 Workshop 競(jìng)賽的評(píng)測(cè)基礎(chǔ),WorldArena 的目標(biāo)不僅是提供一個(gè)排行榜,更是為具身世界模型建立一套面向真實(shí)任務(wù)的能力坐標(biāo):它不只問模型能否預(yù)測(cè)接下來會(huì)發(fā)生什么,也進(jìn)一步追問,這些預(yù)測(cè)能否轉(zhuǎn)化為動(dòng)作?能否支撐 agent 決策?能否在長(zhǎng)程任務(wù)中保持穩(wěn)定?能否真正成為具身智能通向物理世界的一部分?

      圍繞這項(xiàng)工作,AI 科技評(píng)論與論文主要作者商宇展開了一場(chǎng)深度對(duì)話。從世界模型評(píng)測(cè)為何不能止步于視頻質(zhì)量,到當(dāng)前模型為何會(huì)在高視覺分?jǐn)?shù)與低功能表現(xiàn)之間斷裂;從 Benchmark 如何推動(dòng)訓(xùn)練范式轉(zhuǎn)向視頻 - 動(dòng)作聯(lián)合建模,到 WorldArena 自身如何避免成為新的路徑依賴,這場(chǎng)對(duì)話觸及的并不只是一個(gè)評(píng)測(cè)平臺(tái),而是世界模型研究正在面臨的一次范式轉(zhuǎn)換。


      論文地址:https://arxiv.org/pdf/2602.08971

      項(xiàng)目地址:https://world-arena.ai/

      01


      給世界模型設(shè)下一場(chǎng)「行動(dòng)考試」

      AI 科技評(píng)論:能否先以團(tuán)隊(duì)成員、主要作者的身份,介紹一下 WorldArena 這項(xiàng)工作?

      商宇:WorldArena 是我們?cè)诮衲昴瓿醢l(fā)布的、專門面向具身世界模型的評(píng)測(cè)平臺(tái)。它的出發(fā)點(diǎn)是:世界模型這個(gè)概念近期非常受關(guān)注,但大家對(duì)它的定義還沒有完全收斂;同時(shí),過去很多評(píng)測(cè)仍然把世界模型當(dāng)作視頻生成工具,主要關(guān)注生成視頻的質(zhì)量,也就是視頻是否好看、是否逼真。

      但在具身場(chǎng)景中,僅生成好看的視頻遠(yuǎn)遠(yuǎn)不夠。具身世界模型不是為了“拍電影”,它的核心任務(wù)是建模外部環(huán)境的動(dòng)態(tài)轉(zhuǎn)移規(guī)律,并進(jìn)一步輔助下游智能體做決策。因此,世界模型最終必須服務(wù)于智能體與環(huán)境的交互。

      基于這個(gè)判斷,我們認(rèn)為現(xiàn)有評(píng)估存在方向性不足:評(píng)估具身世界模型時(shí),不能只看生成結(jié)果是否像真實(shí)視頻,更要看它是否能支持下游功能性任務(wù),是否真正有助于智能體與環(huán)境交互。

      因此,我們建立了一套統(tǒng)一評(píng)測(cè)框架,主要從兩個(gè)維度評(píng)估模型能力。第一個(gè)維度是視覺質(zhì)量。由于目前世界模型的主要形態(tài)仍然是視頻生成,開環(huán)的視頻生成質(zhì)量依然需要評(píng)估。

      第二個(gè)維度,也是我們更核心的貢獻(xiàn),是面向功能性任務(wù)的評(píng)估。圍繞具身場(chǎng)景,我們進(jìn)一步從世界模型可能承擔(dān)的角色出發(fā),設(shè)計(jì)了三類應(yīng)用評(píng)估。

      第一類是把世界模型作為數(shù)據(jù)生成引擎。它可以合成大量數(shù)據(jù),用于緩解具身真實(shí)數(shù)據(jù)稀缺的問題,并輔助下游策略模型訓(xùn)練。

      第二類是把世界模型作為在線交互環(huán)境,用來評(píng)估策略模型。前提是世界模型能夠捕捉環(huán)境動(dòng)態(tài),從而充當(dāng)真實(shí)環(huán)境的代理。例如,過去評(píng)估一個(gè) VLA 策略,通常需要把它部署到仿真器或真實(shí)環(huán)境中運(yùn)行;如果世界模型這條路線可行,就可以讓策略與世界模型交互,再根據(jù)交互結(jié)果判斷策略質(zhì)量。

      第三類是把世界模型作為具身大腦,或者說作為 agent / action planner。既然世界模型能夠生成環(huán)境轉(zhuǎn)移后的狀態(tài),就可以從狀態(tài)預(yù)測(cè)結(jié)果中提取動(dòng)作,并把這些動(dòng)作直接用于下游執(zhí)行。

      總體來說,WorldArena 同時(shí)關(guān)注兩個(gè)問題:世界模型是否會(huì)生成這個(gè)世界,以及它能否利用生成結(jié)果支持智能體與世界交互。

      AI 科技評(píng)論:在這個(gè)框架中,一個(gè)合格的世界模型至少需要滿足哪些能力?

      商宇:我們的評(píng)估分為感知和功能兩個(gè)維度,兩者有關(guān)聯(lián),但并不嚴(yán)格綁定。如果一個(gè)模型想在榜單上取得較好表現(xiàn),首先視頻生成質(zhì)量必須過關(guān)。也就是說,它在感知層面要盡量真實(shí)。我們?cè)u(píng)測(cè)了開源和閉源模型,發(fā)現(xiàn)閉源模型在第一輪測(cè)試中的整體分?jǐn)?shù)更高,這說明較好的視覺質(zhì)量確實(shí)有助于獲得更好結(jié)果。

      感知層面的基本要求是:模型生成的未來狀態(tài)和畫面要符合世界運(yùn)行規(guī)律。至少在人眼看來,它不能違背基礎(chǔ)物理規(guī)律,例如出現(xiàn)明顯穿模、異常形變等問題。

      更進(jìn)一步,模型還需要具備任務(wù)執(zhí)行能力。一個(gè)合格的世界模型不僅要推斷出合理的未來狀態(tài),還要讓這些狀態(tài)能夠轉(zhuǎn)化為有效動(dòng)作序列,從而幫助智能體完成交互。

      概括來說,最低要求有兩點(diǎn):第一,感知層面真實(shí);第二,對(duì)智能體決策產(chǎn)生增益。


      AI 科技評(píng)論:很多模型可以預(yù)測(cè)接下來會(huì)發(fā)生什么,但不一定理解為什么會(huì)發(fā)生。WorldArena 更接近評(píng)估哪一種能力?

      商宇:目前 WorldArena 更側(cè)重評(píng)估“接下來會(huì)發(fā)生什么”,也就是預(yù)測(cè)結(jié)果是否合理。我們的評(píng)估仍然基于模型行為:先讓模型輸出視頻或動(dòng)作,再判斷輸出是否符合認(rèn)知、是否接近真實(shí)視頻或真實(shí)結(jié)果。因此,它本質(zhì)上評(píng)的是模型預(yù)測(cè)是否正確。

      至于模型是否真正理解“為什么會(huì)發(fā)生”,這個(gè)問題更難。它可能涉及模型內(nèi)部機(jī)理研究,也可能需要因果建模、反事實(shí)推斷等方法。

      例如,在機(jī)器人抓取礦泉水瓶的任務(wù)中,如果我們想判斷模型只是擬合了某一種抓取軌跡,還是理解了不同動(dòng)作的含義,就需要在同一場(chǎng)景中給出不同動(dòng)作,觀察模型是否產(chǎn)生有差異的響應(yīng)。類似設(shè)計(jì)才更接近因果性或反事實(shí)推斷。

      因此,就當(dāng)前版本而言,WorldArena 主要評(píng)估預(yù)測(cè)是否正確,而不是直接證明模型是否理解因果關(guān)系。

      AI 科技評(píng)論:論文中提到用 16 個(gè) perception 指標(biāo)刻畫 world understanding。具體是怎樣設(shè)置的?

      商宇:我們把整體評(píng)估分為 perception 和 functionality 兩大類。Perception 部分基于世界模型合成的視頻,對(duì)視頻進(jìn)行多維診斷。我們參考了許多已有研究,最終總結(jié)出六個(gè)大維度,并進(jìn)一步拆分為 16 個(gè)感知指標(biāo)。

      第一個(gè)維度是 visual quality,即視覺質(zhì)量。這是最基礎(chǔ)的層面,關(guān)注視頻分辨率是否足夠高、畫面是否清晰、整體布局是否與真實(shí)場(chǎng)景一致。第二類是面向具身場(chǎng)景更關(guān)鍵的能力,包括動(dòng)作質(zhì)量、物理遵循性、3D 準(zhǔn)確性、可控性,以及內(nèi)容一致性等。

      動(dòng)作質(zhì)量會(huì)關(guān)注動(dòng)作連貫性,例如動(dòng)作是否出現(xiàn)突變。物理遵循性用于判斷生成結(jié)果是否符合基礎(chǔ)物理規(guī)律。由于物理規(guī)律較抽象,我們會(huì)借助外部 VLM 進(jìn)行評(píng)估,讓它充當(dāng)類似人類評(píng)判者的角色。

      3D 準(zhǔn)確性關(guān)注視頻空間結(jié)構(gòu)是否正確。只看 2D 畫面時(shí),現(xiàn)在的模型往往能擬合得很好;但物體之間的空間關(guān)系可能并不自然,投射到 3D 空間后就會(huì)暴露問題。

      可控性評(píng)估模型是否能 follow 外部指令。指令可以是文本,也可以是機(jī)器人動(dòng)作。我們希望判斷模型究竟只是 overfit 某段視頻,還是確實(shí)理解并響應(yīng)外部條件。

      內(nèi)容一致性則關(guān)注視頻前后是否保持一致,這是一個(gè)基礎(chǔ)但重要的能力。整體來看,六個(gè)大維度共同構(gòu)成對(duì)感知能力的評(píng)估,并進(jìn)一步細(xì)化為 16 個(gè) perception 指標(biāo)。


      AI 科技評(píng)論:一些高視覺質(zhì)量模型在功能評(píng)估中表現(xiàn)并不好。你們認(rèn)為這種斷裂的原因是什么?

      商宇:這個(gè)結(jié)果最初也讓我們有些意外。后續(xù)分析后,我們認(rèn)為主要有兩類原因。第一類原因是訓(xùn)練目標(biāo)沒有對(duì)齊。許多視頻生成模型在第一階段微調(diào)時(shí),本質(zhì)上仍然是在擬合視頻像素。這個(gè)訓(xùn)練過程并沒有真正涉及視頻與動(dòng)作之間的關(guān)系,也沒有建模因果關(guān)系。

      因此,這些模型訓(xùn)練出來后主要服務(wù)于“像素是否擬合得好”“圖像是否逼真”。換句話說,模型優(yōu)化目標(biāo)仍然集中在 perception 上,而不是功能性交互。

      第二類原因是功能任務(wù)對(duì)模型能力要求更高。視頻生成通常是在 2D 空間中完成,但動(dòng)作預(yù)測(cè)和真實(shí)執(zhí)行本質(zhì)上發(fā)生在 3D 空間中。例如,物體關(guān)系的錯(cuò)位在 2D 圖像中可能不明顯,但一旦投射到 3D 空間,就會(huì)影響動(dòng)作執(zhí)行。這意味著模型可能過度擬合了二維表征,卻沒有充分建模三維空間和動(dòng)作之間的關(guān)系。

      此外,任務(wù)設(shè)置本身也帶來挑戰(zhàn)。Functionality 部分要求世界模型真正輸出動(dòng)作,而當(dāng)前視頻生成模型通常只能生成較短片段,一次可能只有幾十幀。但現(xiàn)實(shí)動(dòng)作執(zhí)行往往是長(zhǎng)程任務(wù),很少能通過一次視頻預(yù)測(cè)完整完成。

      因此,模型必須經(jīng)歷長(zhǎng)程、迭代式 rollout。我們觀察到,許多模型單次生成效果尚可,但迭代后會(huì)產(chǎn)生誤差累積:第一次生成可能準(zhǔn)確,后續(xù)動(dòng)作會(huì)逐漸漂移,穩(wěn)定性下降。

      所以,對(duì)具身任務(wù)而言,模型不僅需要單次生成質(zhì)量高,還需要長(zhǎng)程穩(wěn)定性。訓(xùn)練目標(biāo)錯(cuò)配和長(zhǎng)時(shí)序穩(wěn)定性不足,是造成這種斷裂的主要原因。

      AI 科技評(píng)論:也就是說,當(dāng)前視頻生成模型的問題之一是單次預(yù)測(cè)可以,但長(zhǎng)程執(zhí)行會(huì)亂?

      商宇:是的,長(zhǎng)程穩(wěn)定性是一個(gè)重要問題。除此之外,當(dāng)前模型往往仍在擬合 2D 圖像分布,與動(dòng)作之間的建模關(guān)聯(lián)不夠。雖然我們?cè)?WorldArena 中設(shè)置了二階段適配,用監(jiān)督學(xué)習(xí)把世界模型學(xué)到的視頻表征和動(dòng)作聯(lián)系起來,但這個(gè)過程并不是原生訓(xùn)練,而是后訓(xùn)練,并且相對(duì)輕量。

      這種適配可以幫助模型學(xué)習(xí)視頻到動(dòng)作的關(guān)系,但不能從根本上解決問題。更本質(zhì)的方向,是讓世界模型進(jìn)行視覺內(nèi)容與動(dòng)作內(nèi)容的聯(lián)合建?!,F(xiàn)在已有一些工作在原生地對(duì)齊視頻與動(dòng)作關(guān)系,我認(rèn)為這會(huì)更有幫助。

      另一方面,功能性任務(wù)要求模型具備長(zhǎng)程穩(wěn)定性,才能獨(dú)立、完整地執(zhí)行任務(wù)。只有當(dāng)模型在長(zhǎng)程執(zhí)行中保持穩(wěn)定,它在功能榜單上的表現(xiàn)才會(huì)顯著提升。

      AI 科技評(píng)論:如果一個(gè)模型在 WorldArena 上得分不高,問題更可能是模型能力不夠,還是訓(xùn)練目標(biāo)沒有對(duì)齊?

      商宇:兩種情況都會(huì)存在。有些模型得分不理想,是因?yàn)槟P捅旧砟芰Σ蛔悖梢曨l質(zhì)量不高。對(duì)于這類情況,可以認(rèn)為它在基礎(chǔ)生成能力上還沒有達(dá)標(biāo)。

      另一些模型生成畫面看起來不錯(cuò),從人的角度看沒有明顯問題,但放到任務(wù)執(zhí)行評(píng)測(cè)中表現(xiàn)不佳。對(duì)于這類情況,我更傾向于認(rèn)為是訓(xùn)練目標(biāo)沒有完全對(duì)齊下游交互能力。

      這類模型往往開環(huán)能力強(qiáng),也就是生成視頻本身沒問題;但閉環(huán)能力弱,不能穩(wěn)定支持動(dòng)作預(yù)測(cè)和交互執(zhí)行。原因可能是視頻到動(dòng)作的映射沒有學(xué)好,也可能是模型只擅長(zhǎng)局部預(yù)測(cè),一旦進(jìn)入長(zhǎng)程預(yù)測(cè)就會(huì)出問題。

      因此,WorldArena 上的低分既可能來自基礎(chǔ)模型能力不足,也可能來自訓(xùn)練目標(biāo)與功能性交互能力之間的錯(cuò)配。


      AI 科技評(píng)論:如果 WorldArena 這類評(píng)估框架成為主流,會(huì)不會(huì)反過來推動(dòng)新的訓(xùn)練方式?

      商宇:我認(rèn)為會(huì),但這是一個(gè)循序漸進(jìn)的過程。作為評(píng)測(cè)工作,我們現(xiàn)階段主要希望提供實(shí)驗(yàn)現(xiàn)象、觀察和 insight,讓大家意識(shí)到:只做視頻擬合,模型可能在視覺質(zhì)量榜單上很高,但在功能性榜單上很低。

      我們并不是完全否定當(dāng)前的視頻學(xué)習(xí)范式。許多視頻基座模型通過這種方式持續(xù) scaling,基礎(chǔ)能力確實(shí)在提升,這對(duì)下游任務(wù)是有幫助的。

      但如果目標(biāo)是真正的世界模型,訓(xùn)練范式就不能只包含視頻生成和重建,還需要把動(dòng)作模態(tài)納入進(jìn)來。無論是根據(jù)視頻預(yù)測(cè)動(dòng)作,還是做 action-controlled video generation,都是必要的;關(guān)鍵是讓視頻和動(dòng)作兩種模態(tài)天然對(duì)齊。

      現(xiàn)在已經(jīng)有一類模型被稱為 World Action Model,也就是 WAM。它們?cè)噲D訓(xùn)練一個(gè)統(tǒng)一模型,同時(shí)具備視頻預(yù)測(cè)和動(dòng)作預(yù)測(cè)能力,并在兩種模態(tài)之間設(shè)計(jì)明確的對(duì)齊機(jī)制,例如 joint attention。

      所以,從研究趨勢(shì)看,整個(gè)方向已經(jīng)在向視頻 - 動(dòng)作聯(lián)合建模轉(zhuǎn)變。這也符合我們通過 WorldArena 得到的判斷。

      02


      WorldArena 的邊界與自我校準(zhǔn)

      AI 科技評(píng)論:如果模型在某些任務(wù)上失敗,說明它真的不理解事件,還是只是沒有見過足夠多的類似數(shù)據(jù)?

      商宇:我們不會(huì)把榜單表現(xiàn)不理想直接等同于“模型沒有理解這個(gè)事件”。就當(dāng)前版本的 WorldArena 而言,我們的重點(diǎn)還不是泛化能力評(píng)估,也沒有專門設(shè)置 OOD 場(chǎng)景。在評(píng)測(cè)設(shè)置下,模型基本見過類似數(shù)據(jù);如果要測(cè)某個(gè)任務(wù),我們會(huì)給它相應(yīng)數(shù)據(jù)進(jìn)行訓(xùn)練。因此,我們不傾向于把失敗主要?dú)w因于“沒有見過足夠多的數(shù)據(jù)”。

      在這個(gè)前提下,模型失敗通常可以拆成兩個(gè)階段分析。

      第一階段是開環(huán)視頻生成質(zhì)量。如果模型連視頻預(yù)測(cè)本身都做不好,說明它的視頻學(xué)習(xí)質(zhì)量就不高。

      第二階段是視頻到動(dòng)作的映射,以及視頻與動(dòng)作的聯(lián)合建模。如果視頻生成質(zhì)量尚可,但閉環(huán)任務(wù)或長(zhǎng)程任務(wù)失敗,問題更可能來自動(dòng)作預(yù)測(cè)不穩(wěn)定。

      真實(shí)執(zhí)行中,錯(cuò)誤往往難以校正。例如機(jī)器人抓瓶子時(shí),如果中途掉落,當(dāng)前模型通常缺少錯(cuò)誤恢復(fù)能力,后續(xù)會(huì)持續(xù)出錯(cuò)。

      因此,在當(dāng)前設(shè)置中,許多失敗更可能反映模型缺少足夠穩(wěn)定的動(dòng)作預(yù)測(cè)和長(zhǎng)程執(zhí)行能力,而不是簡(jiǎn)單說明它沒有見過類似數(shù)據(jù)。

      AI 科技評(píng)論:WorldArena 評(píng)估的是世界模型,但 agent 設(shè)計(jì)也會(huì)影響結(jié)果。你們?nèi)绾螀^(qū)分世界模型不夠好和 agent 沒有正確利用世界模型?

      商宇:這是一個(gè)很有技術(shù)意義的問題,我們?cè)趯?shí)驗(yàn)中也做了相應(yīng)排查。我們的動(dòng)作預(yù)測(cè)流程是在世界模型后面額外加入一個(gè)逆動(dòng)力學(xué)模型,即 IDM。IDM 的作用是從世界模型預(yù)測(cè)出的狀態(tài)特征中映射出動(dòng)作。因此,一個(gè)潛在擔(dān)憂是:結(jié)果不好是否因?yàn)?IDM 或整個(gè) pipeline 存在性能上限,而不是世界模型本身不夠好。

      為了排除這個(gè)混淆因素,我們做了一個(gè)上限實(shí)驗(yàn):不使用世界模型預(yù)測(cè)的視頻,而是給 IDM 輸入真實(shí)視頻。這個(gè)設(shè)定相當(dāng)于假設(shè)世界模型預(yù)測(cè)完全等同于真實(shí)世界,再觀察動(dòng)作能否被正確預(yù)測(cè)。

      實(shí)驗(yàn)結(jié)果顯示,在輸入真實(shí)視頻并經(jīng)過二階段動(dòng)作預(yù)測(cè)訓(xùn)練后,IDM 能完成大部分任務(wù),成功率基本在 80% 以上。

      而當(dāng)前世界模型在同一體系下的結(jié)果與這個(gè)上限還有明顯差距。由此我們判斷,現(xiàn)有 pipeline 雖然不一定是最完美設(shè)計(jì),但還沒有達(dá)到性能天花板;它能夠比較客觀地暴露問題。

      綜合來看,當(dāng)前主要瓶頸仍然在 world model 本身,而不是 agent 或 IDM 沒有正確利用它。

      AI 科技評(píng)論:WorldArena 是否類似一個(gè)黑盒評(píng)估工具?

      商宇:它不是完全的黑盒。許多 Benchmark 本質(zhì)上都是行為層面的評(píng)估,WorldArena 也不例外。但它在設(shè)計(jì)上具有一定診斷性。

      首先,我們同時(shí)做開環(huán)和閉環(huán)評(píng)測(cè),可以幫助判斷模型問題來自生成能力,還是行動(dòng)能力。其次,在生成能力內(nèi)部,我們又拆分出十幾個(gè)子維度指標(biāo)。這能幫助研究者更細(xì)致地審視模型能力。例如,通過雷達(dá)圖可以看到不同模型的優(yōu)勢(shì)和劣勢(shì):有些模型可能 3D 重建質(zhì)量高,有些模型可能動(dòng)作連貫性更好。

      因此,WorldArena 不只是輸出一個(gè)最終分?jǐn)?shù),它還提供中間結(jié)果和多維診斷證據(jù)。相比只看最終閉環(huán)執(zhí)行成功率的評(píng)測(cè),它并不完全是端到端黑盒。

      但如果更嚴(yán)格地問,它能否解釋模型內(nèi)部機(jī)制、能否證明模型真正理解世界,目前版本還做不到。后續(xù)我們希望引入反事實(shí)推斷等方法,進(jìn)一步提升可解釋性。

      AI 科技評(píng)論:如果模型在 WorldArena 上表現(xiàn)好,是否意味著它已經(jīng)接近真實(shí)機(jī)器人部署?

      商宇:如果模型在 WorldArena 上表現(xiàn)好,尤其是在 functionality 維度表現(xiàn)好,我認(rèn)為它確實(shí)更有潛力,但這并不等同于它一定能在真實(shí)物理世界中運(yùn)行。

      這是當(dāng)前評(píng)測(cè)的局限之一,也會(huì)是未來工作。我們?nèi)匀幻媾R sim-to-real gap。當(dāng)前評(píng)測(cè)主要在仿真環(huán)境中完成,這樣做是為了評(píng)測(cè)便利,也為了排除真實(shí)環(huán)境中的偶然因素。

      真實(shí)環(huán)境遠(yuǎn)比仿真環(huán)境復(fù)雜。它會(huì)受到傳感器噪聲、執(zhí)行誤差、硬件差異等因素影響,不同模型對(duì)硬件的適配程度也可能不同。未來,我們希望提供一套標(biāo)準(zhǔn)化的真機(jī)評(píng)測(cè)流程,進(jìn)一步分析仿真表現(xiàn)與真實(shí)部署能力之間的相關(guān)性。

      就當(dāng)前結(jié)果看,現(xiàn)有模型距離真實(shí)物理世界部署仍有較大差距。模型在仿真器中需要達(dá)到足夠高的性能,才可能有希望遷移到真實(shí)環(huán)境;目前它們與一些 VLA 模型相比,差距仍然不小。

      AI 科技評(píng)論:Benchmark 往往會(huì)反過來塑造研究方向。如何避免 WorldArena 成為新的路徑依賴?

      商宇:這是大多數(shù) Benchmark 都會(huì)面對(duì)的問題。從設(shè)計(jì) Benchmark 的角度看,我們的出發(fā)點(diǎn)是:當(dāng)前模型開發(fā)方向與我們希望模型具備的能力之間存在差距,因此需要補(bǔ)充新的評(píng)測(cè)維度,引導(dǎo)研究進(jìn)一步接近真實(shí)需求。

      但 Benchmark 的價(jià)值不應(yīng)是讓所有人把刷榜作為模型研發(fā)的第一目標(biāo)。它更應(yīng)該作為能力診斷工具,幫助縮小研究目標(biāo)與真實(shí)需求之間的距離。

      對(duì)于 WorldArena 來說,它的價(jià)值在于提醒大家:世界模型不能只做到視覺真實(shí),還要在功能層面可用。它提供的是觀察和 insight,而不是唯一評(píng)價(jià)標(biāo)準(zhǔn)。

      隨著模型能力逐漸接近,Benchmark 本身也必須持續(xù)迭代。模型最終要服務(wù)真實(shí)需求。對(duì)于具身場(chǎng)景,最終目標(biāo)是讓世界模型在真實(shí)物理交互中跑通,并把性能做上去。

      因此,我們也需要不斷把更真實(shí)的需求納入評(píng)測(cè),例如未來加入真實(shí)環(huán)境下的評(píng)估和診斷,讓 Benchmark 與現(xiàn)實(shí)需求更對(duì)齊。

      對(duì)研究者來說,WorldArena 可以作為基礎(chǔ)工具,但更重要的是用它判斷模型距離真實(shí)世界還有多大差距,而不是把它當(dāng)作唯一審判標(biāo)準(zhǔn)。

      AI 科技評(píng)論:如果一個(gè)模型在真實(shí)世界表現(xiàn)很好,但在 WorldArena 上得分不高,這更可能是誰的問題?

      商宇:如果真的出現(xiàn)這種模型——目前我們還沒有收到類似反饋——我不會(huì)先入為主地認(rèn)為是模型的問題,而會(huì)把它視為一個(gè)有價(jià)值的信號(hào)。

      一種可能是,這個(gè)模型采用了 WorldArena 現(xiàn)有設(shè)計(jì)沒有覆蓋到的技術(shù)路徑。它可能通過特殊設(shè)計(jì)在真實(shí)世界或動(dòng)作預(yù)測(cè)上表現(xiàn)很好,但我們的 Benchmark 沒有體現(xiàn)出來。這說明評(píng)測(cè)框架與真實(shí)世界之間仍有未對(duì)齊之處。

      另一種可能是,當(dāng)前評(píng)價(jià)體系需要進(jìn)一步完善。我們需要對(duì)這類模型做更詳細(xì)診斷:看它在 WorldArena 中具體哪些情況表現(xiàn)不好,再與它在真實(shí)環(huán)境中的表現(xiàn)交叉分析,判斷問題是共性的,還是因?yàn)槟P?overfit 到了某個(gè)特定場(chǎng)景。

      因此,可能是評(píng)估維度不夠,也可能是模型并非通用能力強(qiáng),而是在某些特定場(chǎng)景表現(xiàn)好。兩種情況都需要進(jìn)一步分析。


      AI 科技評(píng)論:如果未來世界模型取得新的突破,WorldArena 是否也需要重構(gòu)?

      商宇:這是肯定的。模型和 Benchmark 應(yīng)該是螺旋上升的關(guān)系。通常是先出現(xiàn)一批模型,然后我們?cè)偎伎既绾蜗到y(tǒng)性評(píng)判這些模型。當(dāng)前 Benchmark 的設(shè)計(jì)針對(duì)的是當(dāng)前模型能力。隨著模型能力增強(qiáng),Benchmark 必須跟著進(jìn)化,否則會(huì)干擾研究判斷。

      Benchmark 本應(yīng)起到牽引作用。如果模型已經(jīng)往前發(fā)展,而 Benchmark 仍停留在舊能力上,它就會(huì)從方向盤變成后視鏡。

      從世界模型領(lǐng)域看,目前行業(yè)仍處于較早期階段。WorldArena 的一步,是從視覺導(dǎo)向走向功能導(dǎo)向。如果未來所有模型都能把當(dāng)前榜單刷到接近飽和,無法再體現(xiàn)差異,我們就需要引入更高標(biāo)準(zhǔn)、更有挑戰(zhàn)性的任務(wù),并適配新的模型能力。

      例如,現(xiàn)在已有模型不再局限于單視角視頻生成,未來可能出現(xiàn)更多視角、更多模態(tài)。這些變化都需要后續(xù) Benchmark 納入。所以,WorldArena 不會(huì)是靜態(tài)框架,而應(yīng)該長(zhǎng)期迭代,并吸收社區(qū)共同發(fā)現(xiàn)的新問題,持續(xù)推出更高質(zhì)量的評(píng)測(cè)任務(wù)。

      AI 科技評(píng)論:能否介紹一下這次 CVPR workshop 挑戰(zhàn)賽的情況?

      商宇:我們以 WorldArena Benchmark 為基礎(chǔ),在 CVPR 2026 組織了一個(gè)公開挑戰(zhàn)賽。比賽內(nèi)容與我們的評(píng)測(cè)基本一致。

      挑戰(zhàn)賽分為兩個(gè)賽道,對(duì)應(yīng)感知和功能兩個(gè)維度。Track 1 面向視頻生成質(zhì)量,會(huì)綜合 16 個(gè)感知質(zhì)量指標(biāo),評(píng)估世界模型的視頻生成能力。

      Track 2 面向功能性評(píng)測(cè)。為了方便參賽團(tuán)隊(duì)實(shí)現(xiàn),我們優(yōu)先設(shè)置了數(shù)據(jù)引擎和策略評(píng)估兩個(gè)任務(wù)。這兩個(gè)任務(wù)能夠覆蓋現(xiàn)有大部分模型能力:文本可控視頻模型適合數(shù)據(jù)引擎任務(wù),動(dòng)作可控模型適合策略評(píng)估任務(wù)。

      整個(gè)比賽周期約兩個(gè)月,從 3 月底開始。目前處于中期階段,我們也準(zhǔn)備公布前一個(gè)月的中期成績(jī)。截至目前,比賽在社區(qū)中已有一定影響力。不到一個(gè)月內(nèi),提交次數(shù)接近 100 次,第一名成績(jī)也在持續(xù)刷新,參與比較積極。

      Track 2 目前參與人數(shù)相對(duì)少一些,因此機(jī)會(huì)可能更大,獎(jiǎng)金也更多,但難度確實(shí)更高。參賽隊(duì)伍覆蓋學(xué)術(shù)界、工業(yè)界和初創(chuàng)公司。我們希望在 CVPR 會(huì)議現(xiàn)場(chǎng)與大家進(jìn)一步交流,并把挑戰(zhàn)賽中的觀察和 insight 呈現(xiàn)給社區(qū)。

      這次去 CVPR 現(xiàn)場(chǎng),一定不要錯(cuò)過

      【認(rèn)識(shí)大牛+賺外快】的機(jī)會(huì)

      需要你做什么:把你最關(guān)注的10個(gè)大會(huì)報(bào)告,每頁P(yáng)PT都拍下來

      你能獲得什么?

      認(rèn)識(shí)大牛:你將可以進(jìn)入CVPR名師博士社群;

      錢多活少:提供豐厚獎(jiǎng)金,任務(wù)量精簡(jiǎn);

      聽會(huì)自由:你的行程你做主,順手就把外快賺。拍下你最感興趣的10個(gè)報(bào)告PPT即可。

      如果你即將前往CVPR,想邊聽會(huì)邊賺錢,還能順便為AI學(xué)術(shù)社區(qū)做貢獻(xiàn)、認(rèn)識(shí)更多大牛,歡迎聯(lián)系我們:[添加微信號(hào):MS_Yahei]

      【限額5位,先到先得】

      未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

      公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      我今年72了,用一生的經(jīng)驗(yàn)告訴你:永遠(yuǎn)不要跟任何人,透露這3個(gè)底牌,哪怕是最親的人

      我今年72了,用一生的經(jīng)驗(yàn)告訴你:永遠(yuǎn)不要跟任何人,透露這3個(gè)底牌,哪怕是最親的人

      東林夕亭
      2026-05-07 09:32:41
      吳心伯親歷特朗普歡迎晚宴:同桌美國(guó)人主動(dòng)說“我們是朋友”

      吳心伯親歷特朗普歡迎晚宴:同桌美國(guó)人主動(dòng)說“我們是朋友”

      澎湃新聞
      2026-05-15 21:38:04
      影壇大咖去世,66歲鐘楚紅淚灑靈堂,周星馳周潤(rùn)發(fā)送花,眾星現(xiàn)身

      影壇大咖去世,66歲鐘楚紅淚灑靈堂,周星馳周潤(rùn)發(fā)送花,眾星現(xiàn)身

      一盅情懷
      2026-05-15 15:39:55
      王勵(lì)勤三次挽留樊振東均落空,根本不是沒面子,小胖只是太累了

      王勵(lì)勤三次挽留樊振東均落空,根本不是沒面子,小胖只是太累了

      冷桂零落
      2026-05-15 00:45:45
      中美元首會(huì)晤全記錄:從人民大會(huì)堂、天壇到中南海

      中美元首會(huì)晤全記錄:從人民大會(huì)堂、天壇到中南海

      中國(guó)新聞周刊
      2026-05-15 18:49:29
      U17國(guó)足3-1逆轉(zhuǎn)沙特!22年后再進(jìn)亞洲杯4強(qiáng) 何思凡傳射+連場(chǎng)破門

      U17國(guó)足3-1逆轉(zhuǎn)沙特!22年后再進(jìn)亞洲杯4強(qiáng) 何思凡傳射+連場(chǎng)破門

      我愛英超
      2026-05-16 03:02:33
      1959年,人民大會(huì)堂建成,毛主席指著天花板問:這到底是誰的主意

      1959年,人民大會(huì)堂建成,毛主席指著天花板問:這到底是誰的主意

      貓眼觀史
      2024-11-29 15:50:03
      隊(duì)記:火箭或與范弗利特重簽合同,三年5000萬美元加球員選項(xiàng)

      隊(duì)記:火箭或與范弗利特重簽合同,三年5000萬美元加球員選項(xiàng)

      懂球帝
      2026-05-15 11:07:10
      效力國(guó)家隊(duì)12年,與梁靖崑傳緋聞是孫穎莎陪練,如今27歲官宣退役

      效力國(guó)家隊(duì)12年,與梁靖崑傳緋聞是孫穎莎陪練,如今27歲官宣退役

      以茶帶書
      2026-05-15 23:49:26
      特朗普訪華前急派心腹“敲打”日本

      特朗普訪華前急派心腹“敲打”日本

      小眼睛小世界
      2026-05-16 02:40:54
      被中國(guó)制裁6年的魯比奧,為何能隨特朗普訪華?真相來了

      被中國(guó)制裁6年的魯比奧,為何能隨特朗普訪華?真相來了

      燕梳樓頻道
      2026-05-14 19:54:33
      上不了臺(tái)面?方媛凌晨2點(diǎn)硬剛?cè)W(wǎng),8年天王嫂遮羞布被徹底撕開

      上不了臺(tái)面?方媛凌晨2點(diǎn)硬剛?cè)W(wǎng),8年天王嫂遮羞布被徹底撕開

      手工制作阿殲
      2026-05-15 18:49:16
      呼吁:立馬停止飲用這種茶葉,比煙酒還要傷肝,盡早戒掉

      呼吁:立馬停止飲用這種茶葉,比煙酒還要傷肝,盡早戒掉

      新時(shí)代的兩性情感
      2026-05-12 08:42:32
      奧運(yùn)冠軍李小鵬一家近照,定居香港,身家過億,女兒已是大美女

      奧運(yùn)冠軍李小鵬一家近照,定居香港,身家過億,女兒已是大美女

      大西體育
      2026-04-28 22:28:58
      瞬間成為百萬富翁!有網(wǎng)友用AI某找回含有5枚比特幣的錢包密碼,激動(dòng)的瘋狂爆粗

      瞬間成為百萬富翁!有網(wǎng)友用AI某找回含有5枚比特幣的錢包密碼,激動(dòng)的瘋狂爆粗

      西游日記
      2026-05-14 10:46:28
      特朗普幫了中國(guó)大忙,中國(guó)首次成為全球第一,日本完全被踩在腳下

      特朗普幫了中國(guó)大忙,中國(guó)首次成為全球第一,日本完全被踩在腳下

      小小科普員
      2026-03-26 00:27:10
      天津16歲高中女生,被男同學(xué)帶出租屋纏綿并偷拍,遭同學(xué)霸凌后續(xù)

      天津16歲高中女生,被男同學(xué)帶出租屋纏綿并偷拍,遭同學(xué)霸凌后續(xù)

      漢史趣聞
      2026-05-15 15:41:47
      52球,利物浦創(chuàng)隊(duì)史38輪英超賽季丟球數(shù)新高

      52球,利物浦創(chuàng)隊(duì)史38輪英超賽季丟球數(shù)新高

      懂球帝
      2026-05-16 04:50:59
      裁判嚴(yán)格點(diǎn),孫康博上半場(chǎng)就罰下了 大連兩翼中甲級(jí) 斯坦丘帶不動(dòng)

      裁判嚴(yán)格點(diǎn),孫康博上半場(chǎng)就罰下了 大連兩翼中甲級(jí) 斯坦丘帶不動(dòng)

      替補(bǔ)席看球
      2026-05-15 22:21:50
      成立模型委員會(huì),百度也坐不住了

      成立模型委員會(huì),百度也坐不住了

      鈦媒體APP
      2026-05-15 12:40:14
      2026-05-16 05:07:00
      AI科技評(píng)論 incentive-icons
      AI科技評(píng)論
      點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
      7280文章數(shù) 20751關(guān)注度
      往期回顧 全部

      科技要聞

      直降千元起步!蘋果華為率先開啟618讓利

      頭條要聞

      黃仁勛在北京喝豆汁痛苦皺眉 問“這是什么東西”

      頭條要聞

      黃仁勛在北京喝豆汁痛苦皺眉 問“這是什么東西”

      體育要聞

      德約科維奇買的球隊(duì),從第6級(jí)聯(lián)賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財(cái)經(jīng)要聞

      騰訊掉隊(duì),馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀(jì)錄 ID. Polo GTI迎全球首秀

      態(tài)度原創(chuàng)

      數(shù)碼
      時(shí)尚
      手機(jī)
      游戲
      軍事航空

      數(shù)碼要聞

      聯(lián)想發(fā)布ThinkPad T14 Gen 7 支持LPCAMM2可更換內(nèi)存

      頂級(jí)團(tuán)隊(duì)拍出來的作品不如素人,問題出在哪兒了?

      手機(jī)要聞

      iPhone 17系列全系跳水,最高立減2500!

      《街霸6》春麗新品來了!招牌肉腿完美還原

      軍事要聞

      烏克蘭首都基輔遭空襲 死亡人數(shù)增至12人

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 久久精品国产6699国产精| 久久中文字幕网站篠田优 | 久久精品99国产精品日本| 精品玖玖| 96在线看片免费视频国产| 99久久国产成人免费网站| 波多野结衣中文字幕一区二区三区| 国产精品免费久久久久影院无码| 天堂网www在线资源最新版| 91狠狠操综合| 国产久操视频| 精品国产一区二区三区蜜殿| 国产一本一道久久香蕉下载| 日韩精品一区二区三区免费在线观看| 精品久久久久中文字幕加勒比| 俄罗斯xxxx性全过程| 久久www成人免费看| 精品国产无套在线观看| 漂亮人妻洗澡被强bd中文| 金坛市| 麻豆AV在线| 日韩成人一区二区三区在线观看| 日韩av中文字幕有码| 大地资源高清免费观看| 国产精品三级视频自拍| 疯狂撞击丝袜人妻| 亚洲va中文字幕无码久久| 久久综合九色综合精品| aⅴ激情视频| 亚洲中又文字幕精品av| 在线观看麻豆国产成人AV在线播放| 国内精品伊人久久久久影院对白| 中文字幕人妻熟女人妻洋洋| 四虎最新地址| 亚洲第一av男人的天堂| а天堂中文在线资源| CaoPorn国产一区二区| 老少配老妇老熟女中文普通话| 亚洲伊人丝袜精品久久| 国产精品一区二区久久沈樵 | 亚洲精品天天影视综合网|