網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

對(duì)話清華商宇丨從生成視頻到支撐行動(dòng)，世界模型需要新的評(píng)測(cè)標(biāo)準(zhǔn)

2026-04-30 08:37:09　來源: AI科技評(píng)論

廣東舉報(bào)

分享至

WorldArena：一套檢驗(yàn)世界模型能否從「生成世界」走向“使用世界”的評(píng)測(cè)框架

作者丨鄭佳美

編輯丨岑峰

在今天的 AI 敘事里，“世界模型”幾乎成了通往具身智能的必經(jīng)之路。

它被期待理解物理規(guī)律、預(yù)測(cè)環(huán)境變化，并為機(jī)器人決策提供依據(jù)。但一個(gè)尖銳的問題是：當(dāng)一個(gè)模型能生成一段足夠逼真的未來視頻時(shí)，我們究竟該相信它真的理解了世界，還是只是更擅長(zhǎng)復(fù)刻世界的表象？

咬了一口的蘋果會(huì)自動(dòng)愈合，墜落的杯子在空中漂移——在具身智能的視角下，這種AI視頻“感知與功能的斷裂”無疑是致命的。

一個(gè)模型即便能生成 4K 分辨率的視覺幻象，如果它無法理解重力約束、因果關(guān)聯(lián)與物體永久性，它就永遠(yuǎn)無法支撐機(jī)器人在復(fù)雜物理世界中的抓取、規(guī)劃與交互。視覺真實(shí)不等于功能可用，這道長(zhǎng)期被忽視的“裂縫”，正是當(dāng)前視覺智能通往 AGI 的最大障礙。

CVPR 2026 正在釋放一個(gè)明確的信號(hào)：計(jì)算機(jī)視覺（CV）與計(jì)算機(jī)圖形學(xué)（CG）的傳統(tǒng)邊界正在模糊。視覺研究的主線正從單純的“像素預(yù)測(cè)”轉(zhuǎn)向?qū)Α笆澜鐒?dòng)力學(xué)”的重建，世界模型不再僅僅滿足于“看”，而是要構(gòu)建一個(gè)具備物理一致性的內(nèi)部沙盒。這意味著，下一代視覺智能必須跨越 2D 藩籬，去硬碰硬地解決因果律、重力與 3D 空間的拓?fù)溥壿嫛?/p>

這種轉(zhuǎn)向，不僅標(biāo)志著視覺研究正在從“圖像處理”回歸到“世界建?！?，更核心的演進(jìn)在于，世界模型正從“被動(dòng)觀測(cè)”轉(zhuǎn)向“動(dòng)作驅(qū)動(dòng)”。

作為 CVPR 2026 備受矚目的競(jìng)賽項(xiàng)目，清華團(tuán)隊(duì)提出的 WorldArena 恰逢其時(shí)。在論文《WorldArena: A Unified Benchmark for Evaluating Perception and Functional Utility of Embodied World Models》中，它審問的是模型作為“具身大腦”的真實(shí)含金量：能否作為可靠的數(shù)據(jù)引擎？能否充當(dāng)精準(zhǔn)的策略評(píng)估環(huán)境？能否在長(zhǎng)程任務(wù)中保持邏輯的不漂移？

它將會(huì)對(duì)過去世界模型評(píng)測(cè)沿用視頻生成的邏輯——畫面是否清晰、運(yùn)動(dòng)是否自然、結(jié)果是否逼真——進(jìn)行重新審視。

但在具身場(chǎng)景中，“看起來像”遠(yuǎn)遠(yuǎn)不等于“用得起來”。一個(gè)模型即便能生成高質(zhì)量視頻，也可能無法支持機(jī)器人完成抓取、規(guī)劃、交互和長(zhǎng)程執(zhí)行。換句話說，視覺真實(shí)與功能可用之間，存在一道尚未被充分正視的裂縫。

而 WorldArena，正是試圖把世界模型從“生成世界”的審美競(jìng)賽，推向“使用世界”的能力審判。

除此之外，作為CVPR 2026 關(guān)鍵 Workshop 競(jìng)賽的評(píng)測(cè)基礎(chǔ)，WorldArena 的目標(biāo)不僅是提供一個(gè)排行榜，更是為具身世界模型建立一套面向真實(shí)任務(wù)的能力坐標(biāo)：它不只問模型能否預(yù)測(cè)接下來會(huì)發(fā)生什么，也進(jìn)一步追問，這些預(yù)測(cè)能否轉(zhuǎn)化為動(dòng)作？能否支撐 agent 決策？能否在長(zhǎng)程任務(wù)中保持穩(wěn)定？能否真正成為具身智能通向物理世界的一部分？

圍繞這項(xiàng)工作，AI 科技評(píng)論與論文主要作者商宇展開了一場(chǎng)深度對(duì)話。從世界模型評(píng)測(cè)為何不能止步于視頻質(zhì)量，到當(dāng)前模型為何會(huì)在高視覺分?jǐn)?shù)與低功能表現(xiàn)之間斷裂；從 Benchmark 如何推動(dòng)訓(xùn)練范式轉(zhuǎn)向視頻 - 動(dòng)作聯(lián)合建模，到 WorldArena 自身如何避免成為新的路徑依賴，這場(chǎng)對(duì)話觸及的并不只是一個(gè)評(píng)測(cè)平臺(tái)，而是世界模型研究正在面臨的一次范式轉(zhuǎn)換。

論文地址：https://arxiv.org/pdf/2602.08971

項(xiàng)目地址：https://world-arena.ai/

給世界模型設(shè)下一場(chǎng)「行動(dòng)考試」

AI 科技評(píng)論：能否先以團(tuán)隊(duì)成員、主要作者的身份，介紹一下 WorldArena 這項(xiàng)工作？

商宇：WorldArena 是我們?cè)诮衲昴瓿醢l(fā)布的、專門面向具身世界模型的評(píng)測(cè)平臺(tái)。它的出發(fā)點(diǎn)是：世界模型這個(gè)概念近期非常受關(guān)注，但大家對(duì)它的定義還沒有完全收斂；同時(shí)，過去很多評(píng)測(cè)仍然把世界模型當(dāng)作視頻生成工具，主要關(guān)注生成視頻的質(zhì)量，也就是視頻是否好看、是否逼真。

但在具身場(chǎng)景中，僅生成好看的視頻遠(yuǎn)遠(yuǎn)不夠。具身世界模型不是為了“拍電影”，它的核心任務(wù)是建模外部環(huán)境的動(dòng)態(tài)轉(zhuǎn)移規(guī)律，并進(jìn)一步輔助下游智能體做決策。因此，世界模型最終必須服務(wù)于智能體與環(huán)境的交互。

基于這個(gè)判斷，我們認(rèn)為現(xiàn)有評(píng)估存在方向性不足：評(píng)估具身世界模型時(shí)，不能只看生成結(jié)果是否像真實(shí)視頻，更要看它是否能支持下游功能性任務(wù)，是否真正有助于智能體與環(huán)境交互。

因此，我們建立了一套統(tǒng)一評(píng)測(cè)框架，主要從兩個(gè)維度評(píng)估模型能力。第一個(gè)維度是視覺質(zhì)量。由于目前世界模型的主要形態(tài)仍然是視頻生成，開環(huán)的視頻生成質(zhì)量依然需要評(píng)估。

第二個(gè)維度，也是我們更核心的貢獻(xiàn)，是面向功能性任務(wù)的評(píng)估。圍繞具身場(chǎng)景，我們進(jìn)一步從世界模型可能承擔(dān)的角色出發(fā)，設(shè)計(jì)了三類應(yīng)用評(píng)估。

第一類是把世界模型作為數(shù)據(jù)生成引擎。它可以合成大量數(shù)據(jù)，用于緩解具身真實(shí)數(shù)據(jù)稀缺的問題，并輔助下游策略模型訓(xùn)練。

第二類是把世界模型作為在線交互環(huán)境，用來評(píng)估策略模型。前提是世界模型能夠捕捉環(huán)境動(dòng)態(tài)，從而充當(dāng)真實(shí)環(huán)境的代理。例如，過去評(píng)估一個(gè) VLA 策略，通常需要把它部署到仿真器或真實(shí)環(huán)境中運(yùn)行；如果世界模型這條路線可行，就可以讓策略與世界模型交互，再根據(jù)交互結(jié)果判斷策略質(zhì)量。

第三類是把世界模型作為具身大腦，或者說作為 agent / action planner。既然世界模型能夠生成環(huán)境轉(zhuǎn)移后的狀態(tài)，就可以從狀態(tài)預(yù)測(cè)結(jié)果中提取動(dòng)作，并把這些動(dòng)作直接用于下游執(zhí)行。

總體來說，WorldArena 同時(shí)關(guān)注兩個(gè)問題：世界模型是否會(huì)生成這個(gè)世界，以及它能否利用生成結(jié)果支持智能體與世界交互。

AI 科技評(píng)論：在這個(gè)框架中，一個(gè)合格的世界模型至少需要滿足哪些能力？

商宇：我們的評(píng)估分為感知和功能兩個(gè)維度，兩者有關(guān)聯(lián)，但并不嚴(yán)格綁定。如果一個(gè)模型想在榜單上取得較好表現(xiàn)，首先視頻生成質(zhì)量必須過關(guān)。也就是說，它在感知層面要盡量真實(shí)。我們?cè)u(píng)測(cè)了開源和閉源模型，發(fā)現(xiàn)閉源模型在第一輪測(cè)試中的整體分?jǐn)?shù)更高，這說明較好的視覺質(zhì)量確實(shí)有助于獲得更好結(jié)果。

感知層面的基本要求是：模型生成的未來狀態(tài)和畫面要符合世界運(yùn)行規(guī)律。至少在人眼看來，它不能違背基礎(chǔ)物理規(guī)律，例如出現(xiàn)明顯穿模、異常形變等問題。

更進(jìn)一步，模型還需要具備任務(wù)執(zhí)行能力。一個(gè)合格的世界模型不僅要推斷出合理的未來狀態(tài)，還要讓這些狀態(tài)能夠轉(zhuǎn)化為有效動(dòng)作序列，從而幫助智能體完成交互。

概括來說，最低要求有兩點(diǎn)：第一，感知層面真實(shí)；第二，對(duì)智能體決策產(chǎn)生增益。

AI 科技評(píng)論：很多模型可以預(yù)測(cè)接下來會(huì)發(fā)生什么，但不一定理解為什么會(huì)發(fā)生。WorldArena 更接近評(píng)估哪一種能力？

商宇：目前 WorldArena 更側(cè)重評(píng)估“接下來會(huì)發(fā)生什么”，也就是預(yù)測(cè)結(jié)果是否合理。我們的評(píng)估仍然基于模型行為：先讓模型輸出視頻或動(dòng)作，再判斷輸出是否符合認(rèn)知、是否接近真實(shí)視頻或真實(shí)結(jié)果。因此，它本質(zhì)上評(píng)的是模型預(yù)測(cè)是否正確。

至于模型是否真正理解“為什么會(huì)發(fā)生”，這個(gè)問題更難。它可能涉及模型內(nèi)部機(jī)理研究，也可能需要因果建模、反事實(shí)推斷等方法。

例如，在機(jī)器人抓取礦泉水瓶的任務(wù)中，如果我們想判斷模型只是擬合了某一種抓取軌跡，還是理解了不同動(dòng)作的含義，就需要在同一場(chǎng)景中給出不同動(dòng)作，觀察模型是否產(chǎn)生有差異的響應(yīng)。類似設(shè)計(jì)才更接近因果性或反事實(shí)推斷。

因此，就當(dāng)前版本而言，WorldArena 主要評(píng)估預(yù)測(cè)是否正確，而不是直接證明模型是否理解因果關(guān)系。

AI 科技評(píng)論：論文中提到用 16 個(gè) perception 指標(biāo)刻畫 world understanding。具體是怎樣設(shè)置的？

商宇：我們把整體評(píng)估分為 perception 和 functionality 兩大類。Perception 部分基于世界模型合成的視頻，對(duì)視頻進(jìn)行多維診斷。我們參考了許多已有研究，最終總結(jié)出六個(gè)大維度，并進(jìn)一步拆分為 16 個(gè)感知指標(biāo)。

第一個(gè)維度是 visual quality，即視覺質(zhì)量。這是最基礎(chǔ)的層面，關(guān)注視頻分辨率是否足夠高、畫面是否清晰、整體布局是否與真實(shí)場(chǎng)景一致。第二類是面向具身場(chǎng)景更關(guān)鍵的能力，包括動(dòng)作質(zhì)量、物理遵循性、3D 準(zhǔn)確性、可控性，以及內(nèi)容一致性等。

動(dòng)作質(zhì)量會(huì)關(guān)注動(dòng)作連貫性，例如動(dòng)作是否出現(xiàn)突變。物理遵循性用于判斷生成結(jié)果是否符合基礎(chǔ)物理規(guī)律。由于物理規(guī)律較抽象，我們會(huì)借助外部 VLM 進(jìn)行評(píng)估，讓它充當(dāng)類似人類評(píng)判者的角色。

3D 準(zhǔn)確性關(guān)注視頻空間結(jié)構(gòu)是否正確。只看 2D 畫面時(shí)，現(xiàn)在的模型往往能擬合得很好；但物體之間的空間關(guān)系可能并不自然，投射到 3D 空間后就會(huì)暴露問題。

可控性評(píng)估模型是否能 follow 外部指令。指令可以是文本，也可以是機(jī)器人動(dòng)作。我們希望判斷模型究竟只是 overfit 某段視頻，還是確實(shí)理解并響應(yīng)外部條件。

內(nèi)容一致性則關(guān)注視頻前后是否保持一致，這是一個(gè)基礎(chǔ)但重要的能力。整體來看，六個(gè)大維度共同構(gòu)成對(duì)感知能力的評(píng)估，并進(jìn)一步細(xì)化為 16 個(gè) perception 指標(biāo)。

AI 科技評(píng)論：一些高視覺質(zhì)量模型在功能評(píng)估中表現(xiàn)并不好。你們認(rèn)為這種斷裂的原因是什么？

商宇：這個(gè)結(jié)果最初也讓我們有些意外。后續(xù)分析后，我們認(rèn)為主要有兩類原因。第一類原因是訓(xùn)練目標(biāo)沒有對(duì)齊。許多視頻生成模型在第一階段微調(diào)時(shí)，本質(zhì)上仍然是在擬合視頻像素。這個(gè)訓(xùn)練過程并沒有真正涉及視頻與動(dòng)作之間的關(guān)系，也沒有建模因果關(guān)系。

因此，這些模型訓(xùn)練出來后主要服務(wù)于“像素是否擬合得好”“圖像是否逼真”。換句話說，模型優(yōu)化目標(biāo)仍然集中在 perception 上，而不是功能性交互。

第二類原因是功能任務(wù)對(duì)模型能力要求更高。視頻生成通常是在 2D 空間中完成，但動(dòng)作預(yù)測(cè)和真實(shí)執(zhí)行本質(zhì)上發(fā)生在 3D 空間中。例如，物體關(guān)系的錯(cuò)位在 2D 圖像中可能不明顯，但一旦投射到 3D 空間，就會(huì)影響動(dòng)作執(zhí)行。這意味著模型可能過度擬合了二維表征，卻沒有充分建模三維空間和動(dòng)作之間的關(guān)系。

此外，任務(wù)設(shè)置本身也帶來挑戰(zhàn)。Functionality 部分要求世界模型真正輸出動(dòng)作，而當(dāng)前視頻生成模型通常只能生成較短片段，一次可能只有幾十幀。但現(xiàn)實(shí)動(dòng)作執(zhí)行往往是長(zhǎng)程任務(wù)，很少能通過一次視頻預(yù)測(cè)完整完成。

因此，模型必須經(jīng)歷長(zhǎng)程、迭代式 rollout。我們觀察到，許多模型單次生成效果尚可，但迭代后會(huì)產(chǎn)生誤差累積：第一次生成可能準(zhǔn)確，后續(xù)動(dòng)作會(huì)逐漸漂移，穩(wěn)定性下降。

所以，對(duì)具身任務(wù)而言，模型不僅需要單次生成質(zhì)量高，還需要長(zhǎng)程穩(wěn)定性。訓(xùn)練目標(biāo)錯(cuò)配和長(zhǎng)時(shí)序穩(wěn)定性不足，是造成這種斷裂的主要原因。

AI 科技評(píng)論：也就是說，當(dāng)前視頻生成模型的問題之一是單次預(yù)測(cè)可以，但長(zhǎng)程執(zhí)行會(huì)亂？

商宇：是的，長(zhǎng)程穩(wěn)定性是一個(gè)重要問題。除此之外，當(dāng)前模型往往仍在擬合 2D 圖像分布，與動(dòng)作之間的建模關(guān)聯(lián)不夠。雖然我們?cè)?WorldArena 中設(shè)置了二階段適配，用監(jiān)督學(xué)習(xí)把世界模型學(xué)到的視頻表征和動(dòng)作聯(lián)系起來，但這個(gè)過程并不是原生訓(xùn)練，而是后訓(xùn)練，并且相對(duì)輕量。

這種適配可以幫助模型學(xué)習(xí)視頻到動(dòng)作的關(guān)系，但不能從根本上解決問題。更本質(zhì)的方向，是讓世界模型進(jìn)行視覺內(nèi)容與動(dòng)作內(nèi)容的聯(lián)合建?！，F(xiàn)在已有一些工作在原生地對(duì)齊視頻與動(dòng)作關(guān)系，我認(rèn)為這會(huì)更有幫助。

另一方面，功能性任務(wù)要求模型具備長(zhǎng)程穩(wěn)定性，才能獨(dú)立、完整地執(zhí)行任務(wù)。只有當(dāng)模型在長(zhǎng)程執(zhí)行中保持穩(wěn)定，它在功能榜單上的表現(xiàn)才會(huì)顯著提升。

AI 科技評(píng)論：如果一個(gè)模型在 WorldArena 上得分不高，問題更可能是模型能力不夠，還是訓(xùn)練目標(biāo)沒有對(duì)齊？

商宇：兩種情況都會(huì)存在。有些模型得分不理想，是因?yàn)槟Ｐ捅旧砟芰Σ蛔悖梢曨l質(zhì)量不高。對(duì)于這類情況，可以認(rèn)為它在基礎(chǔ)生成能力上還沒有達(dá)標(biāo)。

另一些模型生成畫面看起來不錯(cuò)，從人的角度看沒有明顯問題，但放到任務(wù)執(zhí)行評(píng)測(cè)中表現(xiàn)不佳。對(duì)于這類情況，我更傾向于認(rèn)為是訓(xùn)練目標(biāo)沒有完全對(duì)齊下游交互能力。

這類模型往往開環(huán)能力強(qiáng)，也就是生成視頻本身沒問題；但閉環(huán)能力弱，不能穩(wěn)定支持動(dòng)作預(yù)測(cè)和交互執(zhí)行。原因可能是視頻到動(dòng)作的映射沒有學(xué)好，也可能是模型只擅長(zhǎng)局部預(yù)測(cè)，一旦進(jìn)入長(zhǎng)程預(yù)測(cè)就會(huì)出問題。

因此，WorldArena 上的低分既可能來自基礎(chǔ)模型能力不足，也可能來自訓(xùn)練目標(biāo)與功能性交互能力之間的錯(cuò)配。

AI 科技評(píng)論：如果 WorldArena 這類評(píng)估框架成為主流，會(huì)不會(huì)反過來推動(dòng)新的訓(xùn)練方式？

商宇：我認(rèn)為會(huì)，但這是一個(gè)循序漸進(jìn)的過程。作為評(píng)測(cè)工作，我們現(xiàn)階段主要希望提供實(shí)驗(yàn)現(xiàn)象、觀察和 insight，讓大家意識(shí)到：只做視頻擬合，模型可能在視覺質(zhì)量榜單上很高，但在功能性榜單上很低。

我們并不是完全否定當(dāng)前的視頻學(xué)習(xí)范式。許多視頻基座模型通過這種方式持續(xù) scaling，基礎(chǔ)能力確實(shí)在提升，這對(duì)下游任務(wù)是有幫助的。

但如果目標(biāo)是真正的世界模型，訓(xùn)練范式就不能只包含視頻生成和重建，還需要把動(dòng)作模態(tài)納入進(jìn)來。無論是根據(jù)視頻預(yù)測(cè)動(dòng)作，還是做 action-controlled video generation，都是必要的；關(guān)鍵是讓視頻和動(dòng)作兩種模態(tài)天然對(duì)齊。

現(xiàn)在已經(jīng)有一類模型被稱為 World Action Model，也就是 WAM。它們?cè)噲D訓(xùn)練一個(gè)統(tǒng)一模型，同時(shí)具備視頻預(yù)測(cè)和動(dòng)作預(yù)測(cè)能力，并在兩種模態(tài)之間設(shè)計(jì)明確的對(duì)齊機(jī)制，例如 joint attention。

所以，從研究趨勢(shì)看，整個(gè)方向已經(jīng)在向視頻 - 動(dòng)作聯(lián)合建模轉(zhuǎn)變。這也符合我們通過 WorldArena 得到的判斷。

WorldArena 的邊界與自我校準(zhǔn)

AI 科技評(píng)論：如果模型在某些任務(wù)上失敗，說明它真的不理解事件，還是只是沒有見過足夠多的類似數(shù)據(jù)？

商宇：我們不會(huì)把榜單表現(xiàn)不理想直接等同于“模型沒有理解這個(gè)事件”。就當(dāng)前版本的 WorldArena 而言，我們的重點(diǎn)還不是泛化能力評(píng)估，也沒有專門設(shè)置 OOD 場(chǎng)景。在評(píng)測(cè)設(shè)置下，模型基本見過類似數(shù)據(jù)；如果要測(cè)某個(gè)任務(wù)，我們會(huì)給它相應(yīng)數(shù)據(jù)進(jìn)行訓(xùn)練。因此，我們不傾向于把失敗主要?dú)w因于“沒有見過足夠多的數(shù)據(jù)”。

在這個(gè)前提下，模型失敗通常可以拆成兩個(gè)階段分析。

第一階段是開環(huán)視頻生成質(zhì)量。如果模型連視頻預(yù)測(cè)本身都做不好，說明它的視頻學(xué)習(xí)質(zhì)量就不高。

第二階段是視頻到動(dòng)作的映射，以及視頻與動(dòng)作的聯(lián)合建模。如果視頻生成質(zhì)量尚可，但閉環(huán)任務(wù)或長(zhǎng)程任務(wù)失敗，問題更可能來自動(dòng)作預(yù)測(cè)不穩(wěn)定。

真實(shí)執(zhí)行中，錯(cuò)誤往往難以校正。例如機(jī)器人抓瓶子時(shí)，如果中途掉落，當(dāng)前模型通常缺少錯(cuò)誤恢復(fù)能力，后續(xù)會(huì)持續(xù)出錯(cuò)。

因此，在當(dāng)前設(shè)置中，許多失敗更可能反映模型缺少足夠穩(wěn)定的動(dòng)作預(yù)測(cè)和長(zhǎng)程執(zhí)行能力，而不是簡(jiǎn)單說明它沒有見過類似數(shù)據(jù)。

AI 科技評(píng)論：WorldArena 評(píng)估的是世界模型，但 agent 設(shè)計(jì)也會(huì)影響結(jié)果。你們?nèi)绾螀^(qū)分世界模型不夠好和 agent 沒有正確利用世界模型？

商宇：這是一個(gè)很有技術(shù)意義的問題，我們?cè)趯?shí)驗(yàn)中也做了相應(yīng)排查。我們的動(dòng)作預(yù)測(cè)流程是在世界模型后面額外加入一個(gè)逆動(dòng)力學(xué)模型，即 IDM。IDM 的作用是從世界模型預(yù)測(cè)出的狀態(tài)特征中映射出動(dòng)作。因此，一個(gè)潛在擔(dān)憂是：結(jié)果不好是否因?yàn)?IDM 或整個(gè) pipeline 存在性能上限，而不是世界模型本身不夠好。

為了排除這個(gè)混淆因素，我們做了一個(gè)上限實(shí)驗(yàn)：不使用世界模型預(yù)測(cè)的視頻，而是給 IDM 輸入真實(shí)視頻。這個(gè)設(shè)定相當(dāng)于假設(shè)世界模型預(yù)測(cè)完全等同于真實(shí)世界，再觀察動(dòng)作能否被正確預(yù)測(cè)。

實(shí)驗(yàn)結(jié)果顯示，在輸入真實(shí)視頻并經(jīng)過二階段動(dòng)作預(yù)測(cè)訓(xùn)練后，IDM 能完成大部分任務(wù)，成功率基本在 80% 以上。

而當(dāng)前世界模型在同一體系下的結(jié)果與這個(gè)上限還有明顯差距。由此我們判斷，現(xiàn)有 pipeline 雖然不一定是最完美設(shè)計(jì)，但還沒有達(dá)到性能天花板；它能夠比較客觀地暴露問題。

綜合來看，當(dāng)前主要瓶頸仍然在 world model 本身，而不是 agent 或 IDM 沒有正確利用它。

AI 科技評(píng)論：WorldArena 是否類似一個(gè)黑盒評(píng)估工具？

商宇：它不是完全的黑盒。許多 Benchmark 本質(zhì)上都是行為層面的評(píng)估，WorldArena 也不例外。但它在設(shè)計(jì)上具有一定診斷性。

首先，我們同時(shí)做開環(huán)和閉環(huán)評(píng)測(cè)，可以幫助判斷模型問題來自生成能力，還是行動(dòng)能力。其次，在生成能力內(nèi)部，我們又拆分出十幾個(gè)子維度指標(biāo)。這能幫助研究者更細(xì)致地審視模型能力。例如，通過雷達(dá)圖可以看到不同模型的優(yōu)勢(shì)和劣勢(shì)：有些模型可能 3D 重建質(zhì)量高，有些模型可能動(dòng)作連貫性更好。

因此，WorldArena 不只是輸出一個(gè)最終分?jǐn)?shù)，它還提供中間結(jié)果和多維診斷證據(jù)。相比只看最終閉環(huán)執(zhí)行成功率的評(píng)測(cè)，它并不完全是端到端黑盒。

但如果更嚴(yán)格地問，它能否解釋模型內(nèi)部機(jī)制、能否證明模型真正理解世界，目前版本還做不到。后續(xù)我們希望引入反事實(shí)推斷等方法，進(jìn)一步提升可解釋性。

AI 科技評(píng)論：如果模型在 WorldArena 上表現(xiàn)好，是否意味著它已經(jīng)接近真實(shí)機(jī)器人部署？

商宇：如果模型在 WorldArena 上表現(xiàn)好，尤其是在 functionality 維度表現(xiàn)好，我認(rèn)為它確實(shí)更有潛力，但這并不等同于它一定能在真實(shí)物理世界中運(yùn)行。

這是當(dāng)前評(píng)測(cè)的局限之一，也會(huì)是未來工作。我們?nèi)匀幻媾R sim-to-real gap。當(dāng)前評(píng)測(cè)主要在仿真環(huán)境中完成，這樣做是為了評(píng)測(cè)便利，也為了排除真實(shí)環(huán)境中的偶然因素。

真實(shí)環(huán)境遠(yuǎn)比仿真環(huán)境復(fù)雜。它會(huì)受到傳感器噪聲、執(zhí)行誤差、硬件差異等因素影響，不同模型對(duì)硬件的適配程度也可能不同。未來，我們希望提供一套標(biāo)準(zhǔn)化的真機(jī)評(píng)測(cè)流程，進(jìn)一步分析仿真表現(xiàn)與真實(shí)部署能力之間的相關(guān)性。

就當(dāng)前結(jié)果看，現(xiàn)有模型距離真實(shí)物理世界部署仍有較大差距。模型在仿真器中需要達(dá)到足夠高的性能，才可能有希望遷移到真實(shí)環(huán)境；目前它們與一些 VLA 模型相比，差距仍然不小。

AI 科技評(píng)論：Benchmark 往往會(huì)反過來塑造研究方向。如何避免 WorldArena 成為新的路徑依賴？

商宇：這是大多數(shù) Benchmark 都會(huì)面對(duì)的問題。從設(shè)計(jì) Benchmark 的角度看，我們的出發(fā)點(diǎn)是：當(dāng)前模型開發(fā)方向與我們希望模型具備的能力之間存在差距，因此需要補(bǔ)充新的評(píng)測(cè)維度，引導(dǎo)研究進(jìn)一步接近真實(shí)需求。

但 Benchmark 的價(jià)值不應(yīng)是讓所有人把刷榜作為模型研發(fā)的第一目標(biāo)。它更應(yīng)該作為能力診斷工具，幫助縮小研究目標(biāo)與真實(shí)需求之間的距離。

對(duì)于 WorldArena 來說，它的價(jià)值在于提醒大家：世界模型不能只做到視覺真實(shí)，還要在功能層面可用。它提供的是觀察和 insight，而不是唯一評(píng)價(jià)標(biāo)準(zhǔn)。

隨著模型能力逐漸接近，Benchmark 本身也必須持續(xù)迭代。模型最終要服務(wù)真實(shí)需求。對(duì)于具身場(chǎng)景，最終目標(biāo)是讓世界模型在真實(shí)物理交互中跑通，并把性能做上去。

因此，我們也需要不斷把更真實(shí)的需求納入評(píng)測(cè)，例如未來加入真實(shí)環(huán)境下的評(píng)估和診斷，讓 Benchmark 與現(xiàn)實(shí)需求更對(duì)齊。

對(duì)研究者來說，WorldArena 可以作為基礎(chǔ)工具，但更重要的是用它判斷模型距離真實(shí)世界還有多大差距，而不是把它當(dāng)作唯一審判標(biāo)準(zhǔn)。

AI 科技評(píng)論：如果一個(gè)模型在真實(shí)世界表現(xiàn)很好，但在 WorldArena 上得分不高，這更可能是誰的問題？

商宇：如果真的出現(xiàn)這種模型——目前我們還沒有收到類似反饋——我不會(huì)先入為主地認(rèn)為是模型的問題，而會(huì)把它視為一個(gè)有價(jià)值的信號(hào)。

一種可能是，這個(gè)模型采用了 WorldArena 現(xiàn)有設(shè)計(jì)沒有覆蓋到的技術(shù)路徑。它可能通過特殊設(shè)計(jì)在真實(shí)世界或動(dòng)作預(yù)測(cè)上表現(xiàn)很好，但我們的 Benchmark 沒有體現(xiàn)出來。這說明評(píng)測(cè)框架與真實(shí)世界之間仍有未對(duì)齊之處。

另一種可能是，當(dāng)前評(píng)價(jià)體系需要進(jìn)一步完善。我們需要對(duì)這類模型做更詳細(xì)診斷：看它在 WorldArena 中具體哪些情況表現(xiàn)不好，再與它在真實(shí)環(huán)境中的表現(xiàn)交叉分析，判斷問題是共性的，還是因?yàn)槟Ｐ?overfit 到了某個(gè)特定場(chǎng)景。

因此，可能是評(píng)估維度不夠，也可能是模型并非通用能力強(qiáng)，而是在某些特定場(chǎng)景表現(xiàn)好。兩種情況都需要進(jìn)一步分析。

AI 科技評(píng)論：如果未來世界模型取得新的突破，WorldArena 是否也需要重構(gòu)？

商宇：這是肯定的。模型和 Benchmark 應(yīng)該是螺旋上升的關(guān)系。通常是先出現(xiàn)一批模型，然后我們?cè)偎伎既绾蜗到y(tǒng)性評(píng)判這些模型。當(dāng)前 Benchmark 的設(shè)計(jì)針對(duì)的是當(dāng)前模型能力。隨著模型能力增強(qiáng)，Benchmark 必須跟著進(jìn)化，否則會(huì)干擾研究判斷。

Benchmark 本應(yīng)起到牽引作用。如果模型已經(jīng)往前發(fā)展，而 Benchmark 仍停留在舊能力上，它就會(huì)從方向盤變成后視鏡。

從世界模型領(lǐng)域看，目前行業(yè)仍處于較早期階段。WorldArena 的一步，是從視覺導(dǎo)向走向功能導(dǎo)向。如果未來所有模型都能把當(dāng)前榜單刷到接近飽和，無法再體現(xiàn)差異，我們就需要引入更高標(biāo)準(zhǔn)、更有挑戰(zhàn)性的任務(wù)，并適配新的模型能力。

例如，現(xiàn)在已有模型不再局限于單視角視頻生成，未來可能出現(xiàn)更多視角、更多模態(tài)。這些變化都需要后續(xù) Benchmark 納入。所以，WorldArena 不會(huì)是靜態(tài)框架，而應(yīng)該長(zhǎng)期迭代，并吸收社區(qū)共同發(fā)現(xiàn)的新問題，持續(xù)推出更高質(zhì)量的評(píng)測(cè)任務(wù)。

AI 科技評(píng)論：能否介紹一下這次 CVPR workshop 挑戰(zhàn)賽的情況？

商宇：我們以 WorldArena Benchmark 為基礎(chǔ)，在 CVPR 2026 組織了一個(gè)公開挑戰(zhàn)賽。比賽內(nèi)容與我們的評(píng)測(cè)基本一致。

挑戰(zhàn)賽分為兩個(gè)賽道，對(duì)應(yīng)感知和功能兩個(gè)維度。Track 1 面向視頻生成質(zhì)量，會(huì)綜合 16 個(gè)感知質(zhì)量指標(biāo)，評(píng)估世界模型的視頻生成能力。

Track 2 面向功能性評(píng)測(cè)。為了方便參賽團(tuán)隊(duì)實(shí)現(xiàn)，我們優(yōu)先設(shè)置了數(shù)據(jù)引擎和策略評(píng)估兩個(gè)任務(wù)。這兩個(gè)任務(wù)能夠覆蓋現(xiàn)有大部分模型能力：文本可控視頻模型適合數(shù)據(jù)引擎任務(wù)，動(dòng)作可控模型適合策略評(píng)估任務(wù)。

整個(gè)比賽周期約兩個(gè)月，從 3 月底開始。目前處于中期階段，我們也準(zhǔn)備公布前一個(gè)月的中期成績(jī)。截至目前，比賽在社區(qū)中已有一定影響力。不到一個(gè)月內(nèi)，提交次數(shù)接近 100 次，第一名成績(jī)也在持續(xù)刷新，參與比較積極。

Track 2 目前參與人數(shù)相對(duì)少一些，因此機(jī)會(huì)可能更大，獎(jiǎng)金也更多，但難度確實(shí)更高。參賽隊(duì)伍覆蓋學(xué)術(shù)界、工業(yè)界和初創(chuàng)公司。我們希望在 CVPR 會(huì)議現(xiàn)場(chǎng)與大家進(jìn)一步交流，并把挑戰(zhàn)賽中的觀察和 insight 呈現(xiàn)給社區(qū)。

這次去 CVPR 現(xiàn)場(chǎng)，一定不要錯(cuò)過

【認(rèn)識(shí)大牛+賺外快】的機(jī)會(huì)

需要你做什么：把你最關(guān)注的10個(gè)大會(huì)報(bào)告，每頁P(yáng)PT都拍下來

你能獲得什么？

認(rèn)識(shí)大牛：你將可以進(jìn)入CVPR名師博士社群；

錢多活少：提供豐厚獎(jiǎng)金，任務(wù)量精簡(jiǎn)；

聽會(huì)自由：你的行程你做主，順手就把外快賺。拍下你最感興趣的10個(gè)報(bào)告PPT即可。

如果你即將前往CVPR，想邊聽會(huì)邊賺錢，還能順便為AI學(xué)術(shù)社區(qū)做貢獻(xiàn)、認(rèn)識(shí)更多大牛，歡迎聯(lián)系我們：[添加微信號(hào):MS_Yahei]

【限額5位，先到先得】

未經(jīng)「AI科技評(píng)論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán)，轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.