網易首頁 > 網易號 > 正文申請入駐

CVPR 2026 世界模型論文全景梳理：從生成到建模的關鍵轉變

2026-04-30 12:31:29　來源: 雷峰網

北京舉報

分享至

在過去幾年中，視頻生成技術取得了令人矚目的進展。從基于擴散模型的方法到大規模視頻基礎模型，生成結果在視覺質量上已經逐漸逼近真實世界。然而，當我們進一步審視這些模型時，一個更本質的問題開始顯現：它們究竟是在“理解世界”，還是僅僅在“擬合像素分布”？

傳統視頻生成方法大多建立在 2D 圖像空間之上，通過逐幀建模來合成動態內容。這種范式雖然在短時間尺度和視覺表現上表現出色，但也暴露出一系列根本性局限：相機運動難以精確控制，多物體交互缺乏一致性，長時間生成容易出現結構漂移，甚至在復雜場景中違背基本物理規律。這些問題的共同根源在于模型缺乏對“世界本身”的建模能力。

正是在這一背景下，“世界模型（World Model）”逐漸成為視覺生成與智能系統中的核心研究方向。與傳統方法不同，世界模型試圖構建一個能夠統一描述空間結構、時間演化以及物理規律的內部表示，使模型不僅能夠生成視覺內容，還能夠進行推理、預測，甚至支持決策。從某種意義上說，這一轉變標志著研究目標從“生成看起來真實的結果”，邁向“建模一個本質上合理的世界”。

這一范式的演進正在多個維度同時發生：在表示層面，從 2D 像素走向 3D/4D 幾何結構；在建模目標上，從單純生成擴展到因果關系、物理一致性與可交互性；在學習方式上，從依賴標注數據轉向從真實世界視頻中提取可遷移知識；而在評估體系上，也逐漸從單一視覺指標轉向對“世界建模能力”的多維度衡量。

CVPR 2026 中的一系列工作，正集中體現了這一趨勢。這些研究不僅在技術路徑上各有側重，有的強調 4D 幾何建模，有的關注物理對齊與因果建模，有的探索從真實視頻中學習世界知識，還有的致力于構建統一評測體系，更重要的是，它們共同指向一個核心目標：讓模型從“生成工具”演化為“世界模擬器”。

AI 科技評論對這些代表性工作進行了系統梳理，從建模范式、控制能力、物理一致性、可擴展性以及評測方法等多個角度，解析當前世界模型研究的關鍵進展與內在邏輯，嘗試回答一個更深層的問題：當我們談論“生成世界”時，我們究竟在建模什么？

世界在模型里到底長什么樣？

論文《VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control》是由復旦大學、香港大學聯合 Tencent ARC（騰訊應用研究中心）研究團隊提出的一項視頻生成研究成果。

它主要針對當前視頻生成模型的一個核心問題：現有方法大多在 2D 圖像空間中建模，導致相機運動和多物體運動難以統一控制、且生成結果容易不穩定。

為了解決這一問題，論文提出了一種新的 4D 幾何世界建模方法，將視頻表示為“3D 空間 + 時間”的統一世界狀態，而不是簡單的逐幀像素生成。

在具體方法上，作者提出了一個關鍵技術：4D Geometric Control 表示。這個表示用靜態背景點云來描述場景結構，用帶時間信息的 3D 高斯軌跡來描述動態物體，從而構建一個統一的 4D 世界模型。

在這個世界模型基礎上，再將幾何信息轉化為控制信號，輸入到視頻擴散模型中進行生成，使最終視頻能夠嚴格遵循設定的相機路徑和物體運動。

這項工作的亮點主要體現在三個方面：首先，它實現了從傳統 2D 像素生成向 4D 幾何建模范式的轉變，使視頻生成更接近真實世界建模；

其次，它在同一框架下實現了對相機運動和多物體運動的統一、精確控制，相比以往依賴 2D 軌跡或邊界框的方法更加靈活且一致；

最后，由于引入了顯式的 3D 結構和時間約束，模型在時序一致性和穩定性方面顯著提升，生成的視頻在長時間范圍內更加連貫、真實。

總體來說，這篇論文的核心貢獻可以概括為：提出了一種基于 4D 幾何控制的世界模型框架，使視頻生成從“基于像素的合成”轉向“基于結構的生成”，從而在可控性和穩定性上取得了明顯提升。

論文《NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos》是由中國科學院自動化研究所和 CreateAI 共同提出。

這項研究主要圍繞 4D 世界模型的一個關鍵問題展開，即現有方法往往依賴多視角數據或復雜預處理，導致擴展性差，很難直接利用真實世界中大量隨手拍攝的單目視頻。

為了解決這一問題，論文提出了一個新的框架 NeoVerse，其核心思路是利用“自然場景中的單目視頻”來構建 4D 世界模型。具體來說，模型可以從普通視頻中恢復場景的 3D 結構，并進一步建模隨時間變化的動態信息，從而實現完整的 4D 表示。

在此基礎上，該模型不僅能夠進行 4D 重建，還可以生成新的相機軌跡視頻，并支持多種下游任務。

這篇論文的亮點主要體現在三個方面。首先，它突破了以往對多視角或專用數據的依賴，直接使用“野外采集”的單目視頻進行訓練，大幅提升了方法的可擴展性和數據可獲得性。

其次，它在同一框架中統一了 4D 重建與視頻生成能力，使模型既可以理解場景結構，又可以生成新的視角和動態內容。最后，通過這種方式，模型在真實場景中的泛化能力更強，能夠更好地適應復雜環境，而不是局限于受控數據集。

總體來看，這篇論文的核心貢獻在于提出了一種基于單目視頻構建 4D 世界模型的方法，使 4D 建模從依賴昂貴數據采集，轉向可以利用大規模真實視頻，從而顯著提升了實用性與擴展能力。

論文《LongStream: Long-Sequence Streaming Autoregressive Visual Geometry》是由香港科技大學（廣州）、地平線機器人、浙江大學和中南大學等研究團隊提出。

論文關注的是一個非常核心但長期沒有很好解決的問題：長序列 3D 重建。現有方法通常在短序列或離線場景下表現不錯，但一旦處理上千幀的長視頻，就會出現明顯問題，例如注意力逐漸衰減、尺度不斷漂移，以及預測誤差累積，最終導致整體重建不穩定甚至失效。

這些問題的根本原因在于，大多數自回歸模型都會把所有幀“錨定”到第一幀，從而在長時間推理中不斷放大誤差。

為了解決這一問題，論文提出了 LongStream 框架，核心思路是構建一種流式的、規范解耦（gauge-decoupled）的視覺幾何模型。

具體來說，它不再把所有幀綁定到初始幀，而是通過“關鍵幀相對建模”的方式，讓每一段局部序列獨立建模，同時再統一到全局結構中。此外，模型將“尺度學習”和“幾何預測”進行解耦，使尺度不會在長序列中逐漸漂移。同時，通過周期性刷新緩存和流式更新機制，模型可以在嚴格在線（看不到未來幀）的條件下穩定處理上千幀數據。

這篇論文的亮點主要體現在三個方面。首先，它提出了一種真正面向長序列的流式 3D 重建框架，能夠在在線場景中處理上千幀甚至更長的視頻，這是以往方法難以實現的。

其次，它通過“規范解耦”的方式，從根本上解決了尺度漂移和誤差累積問題，使長時間建模更加穩定。最后，該方法在效率和穩定性之間取得了較好平衡，可以在現實應用場景中落地，例如自動駕駛、AR/VR 和具身智能中的持續環境建模。

總體來看，這篇論文的核心貢獻是提出了一種面向長時序視頻的穩定 3D 世界建模方法，使模型能夠在嚴格在線條件下持續構建一致的三維世界，從而推動世界模型向真實應用場景邁進。

模型有沒有學到可以遷移的世界規律？

論文《VideoWorld 2: Learning Transferable Knowledge from Real-world Videos》是由北京交通大學和字節研究團隊共同提出。

這項研究關注的核心問題是，模型是否能夠像人一樣，僅通過觀看真實世界的視頻，就學習到可以遷移到新環境中的通用知識。論文指出，現有視頻模型大多側重生成視覺效果，雖然畫面逼真，但缺乏對物體運動規律、交互關系以及時序結構的理解能力，因此難以在新場景中泛化。

為了解決這一問題，論文提出了 VideoWorld 2 框架，其核心思路是直接從大規模無標注的真實視頻中學習世界知識。

模型不依賴人工標注，而是通過觀察視頻中的動態過程，自主學習物理規律、物體交互以及時間變化，并將這些信息編碼為一種可復用的表示，使其能夠遷移到不同任務和環境中。相比傳統視頻生成方法只關注圖像外觀，這種方法更強調從視頻中提取“可以用于理解和推理的知識”。

這篇論文的亮點主要體現在三個方面。首先，它將研究重點從生成逼真的視頻轉向從視頻中學習可遷移知識，使模型從“會生成”發展到“會理解”。

其次，它直接利用真實世界視頻進行訓練，減少對模擬環境或人工構造數據的依賴，使方法更加貼近真實應用場景。最后，這種方法在一定程度上兼顧了視覺生成能力與知識表達能力，使模型既能夠保持較好的生成效果，又具備更強的泛化能力。

總體來看，這篇論文的核心貢獻在于提出了一種從真實視頻中學習世界知識的框架，使視頻模型從單純的生成工具，發展為能夠理解并泛化現實世界規律的模型。

論文《ProPhy: Progressive Physical Alignment for Dynamic World Simulation》是由中山大學、鵬城實驗室等科研團隊共同提出。

論文關注的問題是當前視頻生成模型雖然在視覺效果上已經較好，但在物理一致性方面仍然存在明顯不足，例如物體運動不符合真實物理規律，或者復雜場景中的交互不合理。這一問題的根本原因在于現有方法缺乏對物理規律的顯式建模，同時無法將物理信息精確地對齊到視頻中的具體空間位置。

為了解決這一問題，論文提出了 ProPhy 框架，其核心思路是引入一種“漸進式物理對齊機制”。模型通過一個兩階段的結構來建模物理信息：首先在語義層面提取文本中的物理規律，例如運動類型或物理現象，然后在更細粒度的層面，將這些物理規律精確對齊到視頻中的具體區域和時間過程。

同時，模型采用“物理專家混合機制”，讓不同模塊分別學習不同類型的物理規律，從而形成更加細致的物理建模能力。此外，論文還將視覺語言模型的物理推理能力引入生成過程，使模型能夠更準確地表達復雜動態現象。

這篇論文的亮點主要體現在三個方面。首先，它提出了顯式的物理建模機制，使視頻生成不再只是視覺逼真，而是能夠遵循真實物理規律。其次，它實現了從語義級到細粒度空間級的逐步對齊，使不同物理現象能夠準確作用在對應區域，而不是全局混合。

最后，通過引入“物理專家”結構和視覺語言模型的推理能力，模型在復雜動態場景中生成的視頻更加穩定、合理，并在物理一致性方面明顯優于已有方法。

總體來看，這篇論文的核心貢獻是提出了一種面向物理一致性的生成框架，使視頻生成模型從單純追求視覺真實，進一步發展為能夠遵循真實物理規律的世界模型。

論文《Chain of Event-Centric Causal Thought for Physically Plausible Video Generation》是由四川大學、香港理工大學、電子科技大學、阿德萊德大學研究團隊共同提出。

論文關注的問題是當前視頻生成模型在“物理一致性”上的不足。雖然現有視頻擴散模型可以生成視覺上真實的畫面，但在描述復雜物理過程時，往往只能生成某一個瞬間，而無法正確表達事件之間的因果關系和連續變化，例如液體流動、能量變化等動態過程。

為了解決這一問題，論文提出了一種以“事件為中心”的生成框架，其核心思路是把一個物理現象看作一系列按因果順序發展的事件鏈，而不是一個靜態描述。

具體方法包括兩個關鍵模塊：首先是“物理驅動的事件鏈推理”，將復雜物理過程拆解為多個有明確因果關系的子事件，并通過引入物理公式作為約束，使這些事件之間的關系具有確定性；其次是“跨模態過渡建模”，將這些事件轉化為時間對齊的文本和視覺提示，例如關鍵幀和語義描述，從而引導視頻生成過程在不同事件之間平滑過渡。

這篇論文的亮點主要體現在三個方面。首先，它提出了“事件鏈”這一新的建模方式，使視頻生成從描述單一畫面轉向描述完整的因果過程，從而更接近真實世界。

其次，它將物理公式引入推理過程，使生成內容不僅在視覺上合理，也在物理規律上更加可信。最后，通過結合語義提示和關鍵幀的跨模態控制方式，模型能夠在不同事件之間保持連續性，從而生成具有時間一致性和因果一致性的動態視頻。

總體來看，這篇論文的核心貢獻是提出了一種基于因果事件鏈的物理視頻生成框架，使視頻生成從“生成一個結果”發展為“生成一個符合物理規律的動態過程”，在物理一致性和時序建模方面都有明顯提升。

能不能精確控制生成的世界？

論文《Taming Video Models for 3D and 4D Generation via Zero-Shot Camera Control 》是由西湖大學和南陽理工大學的研究團隊共同提出。

論文主要研究的是視頻擴散模型在 3D 和 4D 場景生成中的一個核心問題，即雖然這些模型已經具備很強的“世界先驗”，但在實際使用中存在三個關鍵缺陷，包括難以精確控制相機運動、時空一致性差以及場景與相機運動耦合在一起，導致生成結果不穩定或者不符合預期。

為了解決這一問題，論文提出了一個新的框架 WorldForge，其核心思路是在不重新訓練模型的情況下，僅通過推理階段對已有視頻擴散模型進行控制增強。

具體來說，該方法由三個關鍵機制組成：首先是在擴散去噪過程中加入遞歸優化，使生成過程逐步貼合目標相機軌跡；其次利用光流信息在潛空間中區分“運動”和“外觀”，從而只對運動相關部分進行控制；最后通過雙路徑對比機制，將有控制與無控制的生成過程進行比較，自動修正偏差，從而避免軌跡漂移。

這篇論文的亮點主要體現在幾個方面。首先，它提出了一種完全不需要訓練的控制方法，只在推理階段進行修改，大幅降低了成本，同時避免破壞原有模型能力。

其次，它實現了對相機軌跡的精確控制，同時保持較高的視覺質量，解決了以往方法中“控制和質量難以兼顧”的問題。最后，該方法具有很強的通用性，是一個“即插即用”的框架，可以直接應用在不同的視頻擴散模型上，并支持多種任務，例如 3D 重建、4D 場景生成以及視頻編輯等。

總體來看，這篇論文的核心貢獻是提出了一種無需訓練的控制框架，使視頻擴散模型能夠在保持生成質量的同時，實現精確的幾何和運動控制，從而推動其在 3D 和 4D 世界建模任務中的應用。雷峰網

模型不僅表示世界，還要「用世界做事」

論文《DriveLaW: Unifying Planning and Video Generation in a Latent Driving World 》是由華中科技大學和小米 EV 團隊共同提出。

論文研究的是自動駕駛中的一個關鍵問題，即如何讓“世界模型”不僅能夠預測未來場景，還能直接參與決策與規劃。現有方法通常把兩個過程分開處理，一部分模型負責預測未來視頻或場景變化，另一部分模塊負責根據這些預測結果進行路徑規劃，這種解耦方式會導致信息利用不充分，并且在復雜場景中容易出現誤差累積。

為了解決這一問題，論文提出了一個新的框架 DriveLaW，其核心思路是在一個統一的“潛在駕駛世界（latent driving world）”中，同時進行視頻生成和運動規劃。

模型首先在潛在空間中學習駕駛場景的動態演化規律，然后在這個空間中直接進行決策推理，而不是先生成完整視頻再做規劃。這樣一來，預測和決策被整合到同一個過程之中，使模型能夠更高效地利用環境信息，同時減少中間誤差的傳播。

這篇論文的亮點主要體現在幾個方面。首先，它將視頻生成與路徑規劃統一在同一個框架中，打破了傳統方法中“預測”和“決策”分離的結構，使世界模型真正參與到決策過程中。

其次，它通過在潛在空間中進行建模和推理，避免了直接生成高維視頻帶來的計算開銷，同時提高了效率和穩定性。最后，這種方法在長時間預測和復雜駕駛場景中表現出更好的魯棒性，因為模型是在一個結構化的世界表示中進行推理，而不是依賴逐幀生成。

總體來看，這篇論文的核心貢獻是提出了一種將視頻生成與自動駕駛規劃統一起來的世界模型框架，使模型不僅能夠“看見未來”，還能夠基于未來進行決策，從而推動自動駕駛系統向更一體化、更高效的方向發展。

論文《ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment 》是由 AMAP CV Lab 研究團隊提出。

論文研究的是機器人操作場景中的世界模型問題。現有視頻世界模型雖然能夠生成視覺上真實的結果，但在涉及物體交互時，往往會出現明顯的物理錯誤，例如物體穿透、違背重力等現象。這是因為這些模型大多基于視覺數據訓練，優化目標只關注生成概率，而忽略了真實物理規律。

為了解決這一問題，論文提出了 ABot-PhysWorld 框架，其核心思路是構建一個具備物理對齊能力的交互式世界模型。該模型基于一個大規模擴散 Transformer 架構，在生成視頻的同時引入物理約束，使生成的機器人操作過程既真實又符合物理規律。

同時，模型支持動作可控生成，可以根據輸入的操作指令控制機器人與物體之間的交互過程。此外，論文還引入了物理感知訓練機制和偏好優化策略，使模型在學習過程中更關注“物理合理性”而不僅是視覺質量。

這篇論文的亮點主要體現在三個方面。首先，它顯式引入物理約束，使世界模型在生成復雜交互場景時能夠避免常見的物理錯誤，從而提升真實性。

其次，它實現了“動作可控的視頻生成”，使模型不僅能預測世界，還能根據動作進行交互式模擬，更貼近機器人應用。最后，該方法在大規模模型基礎上實現了視覺真實感與物理一致性的統一，使世界模型從單純的生成工具，發展為可以用于機器人決策和模擬的基礎模型。

總體來看，這篇論文的核心貢獻是提出了一種融合物理約束與動作控制的世界模型框架，使視頻生成不僅具備視覺真實性，還具備物理合理性和交互能力，從而推動世界模型在機器人操作中的應用。

論文《SimScale: Learning to Drive via Real-World Simulation at Scale》是由中科院自動化所 MAIS 實驗室、香港大學 OpenDriveLab 和小米 EV 團隊共同提出。

論文關注的是自動駕駛中的一個關鍵問題，即真實駕駛數據中“關鍵危險場景”非常稀缺，導致模型雖然在常規場景中表現良好，但在極端或邊界情況下容易失敗。現有方法主要依賴收集更多真實數據或構建人工仿真環境，但前者成本高且難以覆蓋長尾情況，后者又往往與真實世界存在差距。

為了解決這一問題，論文提出了 SimScale 框架，其核心思路是利用真實世界數據構建可擴展的仿真環境，并在此基礎上自動生成大量新的駕駛場景。

具體來說，模型首先從真實數據中提取場景結構，然后在仿真環境中擴展出未見過的狀態，并自動生成對應的駕駛軌跡作為監督信號，最終將真實數據與仿真數據進行聯合訓練，從而提升模型在復雜場景下的表現能力。

這篇論文的亮點在于，它通過“真實數據驅動仿真”的方式，有效縮小了仿真與現實之間的差距，同時能夠大規模生成關鍵長尾場景數據，彌補真實數據中的不足。

此外，該方法具有很強的可擴展性，隨著仿真數據規模增加，模型性能可以持續提升，而不依賴額外真實數據。最后，這種結合真實與仿真的訓練方式，使模型在安全性和泛化能力方面都有明顯增強。

總體來看，這篇論文的核心貢獻是提出了一種基于真實數據構建仿真環境并進行規模化訓練的方法，從而有效解決自動駕駛中長尾場景不足的問題，提升模型在復雜現實環境中的表現能力。

如何知道一個模型真的在「建模世界」？

論文《4DWorldBench: A Comprehensive Evaluation Framework for 3D/4D World Generation Models》由中國科學技術大學、浙江大學和北京智源研究院等機構合作完成。

這項研究關注的是一個基礎問題，即如何系統地評估 3D 和 4D 世界模型的能力。論文指出，現有評測方法通常只關注單一方面，例如視覺質量或簡單一致性，缺乏統一標準，難以全面反映模型是否真正具備對空間和時間的建模能力。

為了解決這個問題，論文提出了一個統一評測框架 4DWorldBench。該框架從多個關鍵維度對模型進行評價，包括視覺感知質量、條件與 4D 對齊能力、物理真實感以及時空一致性。

同時，它支持多種輸入形式，例如從文本、圖像或視頻生成 3D 或 4D 場景，并通過統一機制將不同模態的信息映射到同一個評測空間中，從而實現不同模型之間的直接比較。此外，評測過程中還引入了大語言模型和多模態模型參與判斷，使評價結果更加接近人類主觀判斷。

這篇論文的亮點在于，它建立了一套統一且系統的評測標準，使不同世界模型可以在同一框架下進行公平比較，同時通過多維度評價體系更全面地反映模型能力，而不僅僅局限于視覺效果。此外，引入大模型參與評估，使結果更加穩定，也更貼近人類判斷。

總體來看，這項研究的核心貢獻是為 3D 和 4D 世界模型提供了一套完整的評測體系，使研究重點從單純的生成效果，進一步轉向對世界建模能力的全面衡量。

論文《WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World 》是由 WorldBench Team 團隊提出。

論文關注的是自動駕駛世界模型中的一個核心問題，即如何全面評估一個模型是否真正具備“理解和使用世界”的能力。現有方法通常只評估單一方面，例如視覺生成質量或簡單一致性，缺乏統一標準來衡量模型在真實駕駛場景中的綜合能力，包括是否符合物理規律以及是否能夠支持決策。

為了解決這一問題，論文提出了 WorldLens 框架，用于對世界模型進行系統評估。該框架從多個維度進行衡量，包括生成能力、重建能力、動作跟隨能力以及在下游任務中的表現，同時還結合人類偏好進行評價。論文還構建了一個大規模數據集，并引入自動評估模型，使評測過程能夠規模化，同時保持一定的可解釋性。

這篇論文的亮點在于，它提供了一套更全面的評測體系，使世界模型不再只從視覺效果進行評價，而是從生成、理解和行為能力多個角度進行統一衡量。

同時，通過結合人類標注與自動評估方法，使評測結果更加穩定且更接近真實使用需求。此外，該研究也揭示了當前模型在不同能力之間存在明顯權衡，為后續研究提供了方向。

總體來看，這篇論文的核心貢獻是建立了一套面向自動駕駛世界模型的統一評測框架，使模型評價從單一指標轉向對整體世界建模能力的綜合衡量。

論文《GeoWorld：Geometric World Models 》是由 ANU 和 MBZUAI 團隊共同提出。論文主要研究的是“世界模型”在規劃和預測中的一個核心問題。

現有很多方法雖然可以通過學習潛在空間來進行多步預測，但通常是在歐幾里得空間中建模，這種方式無法很好表達狀態之間的層級結構和復雜關系，同時在長時間預測時容易快速退化，導致結果不穩定。

為了解決這個問題，論文提出了一個新的框架 GeoWorld，其核心思路是將世界模型從傳統的歐幾里得空間建模，擴展到具有層級結構的幾何空間中。

具體來說，它在潛在空間中構建一個“能量模型”，并引入雙曲空間（hyperbolic space）來表示狀態之間的關系，使模型能夠更自然地表達層級結構。同時，在進行預測或規劃時，不再簡單地生成未來狀態，而是通過在這個幾何能量空間中沿“測地線（geodesic）”進行推理，從而實現更穩定的多步預測。

這篇論文的亮點主要體現在三個方面。首先，它將世界模型的表示從普通向量空間提升到具有幾何結構的空間，使模型能夠更好地刻畫復雜關系和層級結構。

其次，它通過在能量空間中進行路徑推理，而不是逐步生成狀態，有效緩解了長時預測中誤差累積的問題，使模型在長時間規劃中更加穩定。

最后，這種方法為“基于世界模型的決策與規劃”提供了一種新的思路，將幾何建模與能量模型結合起來，在機器人和視覺規劃任務中具有潛在應用價值。

總體來看，這篇論文的核心貢獻是提出了一種基于幾何空間的世界模型建模方法，使世界模型從簡單的向量表示，發展為能夠刻畫結構與層級關系的幾何表示，從而提升了長時預測和規劃的能力。

論文《Free-Lunch Long Video Generation via Layer-Adaptive O.O.D Correction》是由西湖大學研究團隊提出。

論文關注的問題是：當前的視頻擴散模型通常只在短視頻數據上訓練，當直接用于生成長視頻時，會出現明顯的質量下降，例如畫面模糊、結構漂移以及時序不穩定。論文指出，這種問題的本質原因來自兩個“分布外問題（O.O.D）”：一是幀間相對位置超出訓練分布，二是上下文長度超過模型訓練范圍。

為了解決這一問題，論文提出了一個新的框架 FreeLOC，核心思路是在完全不需要重新訓練模型的情況下，僅通過推理階段進行修正。雷峰網

具體來說，該方法包含三個關鍵機制：首先，通過“視頻相對位置重編碼”方法，將長視頻中的時間位置重新映射回模型熟悉的范圍，從而解決位置分布外問題；

其次，通過“分層稀疏注意力機制”，在不同時間尺度上分配注意力，使模型既能保持局部細節，又能捕捉長程依賴；最后，引入“層自適應探測機制”，自動識別模型中哪些層對這些問題最敏感，并只在關鍵層進行修正，從而提高效率和效果。

這篇論文的亮點主要體現在三個方面。首先，它提出了一種完全無需訓練的長視頻生成增強方法，可以直接作用在已有模型上，成本極低。其次，它從根本上分析了長視頻生成失敗的原因，并針對“位置”和“上下文長度”兩個關鍵問題提出針對性解決方案。

最后，通過“按層自適應修正”的方式，使方法既高效又精確，在實驗中同時提升了視頻的視覺質量和時序一致性，并達到了當前訓練自由方法中的領先效果。

總體來看，這篇論文的核心貢獻是提出了一種針對分布外問題的層級自適應修正框架，使短視頻訓練得到的模型也能夠穩定生成高質量長視頻，從而顯著提升了視頻生成模型的實用性。

論文《Neoverse: Unposed 4D World Modeling from Monocular Video》是由中國科學院自動化研究所和 CreateAI 研究團隊提出。

論文主要解決的是 4D 世界建模中的一個核心問題，即現有方法通常依賴昂貴的多視角數據或者復雜的離線預處理流程，導致模型難以擴展到真實世界中大量隨手拍攝的單目視頻。因此，這項工作提出的核心目標是：讓 4D 世界模型能夠直接利用“野外單目視頻”進行訓練，從而實現大規模擴展和更強泛化能力。

為了解決這一問題，論文提出了 NeoVerse 框架，其核心思路是構建一個可擴展的重建 + 生成一體化模型。具體來說，模型首先通過一種“無位姿（pose-free）的前饋式 4D 重建方法”，直接從單目視頻中恢復 4D 高斯表示，然后利用這些幾何信息作為條件，引導視頻生成模型產生新視角視頻。

同時，論文設計了“在線退化模擬機制”，在訓練過程中模擬不同視角下的低質量渲染，從而讓生成模型學會在復雜條件下恢復高質量視頻。這一整套流程不依賴復雜預處理，可以直接在大規模單目視頻數據上訓練。

這篇論文的亮點主要體現在三個方面。首先，它突破了對多視角數據和離線預處理的依賴，使 4D 世界模型可以利用大規模真實單目視頻，從而顯著提升可擴展性。

其次，它提出了“前饋式 4D 重建 + 生成聯合訓練”的框架，使模型既能恢復幾何結構，又能生成新視角視頻，實現統一建模。最后，該方法具有較強的通用性，不僅可以用于 4D 重建和視頻生成，還支持視頻編輯、穩定、超分辨率等多種下游任務，并在多個基準上達到較好的效果。

總體來看，這篇論文的核心貢獻是提出了一種面向真實世界單目視頻的可擴展 4D 世界模型框架，使 4D 建模從依賴昂貴數據，轉向可以利用大規模真實視頻數據，從而在泛化能力和實用性上都有明顯提升。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.