![]()
視頻智能正從畫面生成走向運動控制、動態建模、信號理解與真實場景應用。
作者丨鄭佳美
編輯丨馬曉寧
過去,視頻生成更多是在解決“像不像”的問題:人物是否清晰,畫面是否流暢,風格是否統一。但隨著模型能力提升,視頻真正困難的部分開始顯現出來——它不是一組漂亮幀的連續播放,而是一個由時間、空間、運動、相機、光照和物理信號共同構成的動態系統。
只要模型無法理解這些隱含結構,它生成的視頻就可能看似逼真,卻在運動邏輯、視角一致性或真實場景適應上露出破綻。因此,視頻智能正在進入一個更深的階段:不只是生成畫面,而是理解畫面為什么會這樣變化。
從運動軌跡編輯、3D 結構約束、可迭代文生視頻,到自適應視頻 token、長期運動表征、頻閃去除、熱成像分離和地球觀測模型,研究者實際上都在處理同一個底層問題:如何讓模型把視頻從“像素序列”理解為“動態世界”。
這也是今年 CVPR 相關方向中一個值得注意的信號——視頻模型的競爭重心,正在從視覺質量轉向對時間、空間和物理規律的建模能力。
換句話說,視頻 AI 的下一步,不是單純把視頻生成得更長、更清楚、更炫,而是讓模型知道運動從哪里來、結構為什么穩定、信號如何形成,以及復雜場景中的變化如何被預測和控制。
當這些能力逐漸補齊,視頻模型才可能真正從內容生成工具,走向能夠理解、編輯和推演現實世界的動態智能系統。
01
從改畫面到改運動
視頻生成和視頻編輯正在從“畫面是否好看”,走向“運動是否可控”。谷歌和石溪大學共同提出的《MotionV2V: Editing Motion in a Video》研究的正是如何不只修改視頻風格或局部外觀,而是直接編輯視頻里的“運動”。
比如讓人物換方向、讓物體晚一點出現,或在保留場景內容的同時改變鏡頭運動。現有方法一旦涉及物體運動、相機軌跡或時間順序變化,就很難保留原視頻后續幀中已有的內容。
MotionV2V 的核心思路是把視頻運動表示成稀疏軌跡點,并讓用戶直接編輯這些軌跡。系統先從輸入視頻中提取物體或場景點的原始運動軌跡,用戶再指定目標運動,模型根據“原始軌跡”和“目標軌跡”之間的差異生成編輯后的視頻。論文把這種差異稱為 motion edit,并用它指導視頻擴散模型,在盡量保留原視頻內容的同時,讓目標物體或相機按新的方式運動。
![]()
論文地址:https://arxiv.org/pdf/2511.20640v1
它的亮點在于,MotionV2V 不是從單張圖片重新生成視頻,而是真正以完整輸入視頻為條件進行 video-to-video motion editing。因此它可以利用視頻中任意時間點的信息,處理首幀里還沒出現的物體,也能支持物體運動、相機運動、時間控制和連續多次編輯。
作者還構建了 motion counterfactuals,即內容相同但運動不同的視頻對,用來微調 motion-conditioned video diffusion 架構。從論文對比來看,MotionV2V 在內容保留、運動控制和整體編輯質量上優于已有方法,用戶研究中也獲得約 70% 的偏好率。整體來看,這篇論文把視頻編輯從“改外觀”推進到“改運動”。
![]()
當運動編輯涉及相機、物體和非剛性形變時,僅靠 2D 運動線索往往不夠。Adobe 和馬里蘭大學帕克分校共同提出的《Generative Video Motion Editing with 3D Point Tracks》進一步使用 3D point tracks 作為統一的運動控制表示,同時改變視頻里的相機運動和物體運動。
系統會先估計輸入視頻中的相機參數和 3D 點軌跡,用戶編輯相機運動或物體軌跡后,再由 video-to-video 生成模型合成新視頻。
![]()
論文地址:https://arxiv.org/pdf/2512.02015v1
相比 2D 軌跡,3D 軌跡提供了深度信息,可以幫助模型判斷遮擋關系、前后層次和真實空間運動。論文還設計了 3D track conditioner,通過 cross-attention 從輸入視頻中采樣視覺上下文,并把這些信息對齊到目標幀空間中,讓模型在改變運動的同時保持畫面連貫。
由于真實世界中很難獲得成對訓練數據,作者采用兩階段訓練:先用合成數據學習基礎運動控制,再用真實單目視頻構造非連續片段對,縮小合成到真實的差距。整體來看,這篇論文把視頻運動編輯推進到更 3D-aware 的階段,也支持運動遷移、非剛性變形、物體移除和復制等效果。
![]()
如果輸入只有一張物體圖像,模型如何在相機繞物體旋轉時生成穩定、真實、結構一致的視頻?澳大利亞國立大學和亞馬遜共同提出的《Towards Realistic and Consistent Orbital Video Generation via 3D Foundation Priors》研究的就是從單張物體圖像生成 orbital video。現有視頻生成方法在大角度視角變化時缺少可靠像素對應關系,容易生成結構扭曲或不合理的物體形狀。
![]()
論文地址:https://arxiv.org/pdf/2604.12309
這篇論文的核心思路是引入 3D foundation model 中學到的形狀先驗,用它輔助視頻擴散模型生成更穩定的環繞視頻。模型從單張輸入圖像中提取兩類 3D latent features:全局 latent vector 提供整體結構指導,體積特征投影得到的 latent images 提供隨視角變化的幾何細節。
相比深度圖或法線圖,這些 3D latent features 能表達更完整的物體形狀,也避免顯式提取 mesh 的額外開銷。作者還設計了 multi-scale 3D adapter,把不同尺度的 3D 特征接入基礎視頻模型,從而提升生成視頻的真實感、物體形狀合理性和多視角一致性。
![]()
谷歌和新加坡國立大學共同提出的《VISTA: A Test-Time Self-Improving Video Generation Agent》則把重點放在生成流程本身:當用戶給出文本想法后,系統能不能反復評估、反思和修改,直到生成更符合意圖的視頻。
它研究的是 test-time self-improvement,也就是不重新訓練視頻生成模型,而是在推理階段通過反復評價和改寫 prompt 來提升結果。
VISTA 會先把用戶想法拆成帶有時間結構的場景計劃,包括時長、角色、動作、對白、環境、相機、聲音和情緒等要素;生成多個候選視頻后,通過 pairwise tournament 選出當前最好結果;隨后由視覺、音頻和上下文評審智能體提出意見,最后由 reasoning agent 綜合反饋并改寫 prompt,進入下一輪生成。
![]()
論文地址:https://arxiv.org/pdf/2510.15831
它的亮點在于,VISTA 不是只優化某個指標,而是把視頻規劃、候選篩選、多維度評價和提示詞重寫串成自動閉環。論文中提到,VISTA 在自動指標下相較先進基線最高達到 60% 的 pairwise win rate,在人工評測中也獲得 66.4% 的偏好率。整體來看,它把文生視頻從“一次性生成”推進到“生成—評價—反思—再生成”。
![]()
02
讓模型先學會「怎么動」
要讓視頻模型更好地生成和編輯內容,底層表示也需要更高效。上海交通大學、香港中文大學多媒體實驗室、上海人工智能實驗室 OpenGVLab、同濟大學、清華大學共同提出的《AdapTok: Learning Adaptive and Temporally Causal Video Tokenization in a 1D Latent Space》研究的是視頻 tokenization 問題,也就是如何把連續視頻幀壓縮成更適合自回歸模型處理的離散 token。
![]()
論文地址:https://arxiv.org/pdf/2505.17011v2
AdapTok 的核心思路是讓視頻 token 分配變得自適應。它不是給每個時間段分配同樣多的 token,而是根據視頻內容、時間變化和整體預算,動態決定哪里多用 token、哪里少用 token。
它使用 1D latent token space 表示視頻,并引入 temporal causality,讓前面幀的編碼和解碼不依賴未來幀,更適合流式處理和自回歸生成;同時通過 block-wise masking、block causal scorer 和 IPAL 策略完成自適應分配。
這樣一來,運動明顯、場景變化大的片段會獲得更多 token,靜態或冗余片段則使用更少 token。在 UCF-101 和 Kinetics-600 任務中,AdapTok 在不同 token 預算下都能提升重建質量和生成表現。
![]()
AdapTok 解決的是視頻如何被高效表示,而 CompVis @ LMU、MCML 和蘋果共同提出的《Learning Long-term Motion Embeddings for Efficient Kinematics Generation》進一步追問:如果只是理解未來怎么動,是否一定要完整生成像素視頻。論文轉向學習一種更緊湊的 long-term motion embedding,用來表示場景中的長期運動規律。
它從大規模 tracker 模型得到的軌跡數據中學習壓縮運動空間,把稀疏軌跡和起始幀編碼成 latent motion grid,并可在任意空間查詢點上重建密集運動;隨后在這個運動 latent 空間里訓練 conditional flow-matching 模型,根據文本任務描述或 spatial pokes 生成長期運動。這種表示可達到 64 倍時間壓縮,也就是說模型不用逐幀生成視頻,就能在更抽象的運動空間中推斷未來動態。
![]()
論文地址:https://arxiv.org/pdf/2604.11737
這篇論文的亮點在于,它把“生成視頻”拆成了更基礎的“生成運動”。這種 kinematics-first 方式更適合探索多個可能未來,也更適合機器人規劃、軌跡預測和長期動態建模。
在開放域互聯網視頻和 LIBERO 機器人基準上,它的運動生成質量、條件遵循能力和效率都優于專門軌跡預測方法以及 Wan、Veo 3 等視頻模型基線。整體來看,AI 不一定要先“畫出未來”,也可以先學會“未來應該怎么動”。
![]()
03
從修復畫面到理解信號來源
除了生成和編輯,視頻與圖像研究也在關注如何從復雜成像退化中恢復可靠信息。南開大學國際先進研究院、鵬城實驗室、南開大學計算機學院、香港理工大學、OPPO 研究院共同提出的《It Takes Two: A Duet of Periodicity and Directionality for Burst Flicker Removal》研究的是短曝光連拍圖像中的 flicker artifact 去除問題。
這類退化由人工光源頻閃和 rolling shutter 共同造成,表現為條紋狀、明暗不均的閃爍,不能簡單當作普通噪聲或低光增強處理。
Flickerformer 的核心思路是利用閃爍退化的周期性和方向性。周期性來自交流電光源亮度變化,方向性與相機逐行掃描機制有關。針對這兩個特點,Flickerformer 設計了 PFM、AFFN 和 WDAM 三個模塊,分別用于幀間相位相關融合、單幀自相關建模,以及小波域方向性高頻修復。
![]()
論文地址:https://arxiv.org/pdf/2603.22794v1
它的亮點在于,把頻閃本身的物理先驗嵌入網絡結構里,而不是把 flicker removal 當成普通圖像增強任務。在 BurstDeflicker benchmark 上,Flickerformer 超過多種圖像復原和 burst restoration 方法,取得 31.226 PSNR、0.920 SSIM、0.045 LPIPS。整體來看,這篇論文讓模型能夠更準確地去除條紋閃爍,同時保留細節并減少重影。
![]()
類似思路也出現在熱成像研究中。CMU 提出的《Dual Band Video Thermography: Separating Time-Varying Reflection and Emission Near Ambient Conditions》研究的是熱成像中的發射 / 反射分離問題。
熱相機看到的長波紅外信號既可能來自物體自身熱輻射,也可能來自周圍環境反射;在接近室溫的日常場景中,這兩部分信號強度接近且都會隨時間變化,因此很難判斷亮暗變化到底來自物體溫度變化,還是背景反射。
![]()
論文地址:https://arxiv.org/pdf/2509.11334
論文提出 dual-band thermal videography,用兩個長波紅外子波段視頻分離“物體自身發射”和“背景反射”。它同時利用光譜線索和時間線索:同一材料在兩個波段中的發射率比例相對固定,而物體熱傳導變化通常更平滑、背景反射變化更快。
實驗中,方法能把咖啡壺升溫時的熱發射與旁邊移動人物的反射分開,也能區分玻璃板上的手指熱印和手指反射。在酒杯和咖啡壺視頻中的非校準溫度估計誤差分別約為 1.72% 和 5.34%。整體來看,這篇論文把熱成像從“看到溫度分布”推進到“理解熱信號來源”。
![]()
04
讓視覺模型進入真實世界任務
當視覺模型進入遙感和地球觀測場景時,問題會比普通圖像更復雜:模型不僅要處理圖像,還要同時理解時間序列、多源數據和地圖標注。艾倫人工智能研究所、華盛頓大學、亞利桑那州立大學、不列顛哥倫比亞大學聯合提出的《Helios: Stable Latent Image Modeling for Multimodal Earth Observation》研究的是面向地球觀測數據的多模態基礎模型。
地球觀測數據既有圖像空間結構,也有類似視頻或文本的時間序列特征,還包含衛星影像、地圖、地形、作物、土地覆蓋等多種模態。
這篇論文提出的模型叫 OlmoEarth,目標是讓地球觀測基礎模型更穩定、更高效,也更容易落地到環保、人道主義和公共利益相關任務中。它不只訓練模型,還配套構建端到端平臺,用于數據收集、標注、訓練和推理,降低真實組織使用前沿地球觀測模型的門檻。
![]()
論文地址:https://arxiv.org/pdf/2511.13655
OlmoEarth 的核心方法是 Latent MIM Lite。它用隨機初始化、訓練中凍結的線性投影層,把圖像 patch 投到 token 空間作為預測目標,在保留 latent modeling 表征能力的同時提升訓練穩定性。這個設計還把自監督數據和帶標注地圖數據統一到同一個 token 空間里,讓模型可以用相同損失學習觀測數據和標簽地圖。
針對遙感數據空間、時間和模態高度冗余的問題,OlmoEarth 采用 modality-aware masking,讓模型必須從其他時間、空間或模態中推斷缺失信息;同時只在同一 bandset 內進行 token 對比,避免大量“太容易”的負樣本削弱訓練效果。
綜合評估中,OlmoEarth 與 12 個其他基礎模型相比,在 embedding 評估中于 24 個任務里的 15 個取得最好表現;在 full fine-tuning 設置下,于 29 個任務里的 19 個取得最好表現。整體來看,這篇論文為地球觀測任務提出了一個更穩定、更開放、更面向真實應用的多模態基礎模型體系。
![]()
這次去 CVPR 現場,一定不要錯過
【認識大牛+賺外快】的機會
需要你做什么:把你最關注的10個大會報告,每頁PPT都拍下來
你能獲得什么?
認識大牛:你將可以進入CVPR名師博士社群;
錢多活少:提供豐厚獎金,任務量精簡;
聽會自由:你的行程你做主,順手就把外快賺。拍下你最感興趣的10個報告PPT即可。
如果你即將前往CVPR,想邊聽會邊賺錢,還能順便為AI學術社區做貢獻、認識更多大牛,歡迎聯系我們:[添加微信號:MS_Yahei]
【限額5位,先到先得】
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.