過去幾年,視覺生成與視覺理解領域的技術推進,整體上始終沿著一條相對明確的路徑展開:當一套建模范式被驗證有效之后,后續的大量工作往往都會圍繞這套既有框架持續做模型擴容、訓練增強、采樣優化與局部模塊修補,以此換取更高的性能上限。
無論是擴散生成、視頻 world model,還是動作建模與視覺匹配,主流研究在很長時間里都更多表現為對既有系統的持續加固,而不是對底層假設本身的重新審視。
但從今年 CVPR 集中出現的一批代表性工作來看,這種相對穩定的技術推進邏輯正在發生值得警惕的變化。越來越多研究已經不再滿足于在現有模型框架內部繼續做增量式性能修補,而是開始系統性地把問題重新拉回到那些長期被工程實踐視為“默認正確”的基礎設定上。
擴散模型中的引導機制是否真的合理,視頻生成是否必須建立在 diffusion 的反復去噪之上,生成模型所學習的預測對象是否從一開始就遵循了最自然的數據流形,以及人體動作生成與語義對應任務中長期被粗粒度評價掩蓋的控制邊界和泛化邊界,是否都需要被重新定義。
這意味著,頂會論文所呈現出的競爭重點正在悄然發生遷移。相比于過去更多強調“在原有范式內把模型做得更強、把指標推得更高”,這一批工作更值得注意的地方在于,它們開始同步觸碰那些決定模型行為方式的底層建模前提,并試圖重新建立新的生成目標、控制機制、主干架構與表示邏輯。
換句話說,視覺 AI 的下一輪競爭,正在逐漸從性能增量競爭,轉向對既有默認設定的回溯性重寫。
視覺生成開始重寫基礎機制
這一趨勢首先體現在由上海交通大學和 vivo BlueImage Lab 共同提出的《C2FG: Control Classifier-Free Guidance via Score Discrepancy Analysis》上。
Classifier-Free Guidance(CFG)作為條件擴散模型中最常用的生成引導機制,幾乎已經成為默認組件:通過調節 conditional 分支和 unconditional 分支之間的 guidance strength 來增強模型對條件信息的服從程度,從而提升生成質量。
但長期以來,這一過程主要依賴固定 guidance weight 或少量經驗化動態調整,真正的問題在于,擴散過程內部的噪聲結構和 score 差異并不是靜止的,而是隨著時間步不斷變化,固定的引導強度很難在整個采樣階段都保持最優。
論文正是從這一被忽視的內部動力學出發,分析不同 timestep 下 conditional score 與 unconditional score 的 discrepancy 變化規律,指出 guidance scale 本質上不應是一個靜態超參數。
基于這種理論觀察,作者提出 C2FG(Control Classifier-Free Guidance),利用指數衰減控制函數讓 guidance strength 在采樣前期和后期自動完成動態分配:前期更強地利用條件約束保證語義對齊,后期則逐步減弱引導以避免過強 guidance 帶來的分布偏移和細節失真。
它真正打破的是 CFG 長期依賴經驗調參的慣性,把一個原本“手工設定的 scale”重新建立成一個與擴散動力學同步變化的控制變量,而且由于整個方法 training-free、plug-in,無需重新訓練模型即可直接嵌入現有采樣流程,這也使它具備了非常強的工程可遷移性。
![]()
而當擴散模型內部的引導控制開始被重新理論化時,蘋果團隊提出的《STARFlow-V: End-to-End Video Generative Modeling with Autoregressive Normalizing Flows》則進一步把問題推向了更底層的生成架構本身。
當前高質量視頻生成幾乎清一色建立在 diffusion 框架之上,反復去噪似乎已經成為視頻 world model 的默認實現方式,normalizing flow 雖然在圖像生成中重新受到關注,卻始終沒有真正進入視頻生成主流。
STARFlow-V 試圖回答的是:高質量視頻生成是否真的只有 diffusion 這一條路。為此,論文并沒有簡單把圖像 flow 結構遷移到視頻,而是針對視頻生成的長時序依賴和跨幀一致性,在時空 latent 空間中重新構建了一套 global-local 的 autoregressive normalizing flow 架構:
全局 latent 用于控制跨幀因果依賴,減少長視頻中誤差逐幀累積的問題,局部 latent 則保留幀內細節交互,保證空間紋理質量。
同時,作者進一步引入 flow-score matching,通過輕量級 causal denoiser 提升自回歸生成過程中的時間一致性,并利用 video-aware Jacobi iteration 提高內部更新的并行效率。
也就是說,它并不是在 diffusion 框架內繼續做采樣優化,而是直接打破“高質量視頻生成必須依賴 diffusion 反復去噪”的默認前提,建立起一種基于 normalizing flow 的端到端視頻生成范式。
更重要的是,由于 flow 天然具備可逆結構和顯式 likelihood 估計能力,同一個 STARFlow-V 模型就能夠原生支持 text-to-video、image-to-video 以及 video-to-video 多種任務,不需要為不同任務額外堆疊復雜分支,這使它不僅是一個替代架構,更像是在重新打開視頻生成的技術路線圖。
![]()
如果說前兩篇工作還主要集中在“生成過程如何被重新控制與重新實現”,那么由 MIT 團隊提出的《Back to Basics: Let Denoising Generative Models Denoise》則把審視進一步推回到擴散模型最核心的預測對象上。雷峰網
當前主流 denoising diffusion model 雖然名義上是“去噪生成模型”,但大多數做法實際上并不直接預測干凈圖像,而是讓模型去擬合噪聲殘差或帶噪中間量,這一設定在工程上已經沿用多年,卻很少有人重新追問它是否真的是最合理的生成目標。
他們的研究指出,按照流形假設,自然圖像分布位于相對低維且連續的數據流形,而噪聲空間則高維、分散且更難擬合;從這個角度看,讓模型直接學習回到 clean data,本身可能比在高維噪聲空間中預測 noised quantity 更自然、更穩定。
基于這一認識,作者提出 JiT(Just image Transformers),不再依賴額外 tokenizer、復雜預訓練模塊或輔助損失,而是直接使用大 patch Transformer 在原始像素空間完成 clean image 預測。
這個設計表面上看是“回歸樸素”,但它真正打破的是“擴散模型默認預測噪聲”的路徑依賴,重新建立起一種以直接回歸數據流形為核心的生成思路,也讓 Transformer-based diffusion 在高分辨率自然圖像上的建模邏輯變得更加自洽。
![]()
生成模型開始從「會生成」走向「會精確編排」
當視覺生成模型不斷回到底層機制做重構時,另一部分工作則開始把注意力轉向“模型生成結果到底能被控制到什么程度”。由德國圖賓根大學、Tübingen AI Center 以及馬克斯·普朗克信息學研究所共同提出的《FrankenMotion: Part-level Human Motion Generation and Composition》就是其中非常典型的一例。
當前文本驅動人體動作生成雖然已經能夠根據整體動作描述生成相對自然的人體運動,但模型控制依然停留在粗粒度層面:它能理解“一個人在走路”“一個人在揮手”,卻很難精確回答“左手什么時候抬起”“下半身何時轉向”“動作切換發生在哪一幀”。
造成這一問題的核心原因,一方面在于現有 mocap 數據大多只有序列級動作標簽,缺少按時間對齊、按身體部位拆分的細粒度標注;另一方面,模型即使理解整體語義,也很難同時兼顧局部肢體動作與全局時序一致性。
FrankenMotion 正是重新把復雜人體運動視為由多個“原子動作單元”組成,并嘗試讓模型學習這些身體部位級動作之間的組合關系。
論文首先借助 FrankenAgent 自動為已有動作序列生成逐幀、逐身體部位且時間對齊的層級文本標注,構建新的 FrankenStein 數據集;隨后訓練 FrankenMotion 同時接收序列級、動作級和身體部位級條件,使模型不僅知道“做什么動作”,還知道“哪部分身體在什么時候做”。
這意味著人體動作生成開始從“生成一個合理動作片段”轉向“按指令精確編排復雜動作組合”,模型能夠組合出訓練集中并未直接出現過的細粒度復合動作。
與這種細粒度控制需求相對應,視覺理解中的匹配任務也在經歷類似的范式轉向。由意大利都靈理工大學、TU Darmstadt、hessian.AI 以及 ELIZA 共同提出的
![]()
由而意大利都靈理工大學(Politecnico di Torino)、德國達姆施塔特工業大學(TU Darmstadt)、德國黑森州人工智能研究院(hessian.AI)以及 ELIZA 共同提出的《MARCO: Navigating the Unseen Space of Semantic Correspondence》。
關注的則是語義對應(semantic correspondence)里一個很現實卻常被 benchmark 掩蓋的問題:現有方法雖然在已標注關鍵點上精度很高,但一旦查詢點超出訓練時見過的關鍵點位置,或者遇到未見類別,泛化能力就會迅速下降,導致 benchmark 成績與真實可用性之間存在明顯落差。
當前主流語義對應模型通常采用 DINOv2 加 diffusion backbone 的雙編碼器架構,雖然效果強,但模型規模接近十億參數,計算開銷大,而且依賴稀疏關鍵點監督時很難學到真正連續、致密的語義匹配關系。
MARCO 的核心切入點,就是不再滿足于“在標注點上對得準”,而是嘗試讓模型學會在未被標注的空間中也能推斷合理的對應關系。
為此,論文在 DINOv2 基礎上構建了一個更統一、更輕量的對應框架,并結合 coarse-to-fine 的定位目標提升細粒度空間精度,同時引入一種 dense self-distillation 機制,把原本稀疏的關鍵點監督逐步擴展成更致密的語義對齊信號。
這種設計帶來的變化在于,模型不只是記住訓練時出現過的對應點,而是開始學習物體表面更連續的結構關聯,因此在 unseen keypoints 和 unseen categories 上都表現出更強泛化能力。
實驗結果顯示,MARCO 不僅在 SPair-71k、AP-10K、PF-PASCAL 等標準基準上刷新了性能,在更嚴格的細粒度定位閾值和未見關鍵點測試中提升尤其明顯;與此同時,它相比 diffusion-based 方法還實現了約 3 倍更小、10 倍更快 的效率優勢。
這篇工作的價值在于,它打破了語義對應領域長期“高 benchmark 分數 ≠ 強真實泛化”的隱性瓶頸,建立起一種更強調致密推斷和未見空間泛化的建模思路,使 semantic correspondence 從“在標注點上匹配”,進一步走向“在整片語義空間中尋找對應”。
![]()
把這幾項工作放在一起看,會發現它們雖然分別來自擴散控制、視頻生成、人體動作生成和語義對應等不同方向,但背后其實共享著同一條更深層的研究脈絡:視覺 AI 正在從“沿著既定范式堆模型、調參數、刷 benchmark”,轉向“重新拆掉那些被默認正確的底層設定,再建立新的生成目標、控制機制和表示方式”。雷峰網
有的工作在重新定義擴散模型應該如何引導,有的在重新打開視頻生成不止 diffusion 一條路的可能性,有的在追問生成模型到底該預測噪聲還是直接預測數據流形,也有的在把模型控制粒度和泛化空間從粗粒度推進到更連續、更真實的層面。
換句話說,真正值得注意的已經不只是某一個模型分數提升了多少,而是這一批工作共同釋放出的信號:視覺模型的下一輪競爭,正在從性能增量競爭,轉向底層建模范式的重構競爭。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.