<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      CVPR 2026 生成式 AI 觀察梳理:視覺模型開始重寫默認設定

      0
      分享至


      從擴散控制到語義泛化,視覺 AI 進入范式重構期。

      作者丨鄭佳美

      編輯丨岑 峰

      過去幾年,視覺生成與視覺理解領域的技術推進,整體上始終沿著一條相對明確的路徑展開:當一套建模范式被驗證有效之后,后續的大量工作往往都會圍繞這套既有框架持續做模型擴容、訓練增強、采樣優化與局部模塊修補,以此換取更高的性能上限。

      無論是擴散生成、視頻 world model,還是動作建模與視覺匹配,主流研究在很長時間里都更多表現為對既有系統的持續加固,而不是對底層假設本身的重新審視。

      但從今年 CVPR 集中出現的一批代表性工作來看,這種相對穩定的技術推進邏輯正在發生值得警惕的變化。越來越多研究已經不再滿足于在現有模型框架內部繼續做增量式性能修補,而是開始系統性地把問題重新拉回到那些長期被工程實踐視為“默認正確”的基礎設定上。

      擴散模型中的引導機制是否真的合理,視頻生成是否必須建立在 diffusion 的反復去噪之上,生成模型所學習的預測對象是否從一開始就遵循了最自然的數據流形,以及人體動作生成與語義對應任務中長期被粗粒度評價掩蓋的控制邊界和泛化邊界,是否都需要被重新定義。

      這意味著,頂會論文所呈現出的競爭重點正在悄然發生遷移。相比于過去更多強調“在原有范式內把模型做得更強、把指標推得更高”,這一批工作更值得注意的地方在于,它們開始同步觸碰那些決定模型行為方式的底層建模前提,并試圖重新建立新的生成目標、控制機制、主干架構與表示邏輯。

      換句話說,視覺 AI 的下一輪競爭,正在逐漸從性能增量競爭,轉向對既有默認設定的回溯性重寫。

      01


      視覺生成開始重寫基礎機制

      這一趨勢首先體現在由上海交通大學和 vivo BlueImage Lab 共同提出的《C2FG: Control Classifier-Free Guidance via Score Discrepancy Analysis》上。


      論文地址:https://arxiv.org/pdf/2603.08155v2

      Classifier-Free Guidance(CFG)作為條件擴散模型中最常用的生成引導機制,幾乎已經成為默認組件:通過調節 conditional 分支和 unconditional 分支之間的 guidance strength 來增強模型對條件信息的服從程度,從而提升生成質量。

      但長期以來,這一過程主要依賴固定 guidance weight 或少量經驗化動態調整,真正的問題在于,擴散過程內部的噪聲結構和 score 差異并不是靜止的,而是隨著時間步不斷變化,固定的引導強度很難在整個采樣階段都保持最優。

      論文正是從這一被忽視的內部動力學出發,分析不同 timestep 下 conditional score 與 unconditional score 的 discrepancy 變化規律,指出 guidance scale 本質上不應是一個靜態超參數。

      基于這種理論觀察,作者提出 C2FG(Control Classifier-Free Guidance),利用指數衰減控制函數讓 guidance strength 在采樣前期和后期自動完成動態分配:前期更強地利用條件約束保證語義對齊,后期則逐步減弱引導以避免過強 guidance 帶來的分布偏移和細節失真。

      它真正打破的是 CFG 長期依賴經驗調參的慣性,把一個原本“手工設定的 scale”重新建立成一個與擴散動力學同步變化的控制變量,而且由于整個方法 training-free、plug-in,無需重新訓練模型即可直接嵌入現有采樣流程,這也使它具備了非常強的工程可遷移性。


      而當擴散模型內部的引導控制開始被重新理論化時,蘋果團隊提出的《STARFlow-V: End-to-End Video Generative Modeling with Autoregressive Normalizing Flows》則進一步把問題推向了更底層的生成架構本身。

      當前高質量視頻生成幾乎清一色建立在 diffusion 框架之上,反復去噪似乎已經成為視頻 world model 的默認實現方式,normalizing flow 雖然在圖像生成中重新受到關注,卻始終沒有真正進入視頻生成主流。


      論文地址:https://arxiv.org/pdf/2511.20462v2

      STARFlow-V 試圖回答的是:高質量視頻生成是否真的只有 diffusion 這一條路。為此,論文并沒有簡單把圖像 flow 結構遷移到視頻,而是針對視頻生成的長時序依賴和跨幀一致性,在時空 latent 空間中重新構建了一套 global-local 的 autoregressive normalizing flow 架構:

      全局 latent 用于控制跨幀因果依賴,減少長視頻中誤差逐幀累積的問題,局部 latent 則保留幀內細節交互,保證空間紋理質量。

      同時,作者進一步引入 flow-score matching,通過輕量級 causal denoiser 提升自回歸生成過程中的時間一致性,并利用 video-aware Jacobi iteration 提高內部更新的并行效率。

      也就是說,它并不是在 diffusion 框架內繼續做采樣優化,而是直接打破“高質量視頻生成必須依賴 diffusion 反復去噪”的默認前提,建立起一種基于 normalizing flow 的端到端視頻生成范式。

      更重要的是,由于 flow 天然具備可逆結構和顯式 likelihood 估計能力,同一個 STARFlow-V 模型就能夠原生支持 text-to-video、image-to-video 以及 video-to-video 多種任務,不需要為不同任務額外堆疊復雜分支,這使它不僅是一個替代架構,更像是在重新打開視頻生成的技術路線圖。


      如果說前兩篇工作還主要集中在“生成過程如何被重新控制與重新實現”,那么由 MIT 團隊提出的《Back to Basics: Let Denoising Generative Models Denoise》則把審視進一步推回到擴散模型最核心的預測對象上。

      當前主流 denoising diffusion model 雖然名義上是“去噪生成模型”,但大多數做法實際上并不直接預測干凈圖像,而是讓模型去擬合噪聲殘差或帶噪中間量,這一設定在工程上已經沿用多年,卻很少有人重新追問它是否真的是最合理的生成目標。


      論文地址:https://arxiv.org/pdf/2511.13720v2

      他們的研究指出,按照流形假設,自然圖像分布位于相對低維且連續的數據流形,而噪聲空間則高維、分散且更難擬合;從這個角度看,讓模型直接學習回到 clean data,本身可能比在高維噪聲空間中預測 noised quantity 更自然、更穩定。

      基于這一認識,作者提出 JiT(Just image Transformers),不再依賴額外 tokenizer、復雜預訓練模塊或輔助損失,而是直接使用大 patch Transformer 在原始像素空間完成 clean image 預測。

      這個設計表面上看是“回歸樸素”,但它真正打破的是“擴散模型默認預測噪聲”的路徑依賴,重新建立起一種以直接回歸數據流形為核心的生成思路,也讓 Transformer-based diffusion 在高分辨率自然圖像上的建模邏輯變得更加自洽。


      02


      生成模型開始從「會生成」走向「會精確編排」

      當視覺生成模型不斷回到底層機制做重構時,另一部分工作則開始把注意力轉向“模型生成結果到底能被控制到什么程度”。由德國圖賓根大學、Tübingen AI Center 以及馬克斯·普朗克信息學研究所共同提出的《FrankenMotion: Part-level Human Motion Generation and Composition》就是其中非常典型的一例。

      當前文本驅動人體動作生成雖然已經能夠根據整體動作描述生成相對自然的人體運動,但模型控制依然停留在粗粒度層面:它能理解“一個人在走路”“一個人在揮手”,卻很難精確回答“左手什么時候抬起”“下半身何時轉向”“動作切換發生在哪一幀”。


      論文地址:https://arxiv.org/pdf/2601.10909v1

      造成這一問題的核心原因,一方面在于現有 mocap 數據大多只有序列級動作標簽,缺少按時間對齊、按身體部位拆分的細粒度標注;另一方面,模型即使理解整體語義,也很難同時兼顧局部肢體動作與全局時序一致性。

      FrankenMotion 正是重新把復雜人體運動視為由多個“原子動作單元”組成,并嘗試讓模型學習這些身體部位級動作之間的組合關系。

      論文首先借助 FrankenAgent 自動為已有動作序列生成逐幀、逐身體部位且時間對齊的層級文本標注,構建新的 FrankenStein 數據集;隨后訓練 FrankenMotion 同時接收序列級、動作級和身體部位級條件,使模型不僅知道“做什么動作”,還知道“哪部分身體在什么時候做”。

      這意味著人體動作生成開始從“生成一個合理動作片段”轉向“按指令精確編排復雜動作組合”,模型能夠組合出訓練集中并未直接出現過的細粒度復合動作。

      與這種細粒度控制需求相對應,視覺理解中的匹配任務也在經歷類似的范式轉向。由意大利都靈理工大學、TU Darmstadt、hessian.AI 以及 ELIZA 共同提出的


      由而意大利都靈理工大學(Politecnico di Torino)、德國達姆施塔特工業大學(TU Darmstadt)、德國黑森州人工智能研究院(hessian.AI)以及 ELIZA 共同提出的《MARCO: Navigating the Unseen Space of Semantic Correspondence》。

      關注的則是語義對應(semantic correspondence)里一個很現實卻常被 benchmark 掩蓋的問題:現有方法雖然在已標注關鍵點上精度很高,但一旦查詢點超出訓練時見過的關鍵點位置,或者遇到未見類別,泛化能力就會迅速下降,導致 benchmark 成績與真實可用性之間存在明顯落差。


      論文地址:https://arxiv.org/pdf/2604.18267v1

      當前主流語義對應模型通常采用 DINOv2 加 diffusion backbone 的雙編碼器架構,雖然效果強,但模型規模接近十億參數,計算開銷大,而且依賴稀疏關鍵點監督時很難學到真正連續、致密的語義匹配關系。

      MARCO 的核心切入點,就是不再滿足于“在標注點上對得準”,而是嘗試讓模型學會在未被標注的空間中也能推斷合理的對應關系。

      為此,論文在 DINOv2 基礎上構建了一個更統一、更輕量的對應框架,并結合 coarse-to-fine 的定位目標提升細粒度空間精度,同時引入一種 dense self-distillation 機制,把原本稀疏的關鍵點監督逐步擴展成更致密的語義對齊信號。

      這種設計帶來的變化在于,模型不只是記住訓練時出現過的對應點,而是開始學習物體表面更連續的結構關聯,因此在 unseen keypoints 和 unseen categories 上都表現出更強泛化能力。

      實驗結果顯示,MARCO 不僅在 SPair-71k、AP-10K、PF-PASCAL 等標準基準上刷新了性能,在更嚴格的細粒度定位閾值和未見關鍵點測試中提升尤其明顯;與此同時,它相比 diffusion-based 方法還實現了約3 倍更小、10 倍更快的效率優勢。

      這篇工作的價值在于,它打破了語義對應領域長期“高 benchmark 分數 ≠ 強真實泛化”的隱性瓶頸,建立起一種更強調致密推斷和未見空間泛化的建模思路,使 semantic correspondence 從“在標注點上匹配”,進一步走向“在整片語義空間中尋找對應”。


      把這幾項工作放在一起看,會發現它們雖然分別來自擴散控制、視頻生成、人體動作生成和語義對應等不同方向,但背后其實共享著同一條更深層的研究脈絡:視覺 AI 正在從“沿著既定范式堆模型、調參數、刷 benchmark”,轉向“重新拆掉那些被默認正確的底層設定,再建立新的生成目標、控制機制和表示方式”。

      有的工作在重新定義擴散模型應該如何引導,有的在重新打開視頻生成不止 diffusion 一條路的可能性,有的在追問生成模型到底該預測噪聲還是直接預測數據流形,也有的在把模型控制粒度和泛化空間從粗粒度推進到更連續、更真實的層面。

      換句話說,真正值得注意的已經不只是某一個模型分數提升了多少,而是這一批工作共同釋放出的信號:視覺模型的下一輪競爭,正在從性能增量競爭,轉向底層建模范式的重構競爭。

      這次去 CVPR 現場,一定不要錯過

      【認識大牛+賺外快】的機會

      需要你做什么:把你最關注的10個大會報告,每頁PPT都拍下來

      你能獲得什么?

      認識大牛:你將可以進入CVPR名師博士社群;

      錢多活少:提供豐厚獎金,任務量精簡;

      聽會自由:你的行程你做主,順手就把外快賺。拍下你最感興趣的10個報告PPT即可。

      如果你即將前往CVPR,想邊聽會邊賺錢,還能順便為AI學術社區做貢獻、認識更多大牛,歡迎聯系我們:[添加微信號:MS_Yahei]

      【限額5位,先到先得】

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      黃仁勛去吃炸醬面!大熱天穿皮衣,站在門口大口吃面條

      黃仁勛去吃炸醬面!大熱天穿皮衣,站在門口大口吃面條

      西樓知趣雜談
      2026-05-15 13:59:38
      陪伴上海人18年,滬上知名百貨公告:6月底閉店!購物卡處理方案公布

      陪伴上海人18年,滬上知名百貨公告:6月底閉店!購物卡處理方案公布

      上觀新聞
      2026-05-15 21:28:06
      中國氣象局升級重大氣象災害(暴雨、強對流)四級應急響應為三級

      中國氣象局升級重大氣象災害(暴雨、強對流)四級應急響應為三級

      新京報
      2026-05-15 18:53:21
      曝央視與國際足聯談判成功!7.4億買下世界杯轉播權 1天內簽約

      曝央視與國際足聯談判成功!7.4億買下世界杯轉播權 1天內簽約

      念洲
      2026-05-15 07:46:29
      血虧!大阪世博會190臺電動巴士全部報廢,巨虧67億日元

      血虧!大阪世博會190臺電動巴士全部報廢,巨虧67億日元

      顫抖的熊貓
      2026-05-15 10:41:43
      人民大會堂國宴服務員驚艷刷屏:相貌大方,氣質端莊,太美了!

      人民大會堂國宴服務員驚艷刷屏:相貌大方,氣質端莊,太美了!

      手工制作阿殲
      2026-05-16 00:11:27
      普通家庭最大的通病,是把托舉的順序搞反了

      普通家庭最大的通病,是把托舉的順序搞反了

      洞見
      2026-05-15 10:08:02
      驚現夜市鬧劇!30歲高顏值少婦當眾脫內褲套男子嘴,丈夫全程目睹

      驚現夜市鬧??!30歲高顏值少婦當眾脫內褲套男子嘴,丈夫全程目睹

      老貓觀點
      2026-05-15 07:34:04
      快訊!西方精英高層沒喝茅臺,喝的竟然是它!

      快訊!西方精英高層沒喝茅臺,喝的竟然是它!

      達文西看世界
      2026-05-15 10:51:53
      已成功瘦了 30斤,我發現提高代謝關鍵吃法是:早餐吃夠蛋白質

      已成功瘦了 30斤,我發現提高代謝關鍵吃法是:早餐吃夠蛋白質

      新時代的兩性情感
      2026-05-15 10:08:20
      全球媒體聚焦 | 外媒:美國總統特朗普結束訪華 中美向世界傳遞“穩定預期”

      全球媒體聚焦 | 外媒:美國總統特朗普結束訪華 中美向世界傳遞“穩定預期”

      中國網
      2026-05-15 20:22:05
      痛別 | 突發訃告!巨星隕落!

      痛別 | 突發訃告!巨星隕落!

      天津廣播
      2026-05-16 00:16:42
      特朗普結束訪華,大贊中南海景致:若待得慣都不想走

      特朗普結束訪華,大贊中南海景致:若待得慣都不想走

      澎湃新聞
      2026-05-15 18:28:12
      日本睡不著了!特朗普對華簽的一系列協議,把日本的路全堵死了!

      日本睡不著了!特朗普對華簽的一系列協議,把日本的路全堵死了!

      青青子衿
      2026-05-15 20:05:25
      雷老板昨夜吃大席,股票今天遇大跌

      雷老板昨夜吃大席,股票今天遇大跌

      不主流講話
      2026-05-15 16:10:40
      保時捷中國高管喊話被抄襲無奈,羅永浩怒懟:論流氓誰能跟保時捷比,新能源抄了保時捷的,不是只有那個誰和那個誰嗎

      保時捷中國高管喊話被抄襲無奈,羅永浩怒懟:論流氓誰能跟保時捷比,新能源抄了保時捷的,不是只有那個誰和那個誰嗎

      大風新聞
      2026-05-15 12:21:07
      這一刻我才明白:為什么男人都愛看籃球直播,而不愿看馬拉松直播

      這一刻我才明白:為什么男人都愛看籃球直播,而不愿看馬拉松直播

      馬拉松跑步健身
      2026-05-15 19:59:38
      “蘭州瓜農刺死城管案”終審維持原判,當事人:考慮申訴

      “蘭州瓜農刺死城管案”終審維持原判,當事人:考慮申訴

      新京報
      2026-05-15 20:10:21
      新能源概念通脹退潮后,誰在裸泳?

      新能源概念通脹退潮后,誰在裸泳?

      虎嗅APP
      2026-04-23 22:36:41
      特朗普訪華晚宴,雷軍是座上賓,為什么?

      特朗普訪華晚宴,雷軍是座上賓,為什么?

      二月禾
      2026-05-15 11:18:14
      2026-05-16 04:15:00
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7280文章數 20751關注度
      往期回顧 全部

      科技要聞

      直降千元起步!蘋果華為率先開啟618讓利

      頭條要聞

      黃仁勛在北京喝豆汁痛苦皺眉 問“這是什么東西”

      頭條要聞

      黃仁勛在北京喝豆汁痛苦皺眉 問“這是什么東西”

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      家居
      親子
      房產
      數碼
      軍事航空

      家居要聞

      110㎡淡而有致的生活表達

      親子要聞

      孕婦補鈣怕刺激怎么選?液體鈣無添加配方實測,藍帽認證更靠譜

      房產要聞

      老黃埔熱銷之下,珠江春,為何去化僅3成?

      數碼要聞

      聯想發布ThinkPad T14 Gen 7 支持LPCAMM2可更換內存

      軍事要聞

      烏克蘭首都基輔遭空襲 死亡人數增至12人

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 波多野结衣一区二区三区高清| 91色色| 精品av中文字幕在线毛片| 精品黄色av一区二区三区| 51视频国产精品一区二区| 久久精品WWW人人做人人爽| 亚洲精品国偷拍自产在线观看| 久久久久国产亚洲AV麻豆| 国产微拍精品一区二区| www.youjizz日本| 国产九九在线| 538任你爽精品视频国产| 99热这里只有精品久久免费 | 少妇极品熟妇人妻| 国产午夜成人免费看片| 欧洲亚洲国产成人综合色婷婷| 日本一区二区三区中文字幕| 日韩99在线a| 免费全部高h视频无码| 国产精品久久久久久久免费看| 色偷偷av亚洲男人的天堂| 免费视频欧美无人区码| 亚洲日韩AV无码不卡一区二区三区 | 永久免费观看国产裸体美女| 亚洲一品道一区二区三区| 亚洲激情av| 黄色电影一区二区| 南开区| 亚洲中文字幕日韩精品| 欧美极品在线播放| AV国内高清啪啪| 国产乱沈阳女人高潮乱叫老| 欧美日韩中文字幕在线| 无码人妻人妻经典| 精品香蕉一区二区三区| 国产精品白丝久久AV网站| 日日干夜夜操| 激情综合网激情五月俺也去| 91狠狠综合| 精品国产AV无码一区二区三区 | 国产亚洲精品综合-黄色永久免费-成人AV|