<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      CVPR 2026 生成式 AI 觀察梳理:視覺模型開始重寫默認設定

      0
      分享至

      過去幾年,視覺生成與視覺理解領域的技術推進,整體上始終沿著一條相對明確的路徑展開:當一套建模范式被驗證有效之后,后續的大量工作往往都會圍繞這套既有框架持續做模型擴容、訓練增強、采樣優化與局部模塊修補,以此換取更高的性能上限。

      無論是擴散生成、視頻 world model,還是動作建模與視覺匹配,主流研究在很長時間里都更多表現為對既有系統的持續加固,而不是對底層假設本身的重新審視。

      但從今年 CVPR 集中出現的一批代表性工作來看,這種相對穩定的技術推進邏輯正在發生值得警惕的變化。越來越多研究已經不再滿足于在現有模型框架內部繼續做增量式性能修補,而是開始系統性地把問題重新拉回到那些長期被工程實踐視為“默認正確”的基礎設定上。

      擴散模型中的引導機制是否真的合理,視頻生成是否必須建立在 diffusion 的反復去噪之上,生成模型所學習的預測對象是否從一開始就遵循了最自然的數據流形,以及人體動作生成與語義對應任務中長期被粗粒度評價掩蓋的控制邊界和泛化邊界,是否都需要被重新定義。

      這意味著,頂會論文所呈現出的競爭重點正在悄然發生遷移。相比于過去更多強調“在原有范式內把模型做得更強、把指標推得更高”,這一批工作更值得注意的地方在于,它們開始同步觸碰那些決定模型行為方式的底層建模前提,并試圖重新建立新的生成目標、控制機制、主干架構與表示邏輯。

      換句話說,視覺 AI 的下一輪競爭,正在逐漸從性能增量競爭,轉向對既有默認設定的回溯性重寫。

      視覺生成開始重寫基礎機制

      這一趨勢首先體現在由上海交通大學和 vivo BlueImage Lab 共同提出的《C2FG: Control Classifier-Free Guidance via Score Discrepancy Analysis》上。

      Classifier-Free Guidance(CFG)作為條件擴散模型中最常用的生成引導機制,幾乎已經成為默認組件:通過調節 conditional 分支和 unconditional 分支之間的 guidance strength 來增強模型對條件信息的服從程度,從而提升生成質量。

      但長期以來,這一過程主要依賴固定 guidance weight 或少量經驗化動態調整,真正的問題在于,擴散過程內部的噪聲結構和 score 差異并不是靜止的,而是隨著時間步不斷變化,固定的引導強度很難在整個采樣階段都保持最優。

      論文正是從這一被忽視的內部動力學出發,分析不同 timestep 下 conditional score 與 unconditional score 的 discrepancy 變化規律,指出 guidance scale 本質上不應是一個靜態超參數。

      基于這種理論觀察,作者提出 C2FG(Control Classifier-Free Guidance),利用指數衰減控制函數讓 guidance strength 在采樣前期和后期自動完成動態分配:前期更強地利用條件約束保證語義對齊,后期則逐步減弱引導以避免過強 guidance 帶來的分布偏移和細節失真。

      它真正打破的是 CFG 長期依賴經驗調參的慣性,把一個原本“手工設定的 scale”重新建立成一個與擴散動力學同步變化的控制變量,而且由于整個方法 training-free、plug-in,無需重新訓練模型即可直接嵌入現有采樣流程,這也使它具備了非常強的工程可遷移性。


      而當擴散模型內部的引導控制開始被重新理論化時,蘋果團隊提出的《STARFlow-V: End-to-End Video Generative Modeling with Autoregressive Normalizing Flows》則進一步把問題推向了更底層的生成架構本身。

      當前高質量視頻生成幾乎清一色建立在 diffusion 框架之上,反復去噪似乎已經成為視頻 world model 的默認實現方式,normalizing flow 雖然在圖像生成中重新受到關注,卻始終沒有真正進入視頻生成主流。

      STARFlow-V 試圖回答的是:高質量視頻生成是否真的只有 diffusion 這一條路。為此,論文并沒有簡單把圖像 flow 結構遷移到視頻,而是針對視頻生成的長時序依賴和跨幀一致性,在時空 latent 空間中重新構建了一套 global-local 的 autoregressive normalizing flow 架構:

      全局 latent 用于控制跨幀因果依賴,減少長視頻中誤差逐幀累積的問題,局部 latent 則保留幀內細節交互,保證空間紋理質量。

      同時,作者進一步引入 flow-score matching,通過輕量級 causal denoiser 提升自回歸生成過程中的時間一致性,并利用 video-aware Jacobi iteration 提高內部更新的并行效率。

      也就是說,它并不是在 diffusion 框架內繼續做采樣優化,而是直接打破“高質量視頻生成必須依賴 diffusion 反復去噪”的默認前提,建立起一種基于 normalizing flow 的端到端視頻生成范式。

      更重要的是,由于 flow 天然具備可逆結構和顯式 likelihood 估計能力,同一個 STARFlow-V 模型就能夠原生支持 text-to-video、image-to-video 以及 video-to-video 多種任務,不需要為不同任務額外堆疊復雜分支,這使它不僅是一個替代架構,更像是在重新打開視頻生成的技術路線圖。


      如果說前兩篇工作還主要集中在“生成過程如何被重新控制與重新實現”,那么由 MIT 團隊提出的《Back to Basics: Let Denoising Generative Models Denoise》則把審視進一步推回到擴散模型最核心的預測對象上。雷峰網

      當前主流 denoising diffusion model 雖然名義上是“去噪生成模型”,但大多數做法實際上并不直接預測干凈圖像,而是讓模型去擬合噪聲殘差或帶噪中間量,這一設定在工程上已經沿用多年,卻很少有人重新追問它是否真的是最合理的生成目標。

      他們的研究指出,按照流形假設,自然圖像分布位于相對低維且連續的數據流形,而噪聲空間則高維、分散且更難擬合;從這個角度看,讓模型直接學習回到 clean data,本身可能比在高維噪聲空間中預測 noised quantity 更自然、更穩定。

      基于這一認識,作者提出 JiT(Just image Transformers),不再依賴額外 tokenizer、復雜預訓練模塊或輔助損失,而是直接使用大 patch Transformer 在原始像素空間完成 clean image 預測。

      這個設計表面上看是“回歸樸素”,但它真正打破的是“擴散模型默認預測噪聲”的路徑依賴,重新建立起一種以直接回歸數據流形為核心的生成思路,也讓 Transformer-based diffusion 在高分辨率自然圖像上的建模邏輯變得更加自洽。


      生成模型開始從「會生成」走向「會精確編排」

      當視覺生成模型不斷回到底層機制做重構時,另一部分工作則開始把注意力轉向“模型生成結果到底能被控制到什么程度”。由德國圖賓根大學、Tübingen AI Center 以及馬克斯·普朗克信息學研究所共同提出的《FrankenMotion: Part-level Human Motion Generation and Composition》就是其中非常典型的一例。

      當前文本驅動人體動作生成雖然已經能夠根據整體動作描述生成相對自然的人體運動,但模型控制依然停留在粗粒度層面:它能理解“一個人在走路”“一個人在揮手”,卻很難精確回答“左手什么時候抬起”“下半身何時轉向”“動作切換發生在哪一幀”。

      造成這一問題的核心原因,一方面在于現有 mocap 數據大多只有序列級動作標簽,缺少按時間對齊、按身體部位拆分的細粒度標注;另一方面,模型即使理解整體語義,也很難同時兼顧局部肢體動作與全局時序一致性。

      FrankenMotion 正是重新把復雜人體運動視為由多個“原子動作單元”組成,并嘗試讓模型學習這些身體部位級動作之間的組合關系。

      論文首先借助 FrankenAgent 自動為已有動作序列生成逐幀、逐身體部位且時間對齊的層級文本標注,構建新的 FrankenStein 數據集;隨后訓練 FrankenMotion 同時接收序列級、動作級和身體部位級條件,使模型不僅知道“做什么動作”,還知道“哪部分身體在什么時候做”。

      這意味著人體動作生成開始從“生成一個合理動作片段”轉向“按指令精確編排復雜動作組合”,模型能夠組合出訓練集中并未直接出現過的細粒度復合動作。

      與這種細粒度控制需求相對應,視覺理解中的匹配任務也在經歷類似的范式轉向。由意大利都靈理工大學、TU Darmstadt、hessian.AI 以及 ELIZA 共同提出的


      由而意大利都靈理工大學(Politecnico di Torino)、德國達姆施塔特工業大學(TU Darmstadt)、德國黑森州人工智能研究院(hessian.AI)以及 ELIZA 共同提出的《MARCO: Navigating the Unseen Space of Semantic Correspondence》。

      關注的則是語義對應(semantic correspondence)里一個很現實卻常被 benchmark 掩蓋的問題:現有方法雖然在已標注關鍵點上精度很高,但一旦查詢點超出訓練時見過的關鍵點位置,或者遇到未見類別,泛化能力就會迅速下降,導致 benchmark 成績與真實可用性之間存在明顯落差。

      當前主流語義對應模型通常采用 DINOv2 加 diffusion backbone 的雙編碼器架構,雖然效果強,但模型規模接近十億參數,計算開銷大,而且依賴稀疏關鍵點監督時很難學到真正連續、致密的語義匹配關系。

      MARCO 的核心切入點,就是不再滿足于“在標注點上對得準”,而是嘗試讓模型學會在未被標注的空間中也能推斷合理的對應關系。

      為此,論文在 DINOv2 基礎上構建了一個更統一、更輕量的對應框架,并結合 coarse-to-fine 的定位目標提升細粒度空間精度,同時引入一種 dense self-distillation 機制,把原本稀疏的關鍵點監督逐步擴展成更致密的語義對齊信號。

      這種設計帶來的變化在于,模型不只是記住訓練時出現過的對應點,而是開始學習物體表面更連續的結構關聯,因此在 unseen keypoints 和 unseen categories 上都表現出更強泛化能力。

      實驗結果顯示,MARCO 不僅在 SPair-71k、AP-10K、PF-PASCAL 等標準基準上刷新了性能,在更嚴格的細粒度定位閾值和未見關鍵點測試中提升尤其明顯;與此同時,它相比 diffusion-based 方法還實現了約 3 倍更小、10 倍更快 的效率優勢。

      這篇工作的價值在于,它打破了語義對應領域長期“高 benchmark 分數 ≠ 強真實泛化”的隱性瓶頸,建立起一種更強調致密推斷和未見空間泛化的建模思路,使 semantic correspondence 從“在標注點上匹配”,進一步走向“在整片語義空間中尋找對應”。


      把這幾項工作放在一起看,會發現它們雖然分別來自擴散控制、視頻生成、人體動作生成和語義對應等不同方向,但背后其實共享著同一條更深層的研究脈絡:視覺 AI 正在從“沿著既定范式堆模型、調參數、刷 benchmark”,轉向“重新拆掉那些被默認正確的底層設定,再建立新的生成目標、控制機制和表示方式”。雷峰網

      有的工作在重新定義擴散模型應該如何引導,有的在重新打開視頻生成不止 diffusion 一條路的可能性,有的在追問生成模型到底該預測噪聲還是直接預測數據流形,也有的在把模型控制粒度和泛化空間從粗粒度推進到更連續、更真實的層面。

      換句話說,真正值得注意的已經不只是某一個模型分數提升了多少,而是這一批工作共同釋放出的信號:視覺模型的下一輪競爭,正在從性能增量競爭,轉向底層建模范式的重構競爭。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      法國人也覺得不對勁了!中國到現在仍然沒有回應

      法國人也覺得不對勁了!中國到現在仍然沒有回應

      阿龍聊軍事
      2026-05-07 18:47:12
      世界第1拒絕爆冷!孫穎莎3-2逆轉金娜英,中韓大戰國乒奪賽點

      世界第1拒絕爆冷!孫穎莎3-2逆轉金娜英,中韓大戰國乒奪賽點

      釘釘陌上花開
      2026-05-07 18:22:55
      2013年,金正哲聯手張成澤發動朝鮮兵變,因一細節敗露,雙遭反殺

      2013年,金正哲聯手張成澤發動朝鮮兵變,因一細節敗露,雙遭反殺

      阿胡
      2025-03-11 13:28:03
      美國國務卿魯比奧就臺灣問題表態。

      美國國務卿魯比奧就臺灣問題表態。

      荊楚寰宇文樞
      2026-05-06 23:24:47
      伊朗總統稱近期與最高領袖會面

      伊朗總統稱近期與最高領袖會面

      界面新聞
      2026-05-07 18:27:23
      中央安全生產考核巡查組第五組在黑龍江發現——部分企業單位安全管理缺位埋下隱患

      中央安全生產考核巡查組第五組在黑龍江發現——部分企業單位安全管理缺位埋下隱患

      電子信息產業
      2026-05-07 08:06:13
      一個被低估的開源工具,正在吃掉PDF付費軟件的市場

      一個被低估的開源工具,正在吃掉PDF付費軟件的市場

      硬核玩家2哈
      2026-05-06 21:39:21
      當伊朗亮出海底光纜底牌時,全世界才發現,中國藏了一手更絕的

      當伊朗亮出海底光纜底牌時,全世界才發現,中國藏了一手更絕的

      聞識
      2026-05-06 21:50:14
      每體:恩里克每隔30分鐘就要活動一次;晚餐曾連吃6個雞蛋

      每體:恩里克每隔30分鐘就要活動一次;晚餐曾連吃6個雞蛋

      懂球帝
      2026-05-07 10:24:12
      爭議!鄭欽文委屈落淚:向裁判抗議安保人員亂走動 反遭對方回懟

      爭議!鄭欽文委屈落淚:向裁判抗議安保人員亂走動 反遭對方回懟

      風過鄉
      2026-05-07 19:49:48
      小米“昆侖”出鞘,撕開豪華SUV的最后一道防線

      小米“昆侖”出鞘,撕開豪華SUV的最后一道防線

      SmartHey
      2026-05-06 13:50:35
      小米SU7鎖單8萬臺,扯下了誰的訂單遮羞布?

      小米SU7鎖單8萬臺,扯下了誰的訂單遮羞布?

      邱小鋮
      2026-05-06 16:09:25
      謝娜演唱會這一夜,半個娛樂圈捧場,網友直呼票價不值,吃相難看

      謝娜演唱會這一夜,半個娛樂圈捧場,網友直呼票價不值,吃相難看

      青梅侃史啊
      2026-05-07 07:28:32
      喪葬畸形攀比!有網友哭訴邵陽老人過世6天花一百來萬,引發共鳴

      喪葬畸形攀比!有網友哭訴邵陽老人過世6天花一百來萬,引發共鳴

      火山詩話
      2026-05-07 08:54:39
      人民日報反復提醒:最高級的教育,就抓這三樣

      人民日報反復提醒:最高級的教育,就抓這三樣

      諾媽家有男寶娃
      2026-05-07 11:14:44
      這下慘了!50家ST集體跌停,張素芬、外資還集體扎堆6家央國企ST

      這下慘了!50家ST集體跌停,張素芬、外資還集體扎堆6家央國企ST

      長風價值掘金
      2026-05-07 17:57:50
      丟了7年的手機突然發回定位 還自動拍下了使用者的照片 失主:已經成功要回了手機

      丟了7年的手機突然發回定位 還自動拍下了使用者的照片 失主:已經成功要回了手機

      閃電新聞
      2026-05-06 12:58:59
      好色的女人有好命

      好色的女人有好命

      清唱
      2026-05-06 19:53:09
      福建母子武漢旅游期間撿到價值十余萬元的勞力士?蝦店老板發視頻稱已歸還失主,網友態度不一

      福建母子武漢旅游期間撿到價值十余萬元的勞力士?蝦店老板發視頻稱已歸還失主,網友態度不一

      極目新聞
      2026-05-07 10:23:48
      福建省一國企黨委委員、副總經理涉嫌嚴重違紀違法被查

      福建省一國企黨委委員、副總經理涉嫌嚴重違紀違法被查

      大閩門戶
      2026-05-07 19:02:07
      2026-05-07 20:47:00
      雷峰網 incentive-icons
      雷峰網
      關注智能與未來!
      69257文章數 656123關注度
      往期回顧 全部

      科技要聞

      月之暗面完成20億美元融資,估值突破200億

      頭條要聞

      存款被銀行員工"轉走炒股" 兩儲戶1800萬元已全部到賬

      頭條要聞

      存款被銀行員工"轉走炒股" 兩儲戶1800萬元已全部到賬

      體育要聞

      巴黎再進歐冠決賽,最尷尬的情況還是發生了

      娛樂要聞

      Lisa主持!寧藝卓觀看脫衣秀風波升級

      財經要聞

      金融“風暴”,AI制造

      汽車要聞

      雷克薩斯全新純電三排SUV 全新TZ全球首發

      態度原創

      藝術
      教育
      手機
      數碼
      軍事航空

      藝術要聞

      這位老教授筆下的青年,活力滿滿

      教育要聞

      名額分配人數又要分析?別走火入魔了……

      手機要聞

      高通發布第五代驍龍4:GPU性能暴增77% 千元機也能90幀游戲

      數碼要聞

      Keychron青檸磁軸家族擴容,新增三款客制化新軸體

      軍事要聞

      特朗普:美伊"很可能"達成協議

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 爱啪导航| 亚洲美女少妇偷拍萌白酱| 国产精品自拍中文字幕| 玩弄中年熟妇正在播放| 人妻熟女一区二区aⅴ图片| 国产做a爱片久久毛片a片| 综合五月| 精品熟女少妇av免费观看| 亚洲一区二区激情| 中国凸偷窥xxxx自由视频| 国产第一页屁屁影院| 亚洲国产精品久久无人区| AV色综合| 精品国产一区二区三区久| 在线天堂中文在线资源网| 国产一区二区三区无遮挡| 国产免费无遮挡吸乳视频在线观看| 亚洲一区二区三区丝袜| 成在线人免费无码高潮喷水| 人妻一区二区三区三区| 女人18毛片水真多免费视频| 久久99视频| 一卡二卡成人| 亚洲成A人V欧美综合天堂麻豆| 亚洲成a人片在线不卡一二三区| 成年午夜性影院| 99人中文字幕亚洲区三| 最新中文字幕在线| 狂野欧美性猛交免费视频| 91社视频| 亚洲成熟女人av在线观看| 亚洲av激情一区二区三区| 日韩a视频| 人妻少妇精品性色av蜜桃| 中文字幕亚洲一区二区三区| 国产成人亚洲精品色欲AV| 亚洲制服丝袜| 西西午夜无码大胆啪啪国模| 亚洲一区二区在线视频| 欧美中文字幕在线播放| 乱色精品无码一区二区国产盗|