<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>

<p id="tp1vn"></p>

<sub id="tp1vn"><p id="tp1vn"></p></sub>

<u id="tp1vn"><rp id="tp1vn"></rp></u>

<meter id="tp1vn"></meter>

<wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>

日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao

<pre id="sle13"><strike id="sle13"></strike></pre>

<abbr id="sle13"></abbr>

<ruby id="sle13"></ruby>

<pre id="sle13"><samp id="sle13"><form id="sle13"></form></samp></pre>

<pre id="sle13"><strike id="sle13"></strike></pre>

網(wǎng)易首頁(yè)

網(wǎng)易新聞
網(wǎng)易公開課
網(wǎng)易紅彩
網(wǎng)易嚴(yán)選
郵箱大師
網(wǎng)易云課堂

注冊(cè)免費(fèi)郵箱

注冊(cè)VIP郵箱（特權(quán)郵箱，付費(fèi)）
免費(fèi)下載網(wǎng)易官方手機(jī)郵箱應(yīng)用

移動(dòng)端
網(wǎng)易公開課
網(wǎng)易嚴(yán)選
支付
郵箱

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

何愷明團(tuán)隊(duì)論文全景掃描：一場(chǎng)關(guān)于「生成范式」的多角度突破 | CVPR 2026

2026-05-08 11:24:01　來源: AI科技評(píng)論

廣東舉報(bào)

0

分享至

高度依賴擴(kuò)散模型的圖像生成范式，正在被重新審視。

作者丨陳淑瑜

編輯丨岑峰

2025 年到 2026 年，如果要問生成式 AI 領(lǐng)域最值得關(guān)注的研究方向，流匹配（Flow Matching）是一個(gè)無法繞開的答案。

從去年起，這個(gè)名字開始頻繁出現(xiàn)在頂會(huì)論文里、被工業(yè)界反復(fù)討論、被拿來和統(tǒng)治了圖像生成領(lǐng)域長(zhǎng)達(dá)五年的擴(kuò)散模型正面比較。

所謂流匹配，本質(zhì)上是用常微分方程路徑（ODE path）替代擴(kuò)散模型的隨機(jī)微分方程路徑，讓數(shù)據(jù)從噪聲到圖像的轉(zhuǎn)變不再依賴數(shù)百步迭代，從而在理論上實(shí)現(xiàn)更高效的生成。但從理論可行到工程落地，中間隔著無數(shù)技術(shù)細(xì)節(jié)——訓(xùn)練目標(biāo)怎么設(shè)計(jì)、架構(gòu)怎么選、速度和質(zhì)量如何兼顧，每一步都是坑。

何愷明團(tuán)隊(duì)正是在這個(gè)節(jié)點(diǎn)上，密集地交出了一份多角度的答卷。

AI科技評(píng)論總結(jié)了何愷明團(tuán)隊(duì)近期在CVPR大會(huì)上發(fā)表上的論文： 2025 年 5 月，他們提出了均值流（MeanFlow），首次將"均值速度場(chǎng)"引入生成建模；同年年底，BiFlow 在歸一化流框架上實(shí)現(xiàn)了 700 倍加速，將 FID 推到 2.39；幾乎同一時(shí)間，Improved MeanFlow（iMF）則以三個(gè)系統(tǒng)性修復(fù)將單步 FID 降至 1.72，首次在無蒸餾條件下超越所有蒸餾方法。

生成模型之外，團(tuán)隊(duì)在視覺推理（VARC，CVPR 2026）和自監(jiān)督學(xué)習(xí)（Pixo，CVPR 2026）上也同時(shí)出擊，共同勾勒出一個(gè)清晰的戰(zhàn)略意圖：擴(kuò)散模型并不是圖像生成的終點(diǎn)，流匹配這條路，值得全力押注。

這五篇論文之間沒有直接的方法傳承，方向各有側(cè)重，但貫穿其中的核心問題始終如一：在每一個(gè)被默認(rèn)的技術(shù)選擇背后，到底藏著多少被低估的優(yōu)化空間？

01

讓"去噪"模型真正做一次去噪

理解 JiT 的工作，需要從擴(kuò)散模型一個(gè)被忽視已久的痛點(diǎn)說起。

當(dāng)前的擴(kuò)散模型在訓(xùn)練時(shí)，網(wǎng)絡(luò)學(xué)習(xí)預(yù)測(cè)的目標(biāo)是噪聲 ε 或速度 v，而非干凈圖像 x。

這個(gè)細(xì)節(jié)在大多數(shù)論文里被一筆帶過，但它有一個(gè)容易被忽視的含義：噪聲和速度并不在自然圖像的流形上。用大白話說，網(wǎng)絡(luò)在試圖預(yù)測(cè)一個(gè)"不屬于這個(gè)世界"的東西——它不在圖像分布內(nèi)，是離群的量。這種預(yù)測(cè)天然地不穩(wěn)定，網(wǎng)絡(luò)需要額外的表達(dá)能力來處理那些本不應(yīng)該出現(xiàn)在預(yù)測(cè)目標(biāo)里的高維噪聲。

也就是說，預(yù)測(cè)噪聲和預(yù)測(cè)干凈圖區(qū)別很大。

流形示意圖

JiT 的核心洞察正是從這里切入的。既然 x（干凈圖像）在圖像流形上，那就讓網(wǎng)絡(luò)直接預(yù)測(cè) x。直覺上這是一個(gè)退步——流形外的東西更難預(yù)測(cè)，流形內(nèi)的東西反而應(yīng)該更容易。但團(tuán)隊(duì)指出，這個(gè)邏輯在擴(kuò)散模型里是反的：噪聲 ε 分布在高維空間，目標(biāo)分布極廣，網(wǎng)絡(luò)需要一個(gè)很強(qiáng)的先驗(yàn)來"猜測(cè)"噪聲的真實(shí)值；而 x 就在流形上，是網(wǎng)絡(luò)見過的、理解的、可以自然逼近的東西。

為了讓這個(gè)樸素的想法在工程上成立，JiT 采用了標(biāo)準(zhǔn) Vision Transformer，但做了一個(gè)看似大膽的調(diào)整：patch 尺寸可以非常大——16×16、32×32 甚至 64×64，而不像標(biāo)準(zhǔn)擴(kuò)散模型那樣在高分辨率下被迫使用極小的 patch。

原因在于：x 在流形上，網(wǎng)絡(luò)不需要處理流形外的高維噪聲干擾，因此 patch 大小的增加不會(huì)導(dǎo)致信息缺失，也沒有帶來災(zāi)難性的效果退化。

這是一種返璞歸真，直接預(yù)測(cè)目標(biāo)圖像，對(duì)傳統(tǒng)認(rèn)知發(fā)起了一次直接挑戰(zhàn).

JiT模型生成的圖像樣本

JiT 還完全去掉了 VAE Tokenizer，不需要預(yù)訓(xùn)練的潛空間，不需要 GAN 損失或感知損失，就是最樸素的 Transformer 在像素上做去噪。模型規(guī)模 86M 參數(shù)，從 256 到 1024 分辨率，計(jì)算量幾乎不變——只需要調(diào)整 patch 大小。這意味著一個(gè)原生模型可以在任意分辨率上生成，而不需要借助潛空間的壓縮-解壓機(jī)制。

最終結(jié)果在 ImageNet 512×512 上實(shí)現(xiàn)了 FID 1.78，且 JiT-G 版本在更高分辨率下依然保持了競(jìng)爭(zhēng)力的 FID。更值得關(guān)注的是，這個(gè)性能是在沒有任何蒸餾、沒有任何外部模型輔助的前提下從零訓(xùn)練得到的。

JiT 證明了"讓擴(kuò)散模型真正做去噪"這件事本身，就足以帶來顯著的質(zhì)量提升——不需要更多的工程技巧，只需要把預(yù)測(cè)目標(biāo)換回那個(gè)理所當(dāng)然卻被忽視了五年的選項(xiàng)。

論文鏈接：https://arxiv.org/abs/2511.13720

02

ARC：跳出語(yǔ)言模型的舒適圈

ARC是 AI 領(lǐng)域歷史最久的推理能力測(cè)試之一，包含數(shù)百個(gè)"視覺謎題"，要求模型從少數(shù)示例中推斷規(guī)則并泛化到新樣本。物體對(duì)稱、重力方向、顏色連續(xù)性、反射變換——這些概念本質(zhì)上是對(duì)物理世界的抽象，本不應(yīng)該和語(yǔ)言有任何關(guān)系。

然而長(zhǎng)期以來，整個(gè)社區(qū)把 ARC 當(dāng)成了一個(gè)語(yǔ)言問題。GPT-4、Claude、Deepseek 幾乎都在 ARC 上刷過榜，原因是 ARC 的任務(wù)描述可以自然地翻譯成文字，語(yǔ)言模型恰好擅長(zhǎng)這類文字推理。這在工程上無可厚非，但它制造了一個(gè)隱性的假設(shè)：視覺抽象推理，必須借助語(yǔ)言才能完成。

VARC 要挑戰(zhàn)的正是這個(gè)假設(shè)。

它把 ARC 任務(wù)重新建模為圖像到圖像的翻譯問題，用一個(gè)只有 18M 參數(shù)的 ViT 從頭訓(xùn)練，不依賴任何語(yǔ)言能力，在 ARC-1 上達(dá)到了單模型 54.5%、集成 60.4% 的準(zhǔn)確率。60.4% 是什么水平？人類平均水平是 60.2%，頂級(jí)大語(yǔ)言模型也在這個(gè)區(qū)間。

這意味著，一個(gè)參數(shù)量只有頂級(jí) LLM 幾千分之一的純視覺模型，在視覺推理任務(wù)上達(dá)到了與人類相當(dāng)?shù)乃健?/strong>

VARC框架的實(shí)現(xiàn)路徑也非常直接，沒有把輸入網(wǎng)格直接 token 化，而是使用了“畫布”，將網(wǎng)格嵌入到一個(gè)足夠大的預(yù)定義畫布（32×32）上，背景用第 11 種顏色填充。然后像處理一張普通圖片一樣，被ViT模型進(jìn)行端到端的處理。

這帶來一個(gè)關(guān)鍵效果：token 數(shù)量從有限的網(wǎng)格大小擴(kuò)展到了更大的空間，讓 ViT 的注意力機(jī)制有了充足的施展余地，能夠捕捉遠(yuǎn)程的視覺關(guān)系。

WARC的畫布

另外，測(cè)試時(shí)訓(xùn)練（TTT）在推理階段利用測(cè)試任務(wù)的少量示例做快速微調(diào)，是性能逼近人類水平的關(guān)鍵——模型不是"記住"了 ARC 的規(guī)則，而是在看到新任務(wù)時(shí)快速學(xué)習(xí)規(guī)則本身。

VARC 的出現(xiàn)給整個(gè) ARC 社區(qū)潑了一盆冷水：大家花了大量工程資源在語(yǔ)言模型上刷榜，卻忽視了純視覺方法在這個(gè)任務(wù)上的潛力。

這個(gè)潛力的釋放需要兩個(gè)條件：一個(gè)足夠大的視覺畫布，以及一個(gè)讓模型在推理時(shí)繼續(xù)學(xué)習(xí)的機(jī)制。一旦這兩個(gè)條件被滿足，視覺推理不需要語(yǔ)言模型這件事，變得異常清晰。

論文鏈接： https://arxiv.org/abs/2511.14761

03

突破歸一化流限制，圖像單步生成加速

歸一化流是生成式建模中歷史最悠久的框架之一。它最大的理論優(yōu)勢(shì)是可以用精確的數(shù)學(xué)形式同時(shí)完成生成和似然估計(jì)，訓(xùn)練過程透明、可解釋，不像擴(kuò)散模型那樣依賴多次采樣來近似對(duì)數(shù)似然。但長(zhǎng)期以來，它在性能上被擴(kuò)散模型壓得喘不過氣來。

原因出在兩個(gè)結(jié)構(gòu)性約束上。

第一，傳統(tǒng)歸一化流為了保證前向變換的精確可逆性，必須采用受限的網(wǎng)絡(luò)架構(gòu)，無法使用 Transformer 等更強(qiáng)大的序列模型。

第二，逆向過程依賴自回歸因果解碼，每一步必須順序計(jì)算，無法并行，生成一張圖的時(shí)間成本極高。這兩個(gè)約束幾乎從根子上限制了歸一化流在大規(guī)模圖像生成上的競(jìng)爭(zhēng)力。

BiFlow 的解題思路初看有些反直覺：逆向過程不需要是前向過程的精確逆。

前向過程保持可逆，這是數(shù)學(xué)上的保證，確保分布映射的準(zhǔn)確性不受損害；但逆向過程單獨(dú)訓(xùn)練一個(gè)獨(dú)立的模型來近似逆映射，不要求它在數(shù)學(xué)上等于前向的解析逆。這個(gè)"放棄精確逆"帶來了一個(gè)巨大的解放：逆向過程可以使用完全并行的 Transformer 架構(gòu)，實(shí)現(xiàn)真正的單步生成，不再受自回歸解碼的順序瓶頸約束。

但這還不夠。逆向模型單獨(dú)訓(xùn)練，意味著它學(xué)到的表示空間可能與前向過程完全不同——兩者可能在不同的隱空間里各說各話。

BiFlow 引入了隱藏層對(duì)齊機(jī)制，利用前向過程的中間狀態(tài)軌跡監(jiān)督逆向模型，確保兩者在表示空間中對(duì)齊，防止逆向模型"跑偏"。對(duì)齊之后，逆向模型既能受益于 Transformer 的強(qiáng)大表達(dá)能力，又能保持前向過程的分布結(jié)構(gòu)完整。

標(biāo)準(zhǔn)化流與BiFlow的概念對(duì)比

最終結(jié)果在 ImageNet 256×256 上實(shí)現(xiàn)了 FID 2.39，這是歸一化流方法的歷史新紀(jì)錄。但更有沖擊力的是速度數(shù)據(jù)：單張圖像生成時(shí)間從 TARFlow 的 0.7 秒縮短到 0.001 秒，加速約 700 倍。

BiFlow與SOTA流模型的效率對(duì)比

這不再是理論推演，而是一個(gè)可以直接在工程中落地的效率躍遷。歸一化流長(zhǎng)期被視為"理論上優(yōu)美、工程上雞肋"的框架，BiFlow 至少把后半句的錯(cuò)誤認(rèn)知打破了。

論文地址：https://arxiv.org/abs/2512.10953

04

快進(jìn)生成，無需蒸餾

如果說 BiFlow 是把歸一化流從困境中拉了出來，那么 iMF（Improved Mean Flows）的目標(biāo)更徹底：把"快進(jìn)生成"這條路的瓶頸徹底打通。

"快進(jìn)生成"的核心目標(biāo)是讓擴(kuò)散模型用 1 步而不是 250 步完成圖像生成。此前的工業(yè)界解法幾乎都依賴蒸餾——用一個(gè)大而慢的擴(kuò)散模型作為"教師"，訓(xùn)練一個(gè)小的"學(xué)生"在 1-2 步內(nèi)近似教師的輸出。蒸餾效果不錯(cuò)，但代價(jià)也明顯：訓(xùn)練流程極其復(fù)雜，學(xué)生的性能上限被教師鎖死，一旦教師本身有缺陷，學(xué)生無論如何都超不過去。

何愷明團(tuán)隊(duì)在 2025 年 5 月提出了均值流（MeanFlow），首次將"均值速度場(chǎng)"引入生成建模，目標(biāo)是實(shí)現(xiàn)真正的單步高質(zhì)量生成。方向正確，但初代 MF 有三個(gè)系統(tǒng)性的訓(xùn)練缺陷，導(dǎo)致最終性能距離當(dāng)時(shí)的 SOTA 有明顯差距。ImageNet 256×256 的 FID 停留在 3.43，而最好的擴(kuò)散模型已經(jīng)在 1.x 徘徊了。

第一個(gè)缺陷是訓(xùn)練目標(biāo)的"自依賴"。MF 的訓(xùn)練目標(biāo)是"平均速度損失"（u-loss），目標(biāo)函數(shù)里包含了一個(gè)由網(wǎng)絡(luò)自身輸出推導(dǎo)出的項(xiàng)——這就好比讓一個(gè)人預(yù)測(cè)"自己說的話會(huì)造成什么后果"，優(yōu)化器在閉環(huán)里反復(fù)震蕩，訓(xùn)練方差極大，收斂不徹底。

第二個(gè)缺陷是引導(dǎo)機(jī)制的"死板"。無分類器引導(dǎo)（CFG）是提升生成質(zhì)量的關(guān)鍵技術(shù)，但 MF 訓(xùn)練時(shí)把 CFG 強(qiáng)度固定了，推理時(shí)用戶無法調(diào)節(jié)質(zhì)量-多樣性的權(quán)衡——這等于剝奪了生成器最重要的一個(gè)調(diào)參手段。

第三個(gè)缺陷是架構(gòu)效率的"肥胖"。MF 依賴的 adaLN-zero 機(jī)制在處理多條件（時(shí)間步 t、類別標(biāo)簽 c、CFG 強(qiáng)度 ω）時(shí)把所有條件向量簡(jiǎn)單求和，條件多了之后互相干擾，參數(shù)利用率極低。

iMF 成功解決了這三個(gè)缺陷目標(biāo)，通過將訓(xùn)練目標(biāo)重新表述為更穩(wěn)定的瞬時(shí)速度損失，同時(shí)引入靈活的無分類器指導(dǎo)（CFG）和高效的上下文內(nèi)條件作用，大幅提升了模型性能。

論文鏈接： https://arxiv.org/abs/2512.02012

針對(duì)訓(xùn)練目標(biāo)，iMF 利用 MeanFlow 的數(shù)學(xué)恒等式，將平均速度損失（u-loss）等價(jià)轉(zhuǎn)換為瞬時(shí)速度損失（v-loss）。瞬時(shí)速度 v 等于網(wǎng)絡(luò)在 t 時(shí)刻的瞬時(shí)導(dǎo)數(shù)，它的特點(diǎn)是：目標(biāo) v 與網(wǎng)絡(luò)自身的輸出完全無關(guān)，是一個(gè)純粹的標(biāo)準(zhǔn)回歸問題。這個(gè)看似簡(jiǎn)單的數(shù)學(xué)變換，把 MF 訓(xùn)練不穩(wěn)定的根因直接消除了。

針對(duì) CFG 靈活性，iMF 把 CFG 強(qiáng)度 ω、引導(dǎo)區(qū)間 t_min 和 t_max 一起編碼為顯式的條件變量作為額外輸入傳入網(wǎng)絡(luò)。訓(xùn)練時(shí)從冪分布中隨機(jī)采樣不同引導(dǎo)強(qiáng)度，讓網(wǎng)絡(luò)學(xué)習(xí)不同 CFG 強(qiáng)度下的速度場(chǎng)分布；推理時(shí)，用戶可以自由調(diào)節(jié) CFG 強(qiáng)度，就像使用普通擴(kuò)散模型一樣自然。這個(gè)設(shè)計(jì)讓 iMF 支持了 CFG 區(qū)間控制——只有當(dāng) t 落在某個(gè)區(qū)間內(nèi)時(shí)才啟用引導(dǎo)，超出區(qū)間自動(dòng)關(guān)閉，給了研究者更多調(diào)控手段。

針對(duì)架構(gòu)效率，iMF 摒棄了把條件向量求和的粗暴做法，轉(zhuǎn)而將每類條件轉(zhuǎn)化為多個(gè)可學(xué)習(xí)的 token，類別 8 個(gè)、時(shí)間步 4 個(gè)、CFG 強(qiáng)度 4 個(gè)、引導(dǎo)區(qū)間 4 個(gè)，與圖像 latent token 沿序列維度拼接后聯(lián)合處理。Base 模型參數(shù)從 133M 降至 89M，減少了三分之一，同時(shí) FID 反而改善。

iMF 和MF對(duì)比圖

三條改進(jìn)的效果是疊加的。iMF 的消融鏈路清晰地記錄了每一步的貢獻(xiàn)：原 MF 基線 6.17 FID → v-loss 替換 5.68 → 靈活 CFG 4.57 → 多 token 條件 4.09 → Transformer 架構(gòu)改進(jìn) 3.39 → 640 epoch 長(zhǎng)訓(xùn)練 1.72。每一步都有據(jù)可查，每一步的改善都可以歸因到具體的修改點(diǎn)。

最終 iMF-XL/2 實(shí)現(xiàn)了 1-NFE FID 1.72，且這是從零訓(xùn)練、不依賴任何蒸餾取得的成績(jī)。iMF 的 FID 優(yōu)于所有依賴蒸餾的單步生成方法，包括 FACM-XL/2（蒸餾，F(xiàn)ID 1.76）和 DMF-XL/2+（蒸餾，F(xiàn)ID 2.16）。擴(kuò)散模型領(lǐng)域的一個(gè)默認(rèn)假設(shè)被打破了：高質(zhì)量單步生成，不需要蒸餾。

更值得關(guān)注的是 2-NFE 時(shí) iMF 的 FID 降至 1.54，已經(jīng)非常接近主流多步擴(kuò)散的水平（SiT-XL/2+REPA 為 1.42 @ 數(shù)百步）。單步模型與多步模型的性能差距，第一次縮小到了這個(gè)量級(jí)。

05

像素監(jiān)督：從邊緣到正面競(jìng)爭(zhēng)

自監(jiān)督視覺預(yù)訓(xùn)練領(lǐng)域近年來有一個(gè)明顯的主流敘事：像素空間已經(jīng)過時(shí)，潛空間才是未來。

DINOv3 是這個(gè)方向的代表——將圖像通過 VAE Tokenizer 壓縮到低維潛空間，再進(jìn)行對(duì)比學(xué)習(xí)，在多項(xiàng)視覺任務(wù)上達(dá)到了 SOTA，逐漸被視為"正確答案"。

這個(gè)敘事的隱含前提是：在大規(guī)模訓(xùn)練場(chǎng)景下，像素級(jí)自監(jiān)督天然不如潛空間方法，因?yàn)橄袼乜臻g的高維、冗余、多噪聲特性讓學(xué)習(xí)效率更低。

Pixo（pixel supervision）要檢驗(yàn)的正是這個(gè)前提。

MAE 已經(jīng)證明，像素空間的掩碼自編碼器在大規(guī)模訓(xùn)練下是一個(gè)簡(jiǎn)單而高效的選擇。Pixo 則把這個(gè)思路推向極致：在 20 億張網(wǎng)絡(luò)爬取圖像上，系統(tǒng)性地探索像素監(jiān)督的上限，并在預(yù)訓(xùn)練任務(wù)、模型架構(gòu)和訓(xùn)練策略三個(gè)層面對(duì) MAE 做了全面增強(qiáng)。預(yù)訓(xùn)練任務(wù)設(shè)計(jì)得更具挑戰(zhàn)性，架構(gòu)針對(duì)大規(guī)模高效訓(xùn)練做了優(yōu)化，訓(xùn)練策略引入了自篩選機(jī)制自動(dòng)過濾低質(zhì)量數(shù)據(jù)，最小化人工干預(yù)。

Pixio 對(duì) MAE 進(jìn)行的關(guān)鍵更新

結(jié)果沒有出現(xiàn)預(yù)期的"像素完敗"局面。在深度估計(jì)、前饋 3D 重建、語(yǔ)義分割、機(jī)器人操控等多個(gè)下游任務(wù)上，Pixo 與 DINOv3 正面競(jìng)爭(zhēng)，各有勝負(fù)。

這意味著像素監(jiān)督在大規(guī)模場(chǎng)景下并非不如潛空間方法，只是需要更強(qiáng)的任務(wù)設(shè)計(jì)、更大規(guī)模的優(yōu)質(zhì)數(shù)據(jù)和更精細(xì)的訓(xùn)練策略。

兩種范式各有其適合的場(chǎng)景：像素監(jiān)督在需要保留完整視覺細(xì)節(jié)的任務(wù)上可能更有優(yōu)勢(shì)，而潛空間方法在語(yǔ)義理解類任務(wù)上更占優(yōu)。

兩種范式的競(jìng)爭(zhēng)才剛剛開始，Pixo 的價(jià)值在于證明了像素監(jiān)督的邊界還遠(yuǎn)未到達(dá)——在 20 億規(guī)模的數(shù)據(jù)上，它依然是一個(gè)有力的競(jìng)爭(zhēng)者，而非被淘汰的遺產(chǎn)。

論文鏈接： https://arxiv.org/abs/2512.15715

06

結(jié)語(yǔ)

盤點(diǎn)完何愷明近期的五篇論文，一個(gè)值得深思的問題浮現(xiàn)出來：擴(kuò)散模型統(tǒng)治圖像生成五年，這個(gè)"統(tǒng)治"到底有多扎實(shí)？

歸一化流在效率上的結(jié)構(gòu)性缺陷，是可以通過放棄"精確逆"來修復(fù)的；

擴(kuò)散模型的訓(xùn)練目標(biāo)不穩(wěn)定，是可以通過換掉噪聲預(yù)測(cè)目標(biāo)來改善的；

單步生成必須依賴蒸餾的假設(shè)，是被 iMF 用從零訓(xùn)練的 FID 1.72 直接打破的。

甚至在視覺推理和自監(jiān)督學(xué)習(xí)領(lǐng)域，何愷明團(tuán)隊(duì)也在用最小化的視覺架構(gòu)挑戰(zhàn)語(yǔ)言模型的傳統(tǒng)領(lǐng)地，而且贏了。他們不是在已有的游戲規(guī)則里優(yōu)化指標(biāo)，而是在重新定義問題本身的前提。他們用返璞歸真的方式、"大道至簡(jiǎn)"的風(fēng)格提出新的思路，這些思路對(duì)于傳統(tǒng)方案來說，是顛覆性的改變。

同時(shí)，這五篇論文也反映了他們一個(gè)連貫的戰(zhàn)略判斷。擴(kuò)散模型不是終點(diǎn)，而是某個(gè)更高效范式出現(xiàn)之前的過渡階段。流匹配是他們的答案，iMF 和 BiFlow 是這個(gè)答案最有力的支撐。他們從底層基礎(chǔ)（歸一化、去噪目標(biāo)函數(shù)、流模型設(shè)計(jì)）出發(fā)，重構(gòu)視覺生成與理解的理論框架。

接下來的問題是，這個(gè)判斷會(huì)不會(huì)在 2026 年成為整個(gè)生成式 AI 領(lǐng)域的共識(shí)——而這一次，何愷明的團(tuán)隊(duì)已經(jīng)把路標(biāo)立好了。

這次去 CVPR 現(xiàn)場(chǎng)，一定不要錯(cuò)過

【認(rèn)識(shí)大牛+賺外快】的機(jī)會(huì)

需要你做什么：把你最關(guān)注的10個(gè)大會(huì)報(bào)告，每頁(yè)P(yáng)PT都拍下來

你能獲得什么？

認(rèn)識(shí)大牛：你將可以進(jìn)入CVPR名師博士社群；

錢多活少：提供豐厚獎(jiǎng)金，任務(wù)量精簡(jiǎn)；

聽會(huì)自由：你的行程你做主，順手就把外快賺。拍下你最感興趣的10個(gè)報(bào)告PPT即可。

如果你即將前往CVPR，想邊聽會(huì)邊賺錢，還能順便為AI學(xué)術(shù)社區(qū)做貢獻(xiàn)、認(rèn)識(shí)更多大牛，歡迎聯(lián)系我們：[添加微信號(hào):MS_Yahei]

【限額5位，先到先得】

未經(jīng)「AI科技評(píng)論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán)，轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

CVPR 2026 | 20步也能穩(wěn)住畫質(zhì)，這個(gè)擴(kuò)散加速方法不一樣

機(jī)器之心Pro 2026-04-10 18:40:17
0 跟貼 0
商湯SenseNova U1深度拆解，原生統(tǒng)一架構(gòu)終結(jié)縫合時(shí)代

機(jī)器之心Pro 2026-05-15 17:13:40
0 跟貼 0

越懂你，越危險(xiǎn)？MemPrivacy揭示AI記憶下一站

機(jī)器之心Pro 2026-05-15 10:53:13
0 跟貼 0

Agent輸出到底該用誰？卡帕西轉(zhuǎn)發(fā)：試試讓AI輸出HTML

量子位 2026-05-13 07:19:50
0 跟貼 0
萬字拆解AI瓶頸：磷化銦緊缺已是“災(zāi)難”，下一個(gè)爆發(fā)點(diǎn)在“電網(wǎng)保衛(wèi)戰(zhàn)”

華爾街見聞官方 2026-05-16 15:14:07
0 跟貼 0

對(duì)談樓天城：Harness會(huì)成為AI時(shí)代最關(guān)鍵的能力之一

量子位 2026-05-06 15:41:08
0 跟貼 0

亦莊機(jī)器人馬拉松現(xiàn)場(chǎng)名場(chǎng)面合集

量子位 2026-04-20 00:34:54
0 跟貼 0
百度沈抖自曝：老忘吃藥，用AI做了個(gè)小程序

量子位 2026-03-27 11:25:23
0 跟貼 0

南大造出光學(xué)智能軟體機(jī)器人，無需電池，一束激光就是全部指令

DeepTech深科技 2026-05-16 17:43:28
0 跟貼 0
讓你的龍蝦秒變電影《Her》里的Samantha

量子位 2026-03-23 20:37:07
0 跟貼 0
MIT研究生用NotebookLM兩天學(xué)完一學(xué)期課程

量子位 2026-03-22 10:50:49
0 跟貼 0
00后小哥復(fù)刻Claude最強(qiáng)神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
博士生如何用龍蝦做知識(shí)管理？歡迎圍觀！

量子位 2026-03-26 23:23:30
0 跟貼 0
大神程序員蒸餾自己，用16個(gè)skill給AI注入軟件工程之魂

量子位 2026-05-12 03:08:58
0 跟貼 0
如何點(diǎn)亮小龍蝦的牛馬技能包?

量子位 2026-03-18 12:51:26
0 跟貼 0
陶哲軒：AI不能全用，深度思考不行

量子位 2026-03-19 01:35:49
0 跟貼 0
Anthropic的AI讀心術(shù)，讓人類讀懂大模型在想啥

量子位 2026-05-10 23:00:57
0 跟貼 0
這個(gè)時(shí)代必須以Agent為中心：三個(gè)趨勢(shì)回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
安心養(yǎng)蝦！從OpenClaw 看云上AI安全落地路徑

量子位 2026-04-18 19:55:39
0 跟貼 0
AI Agent是科技革命中的一次真正的范式轉(zhuǎn)移

量子位 2026-04-03 22:52:35
0 跟貼 0
LLM數(shù)據(jù)量大管飽，機(jī)器人數(shù)據(jù)卻連1%的起跑線都沒夠到？

量子位 2026-04-13 20:54:19
0 跟貼 0
外國(guó)萌娃給父親當(dāng)翻譯卻沒有工資，爸爸大呼付不起，瞬間逗笑全場(chǎng)

借你一生 2026-05-13 12:42:26
2 跟貼 2
CVPR 2026 | 從視覺Token內(nèi)在變化量出發(fā)，實(shí)現(xiàn)VLM無損加速1.87倍

機(jī)器之心Pro 2026-03-16 11:56:33
0 跟貼 0
印度"烈火-5"導(dǎo)彈試射印媒極為興奮：能覆蓋中國(guó)全境

看看新聞Knews 2026-05-15 22:54:05
3078 跟貼 3078
馬斯克出席完晚宴后離開會(huì)場(chǎng)，與美女翻譯邊走邊聊！

眾橫四海 2026-05-14 21:23:31
165 跟貼 165
古墓中，最神秘的圖像！曾將盜墓賊嚇得魂飛魄散

文物真有趣 2026-05-15 22:18:09
1 跟貼 1
D-OPSD: 將OPSD引入擴(kuò)散模型，讓少步擴(kuò)散模型「邊跑邊學(xué)」

機(jī)器之心Pro 2026-05-15 15:10:29
0 跟貼 0
論文寫作 Skills 來了，從選題到投稿 Claude Code 流水線

Ai學(xué)習(xí)的老章 2026-05-14 20:24:44
0 跟貼 0
這個(gè)翻譯也是絕了，是故意的還是故意的？

我愛大長(zhǎng)腿 2026-05-13 14:52:30
14 跟貼 14
理論上古代四書五經(jīng)背熟了就能考上狀元，多數(shù)人卻連秀才都考不中

佳佳的世界 2026-05-14 15:08:12
0 跟貼 0
OpenAI把ChatGPT接進(jìn)銀行，它知道你攢了多少錢，但碰不了一分

新智元 2026-05-16 14:34:21
0 跟貼 0
因?yàn)殡娪暗闹形淖g名，我們錯(cuò)過了多少好電影

娛樂少女花無缺 2026-05-13 11:39:09
0 跟貼 0
誰翻譯一下他說了啥

新劇梟雄 2026-05-13 17:59:12
0 跟貼 0
3比1逆轉(zhuǎn)擊敗沙特 U17國(guó)足挺進(jìn)四強(qiáng)

央視新聞客戶端 2026-05-16 07:31:02
2074 跟貼 2074
你不是缺意志力，是系統(tǒng)沒對(duì)齊

半勺甜心事 2026-05-15 01:31:24
0 跟貼 0
突發(fā)！OpenAI大規(guī)模重組，總裁Brockman奪權(quán)掛帥

新智元 2026-05-16 14:36:25
0 跟貼 0
當(dāng)bro以為自己拿下了四六級(jí)翻譯

幕清thee 2026-05-14 06:50:18
0 跟貼 0
當(dāng)游戲評(píng)測(cè)遇上"我覺得好玩"：一場(chǎng)關(guān)于專業(yè)性的困惑

理性之光啊 2026-05-16 16:39:12
0 跟貼 0
5月14日，南昌，手語(yǔ)老師為學(xué)生同步翻譯，網(wǎng)友：她認(rèn)真工作的樣子簡(jiǎn)直在發(fā)光！

南昌晚報(bào) 2026-05-15 13:28:09
0 跟貼 0
杭州車主地下車庫(kù)被撞，鄰車女子理論時(shí)連撞三次，電話錄音曝光

笑的牙癢癢 2026-05-16 00:00:00
0 跟貼 0

波爾圖主帥：葡超奪冠后我醒來，穆帥就打電話來祝賀我

波爾圖主帥：葡超奪冠后我醒來，穆帥就打電話來祝賀我

懂球帝

2026-05-16 10:52:10

張紹忠：“美國(guó)啥也不干，讓東方大國(guó)追，20年內(nèi)趕不上美國(guó)！”

張紹忠：“美國(guó)啥也不干，讓東方大國(guó)追，20年內(nèi)趕不上美國(guó)！”

阿七說史

2026-05-15 15:36:38

杭州青山湖房?jī)r(jià)雪崩式暴跌！2.6萬直砍至1萬，買房人虧麻了

杭州青山湖房?jī)r(jià)雪崩式暴跌！2.6萬直砍至1萬，買房人虧麻了

阿離家居

2026-05-16 13:24:31

基本盤被指用來嘲諷有愛國(guó)情懷的人

基本盤被指用來嘲諷有愛國(guó)情懷的人

映射生活的身影

2026-05-13 21:13:11

14歲男孩上午被銀環(huán)蛇咬傷出現(xiàn)手腳麻痹眼睛模糊誤認(rèn)為是近視淡定上完上午課程后才就醫(yī)

14歲男孩上午被銀環(huán)蛇咬傷出現(xiàn)手腳麻痹眼睛模糊誤認(rèn)為是近視淡定上完上午課程后才就醫(yī)

閃電新聞

2026-05-15 12:33:44

22歲銀行女生慘遭前男友殺害，男方偽裝快遞員騙開門，媽媽曝細(xì)節(jié)

22歲銀行女生慘遭前男友殺害，男方偽裝快遞員騙開門，媽媽曝細(xì)節(jié)

180視角

2026-05-15 08:52:13

華為贏麻了！微信800人天團(tuán)適配鴻蒙，安卓、iOS慕了

華為贏麻了！微信800人天團(tuán)適配鴻蒙，安卓、iOS慕了

雷科技

2026-05-14 18:51:01

買下之后迅速賣出！33歲老射手無人信任，雙逆足難題仍存在

買下之后迅速賣出！33歲老射手無人信任，雙逆足難題仍存在

里芃芃體育

2026-05-16 00:15:06

上海學(xué)者親歷中美國(guó)宴：“這樣熱絡(luò)的交流氛圍多年未見了”

上海學(xué)者親歷中美國(guó)宴：“這樣熱絡(luò)的交流氛圍多年未見了”

澎湃新聞

2026-05-15 20:32:28

日本網(wǎng)民的真正破防，開始了

日本網(wǎng)民的真正破防，開始了

這里是東京

2026-05-15 17:19:46

心臟決定壽命？勸告中老年別太節(jié)儉，多吃這3樣，心臟越吃越年輕

心臟決定壽命？勸告中老年別太節(jié)儉，多吃這3樣，心臟越吃越年輕

芹姐說生活

2026-05-11 13:29:00

美加墨世界杯版權(quán)落定，談判最后24小時(shí)發(fā)生了什么？

美加墨世界杯版權(quán)落定，談判最后24小時(shí)發(fā)生了什么？

第一財(cái)經(jīng)資訊

2026-05-15 23:08:17

千萬網(wǎng)紅董赤赤賬號(hào)僅剩9000元，欠54萬！更背后誰拿走了網(wǎng)紅的錢

千萬網(wǎng)紅董赤赤賬號(hào)僅剩9000元，欠54萬！更背后誰拿走了網(wǎng)紅的錢

眼界縱橫

2026-05-14 14:50:49

他是黃仁勛的哥哥，從小在美國(guó)打拼，兄弟五官相似，對(duì)弟弟評(píng)價(jià)高

他是黃仁勛的哥哥，從小在美國(guó)打拼，兄弟五官相似，對(duì)弟弟評(píng)價(jià)高

攬星河的筆記

2026-05-15 23:49:40

普通家庭最大的通病，是把托舉的順序搞反了

普通家庭最大的通病，是把托舉的順序搞反了

洞見

2026-05-15 10:08:02

A股:周六上午傳來3個(gè)特大級(jí)消息!周一或迎來更大級(jí)別踩踏大行情？

A股:周六上午傳來3個(gè)特大級(jí)消息!周一或迎來更大級(jí)別踩踏大行情？

趨勢(shì)清風(fēng)俠

2026-05-16 10:34:04

比亞迪回應(yīng)：消息屬實(shí)

比亞迪回應(yīng)：消息屬實(shí)

新浪財(cái)經(jīng)

2026-05-15 15:56:04

怎么拒絕親戚要長(zhǎng)期住到家里的請(qǐng)求？網(wǎng)友:看好了，我只教一遍！

怎么拒絕親戚要長(zhǎng)期住到家里的請(qǐng)求？網(wǎng)友:看好了，我只教一遍！

夜深愛雜談

2026-05-15 07:17:28

這場(chǎng)頂級(jí)晚宴，真正的主角不是馬斯克、黃仁勛，而是一方中式桌面

這場(chǎng)頂級(jí)晚宴，真正的主角不是馬斯克、黃仁勛，而是一方中式桌面

魔都姐姐雜談

2026-05-15 00:53:47

西決對(duì)陣出爐：馬刺深入狼窩大勝而歸，活塞與騎士連續(xù)兩輪搶七

西決對(duì)陣出爐：馬刺深入狼窩大勝而歸，活塞與騎士連續(xù)兩輪搶七

燒體壇

2026-05-16 12:16:37

AI科技評(píng)論

點(diǎn)評(píng)學(xué)術(shù)，服務(wù)AI

7280文章數(shù) 20751關(guān)注度

往期回顧全部

科技要聞

漲的是車價(jià)，要的是老命

頭條要聞

26歲警察因急性白血病引發(fā)腦出血從確診到離世僅11天

頭條要聞

26歲警察因急性白血病引發(fā)腦出血從確診到離世僅11天

體育要聞

馬刺2號(hào)，少年老成，這集看過？

娛樂要聞

張嘉譯和老婆的差距讓人心酸

財(cái)經(jīng)要聞

造詞狂魔賈躍亭

汽車要聞

高爾夫GTI刷新紐北紀(jì)錄 ID. Polo GTI迎全球首秀

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

健康

藝術(shù)

時(shí)尚

房產(chǎn)

親子要聞

《2026中國(guó)兒童生長(zhǎng)與消化健康白皮書》發(fā)布，關(guān)注兒童健康

專家揭秘干細(xì)胞回輸?shù)陌踩L(fēng)險(xiǎn)

藝術(shù)要聞

19位當(dāng)代畫家油畫作品欣賞

從全網(wǎng)嘲到全網(wǎng)夸，魯豫到底經(jīng)歷了什么？

房產(chǎn)要聞

老黃埔熱銷之下，珠江春，為何去化僅3成？

© 1997-2026 網(wǎng)易公司版權(quán)所有 About NetEase | 公司簡(jiǎn)介 | 聯(lián)系方法 | 招聘信息 | 客戶服務(wù) | 隱私政策 | 不良信息舉報(bào) Complaint Center | 廉正舉報(bào) | 侵權(quán)投訴

無障礙瀏覽進(jìn)入關(guān)懷版主站蜘蛛池模板：免费看国产成年无码AV片| 99久久精品费精品国产一区二| 亚洲欧美日韩三区| 成人午夜天| 中文字幕亚洲欧美专区| 亚洲国产午夜理论片不卡| 日韩av一区二区三区精品| avav免费入口| 中文字幕奈奈美被公侵犯| 肉大捧一进一出免费视频| 亚洲国产精品羞羞| 国产福利视频一区二区| 天天撸影院| 一本无码字幕在线少妇| 国产爽视频一区二区三区| 久久精品丰满少妇免费| 中文字幕人妻系列人妻?无码| 欧美久久精品一级c片免费| 亚洲大乳高潮日本专区| 人妻一本久道久久综合鬼色| 亚洲成人在线黄网| 麻豆蜜桃在线| 国产一区二区精品久久| 国产成人免费高清激情明星| 自拍av一区| 天堂网www在线资源| 国产精品无码不卡一区二区三区| 亚洲色成人网站www永久男男| 国产精品日韩精品| 国产亚洲精品久久久久四川人| 亚洲国产精品日韩专区av| 亚洲精品成人无码AV在线| 女人下边被添全过视频的网址| 亚洲视频中文字幕| 精品一区二区三区无码免费直播| 熟妇人妻中文字幕| 桃色综合网站| 国产caonila在线观看| 国内精品久久久久影视日本| 国产精品福利自产拍在线观看| 国产91午夜福利精品|