<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      何愷明團(tuán)隊(duì)論文全景掃描:一場(chǎng)關(guān)于「生成范式」的多角度突破 | CVPR 2026

      0
      分享至


      高度依賴擴(kuò)散模型的圖像生成范式,正在被重新審視。

      作者丨陳淑瑜

      編輯丨岑 峰

      2025 年到 2026 年,如果要問生成式 AI 領(lǐng)域最值得關(guān)注的研究方向,流匹配(Flow Matching) 是一個(gè)無法繞開的答案。

      從去年起,這個(gè)名字開始頻繁出現(xiàn)在頂會(huì)論文里、被工業(yè)界反復(fù)討論、被拿來和統(tǒng)治了圖像生成領(lǐng)域長(zhǎng)達(dá)五年的擴(kuò)散模型正面比較。

      所謂流匹配,本質(zhì)上是用常微分方程路徑(ODE path)替代擴(kuò)散模型的隨機(jī)微分方程路徑,讓數(shù)據(jù)從噪聲到圖像的轉(zhuǎn)變不再依賴數(shù)百步迭代,從而在理論上實(shí)現(xiàn)更高效的生成。但從理論可行到工程落地,中間隔著無數(shù)技術(shù)細(xì)節(jié)——訓(xùn)練目標(biāo)怎么設(shè)計(jì)、架構(gòu)怎么選、速度和質(zhì)量如何兼顧,每一步都是坑。

      何愷明團(tuán)隊(duì)正是在這個(gè)節(jié)點(diǎn)上,密集地交出了一份多角度的答卷。

      AI科技評(píng)論總結(jié)了何愷明團(tuán)隊(duì)近期在CVPR大會(huì)上發(fā)表上的論文: 2025 年 5 月,他們提出了均值流(MeanFlow),首次將"均值速度場(chǎng)"引入生成建模;同年年底,BiFlow 在歸一化流框架上實(shí)現(xiàn)了 700 倍加速,將 FID 推到 2.39;幾乎同一時(shí)間,Improved MeanFlow(iMF)則以三個(gè)系統(tǒng)性修復(fù)將單步 FID 降至 1.72,首次在無蒸餾條件下超越所有蒸餾方法。

      生成模型之外,團(tuán)隊(duì)在視覺推理(VARC,CVPR 2026)和自監(jiān)督學(xué)習(xí)(Pixo,CVPR 2026)上也同時(shí)出擊,共同勾勒出一個(gè)清晰的戰(zhàn)略意圖:擴(kuò)散模型并不是圖像生成的終點(diǎn),流匹配這條路,值得全力押注。

      這五篇論文之間沒有直接的方法傳承,方向各有側(cè)重,但貫穿其中的核心問題始終如一:在每一個(gè)被默認(rèn)的技術(shù)選擇背后,到底藏著多少被低估的優(yōu)化空間?

      01


      讓"去噪"模型真正做一次去噪

      理解 JiT 的工作,需要從擴(kuò)散模型一個(gè)被忽視已久的痛點(diǎn)說起。

      當(dāng)前的擴(kuò)散模型在訓(xùn)練時(shí),網(wǎng)絡(luò)學(xué)習(xí)預(yù)測(cè)的目標(biāo)是噪聲 ε 或速度 v,而非干凈圖像 x。

      這個(gè)細(xì)節(jié)在大多數(shù)論文里被一筆帶過,但它有一個(gè)容易被忽視的含義:噪聲和速度并不在自然圖像的流形上。用大白話說,網(wǎng)絡(luò)在試圖預(yù)測(cè)一個(gè)"不屬于這個(gè)世界"的東西——它不在圖像分布內(nèi),是離群的量。這種預(yù)測(cè)天然地不穩(wěn)定,網(wǎng)絡(luò)需要額外的表達(dá)能力來處理那些本不應(yīng)該出現(xiàn)在預(yù)測(cè)目標(biāo)里的高維噪聲。

      也就是說,預(yù)測(cè)噪聲和預(yù)測(cè)干凈圖區(qū)別很大。


      流形示意圖

      JiT 的核心洞察正是從這里切入的。既然 x(干凈圖像)在圖像流形上,那就讓網(wǎng)絡(luò)直接預(yù)測(cè) x。直覺上這是一個(gè)退步——流形外的東西更難預(yù)測(cè),流形內(nèi)的東西反而應(yīng)該更容易。但團(tuán)隊(duì)指出,這個(gè)邏輯在擴(kuò)散模型里是反的:噪聲 ε 分布在高維空間,目標(biāo)分布極廣,網(wǎng)絡(luò)需要一個(gè)很強(qiáng)的先驗(yàn)來"猜測(cè)"噪聲的真實(shí)值;而 x 就在流形上,是網(wǎng)絡(luò)見過的、理解的、可以自然逼近的東西。

      為了讓這個(gè)樸素的想法在工程上成立,JiT 采用了標(biāo)準(zhǔn) Vision Transformer,但做了一個(gè)看似大膽的調(diào)整:patch 尺寸可以非常大——16×16、32×32 甚至 64×64,而不像標(biāo)準(zhǔn)擴(kuò)散模型那樣在高分辨率下被迫使用極小的 patch。

      原因在于:x 在流形上,網(wǎng)絡(luò)不需要處理流形外的高維噪聲干擾,因此 patch 大小的增加不會(huì)導(dǎo)致信息缺失,也沒有帶來災(zāi)難性的效果退化。

      這是一種返璞歸真,直接預(yù)測(cè)目標(biāo)圖像,對(duì)傳統(tǒng)認(rèn)知發(fā)起了一次直接挑戰(zhàn).


      JiT模型生成的圖像樣本

      JiT 還完全去掉了 VAE Tokenizer,不需要預(yù)訓(xùn)練的潛空間,不需要 GAN 損失或感知損失,就是最樸素的 Transformer 在像素上做去噪。模型規(guī)模 86M 參數(shù),從 256 到 1024 分辨率,計(jì)算量幾乎不變——只需要調(diào)整 patch 大小。這意味著一個(gè)原生模型可以在任意分辨率上生成,而不需要借助潛空間的壓縮-解壓機(jī)制。

      最終結(jié)果在 ImageNet 512×512 上實(shí)現(xiàn)了 FID 1.78,且 JiT-G 版本在更高分辨率下依然保持了競(jìng)爭(zhēng)力的 FID。更值得關(guān)注的是,這個(gè)性能是在沒有任何蒸餾、沒有任何外部模型輔助的前提下從零訓(xùn)練得到的。

      JiT 證明了"讓擴(kuò)散模型真正做去噪"這件事本身,就足以帶來顯著的質(zhì)量提升——不需要更多的工程技巧,只需要把預(yù)測(cè)目標(biāo)換回那個(gè)理所當(dāng)然卻被忽視了五年的選項(xiàng)。


      論文鏈接:https://arxiv.org/abs/2511.13720

      02


      ARC:跳出語(yǔ)言模型的舒適圈

      ARC是 AI 領(lǐng)域歷史最久的推理能力測(cè)試之一,包含數(shù)百個(gè)"視覺謎題",要求模型從少數(shù)示例中推斷規(guī)則并泛化到新樣本。物體對(duì)稱、重力方向、顏色連續(xù)性、反射變換——這些概念本質(zhì)上是對(duì)物理世界的抽象,本不應(yīng)該和語(yǔ)言有任何關(guān)系。

      然而長(zhǎng)期以來,整個(gè)社區(qū)把 ARC 當(dāng)成了一個(gè)語(yǔ)言問題。GPT-4、Claude、Deepseek 幾乎都在 ARC 上刷過榜,原因是 ARC 的任務(wù)描述可以自然地翻譯成文字,語(yǔ)言模型恰好擅長(zhǎng)這類文字推理。這在工程上無可厚非,但它制造了一個(gè)隱性的假設(shè):視覺抽象推理,必須借助語(yǔ)言才能完成。

      VARC 要挑戰(zhàn)的正是這個(gè)假設(shè)。

      把 ARC 任務(wù)重新建模為圖像到圖像的翻譯問題,用一個(gè)只有 18M 參數(shù)的 ViT 從頭訓(xùn)練,不依賴任何語(yǔ)言能力,在 ARC-1 上達(dá)到了單模型 54.5%、集成 60.4% 的準(zhǔn)確率。60.4% 是什么水平?人類平均水平是 60.2%,頂級(jí)大語(yǔ)言模型也在這個(gè)區(qū)間。

      這意味著,一個(gè)參數(shù)量只有頂級(jí) LLM 幾千分之一的純視覺模型,在視覺推理任務(wù)上達(dá)到了與人類相當(dāng)?shù)乃健?/strong>

      VARC框架的實(shí)現(xiàn)路徑也非常直接,沒有把輸入網(wǎng)格直接 token 化,而是使用了“畫布”,將網(wǎng)格嵌入到一個(gè)足夠大的預(yù)定義畫布(32×32)上,背景用第 11 種顏色填充。然后像處理一張普通圖片一樣,被ViT模型進(jìn)行端到端的處理。

      這帶來一個(gè)關(guān)鍵效果:token 數(shù)量從有限的網(wǎng)格大小擴(kuò)展到了更大的空間,讓 ViT 的注意力機(jī)制有了充足的施展余地,能夠捕捉遠(yuǎn)程的視覺關(guān)系。


      WARC的畫布

      另外,測(cè)試時(shí)訓(xùn)練(TTT)在推理階段利用測(cè)試任務(wù)的少量示例做快速微調(diào),是性能逼近人類水平的關(guān)鍵——模型不是"記住"了 ARC 的規(guī)則,而是在看到新任務(wù)時(shí)快速學(xué)習(xí)規(guī)則本身。

      VARC 的出現(xiàn)給整個(gè) ARC 社區(qū)潑了一盆冷水:大家花了大量工程資源在語(yǔ)言模型上刷榜,卻忽視了純視覺方法在這個(gè)任務(wù)上的潛力。

      這個(gè)潛力的釋放需要兩個(gè)條件:一個(gè)足夠大的視覺畫布,以及一個(gè)讓模型在推理時(shí)繼續(xù)學(xué)習(xí)的機(jī)制。一旦這兩個(gè)條件被滿足,視覺推理不需要語(yǔ)言模型這件事,變得異常清晰。


      論文鏈接: https://arxiv.org/abs/2511.14761

      03


      突破歸一化流限制,圖像單步生成加速

      歸一化流是生成式建模中歷史最悠久的框架之一。它最大的理論優(yōu)勢(shì)是可以用精確的數(shù)學(xué)形式同時(shí)完成生成和似然估計(jì),訓(xùn)練過程透明、可解釋,不像擴(kuò)散模型那樣依賴多次采樣來近似對(duì)數(shù)似然。但長(zhǎng)期以來,它在性能上被擴(kuò)散模型壓得喘不過氣來。

      原因出在兩個(gè)結(jié)構(gòu)性約束上。

      第一,傳統(tǒng)歸一化流為了保證前向變換的精確可逆性,必須采用受限的網(wǎng)絡(luò)架構(gòu),無法使用 Transformer 等更強(qiáng)大的序列模型。

      第二,逆向過程依賴自回歸因果解碼,每一步必須順序計(jì)算,無法并行,生成一張圖的時(shí)間成本極高。這兩個(gè)約束幾乎從根子上限制了歸一化流在大規(guī)模圖像生成上的競(jìng)爭(zhēng)力。

      BiFlow 的解題思路初看有些反直覺:逆向過程不需要是前向過程的精確逆

      前向過程保持可逆,這是數(shù)學(xué)上的保證,確保分布映射的準(zhǔn)確性不受損害;但逆向過程單獨(dú)訓(xùn)練一個(gè)獨(dú)立的模型來近似逆映射,不要求它在數(shù)學(xué)上等于前向的解析逆。這個(gè)"放棄精確逆"帶來了一個(gè)巨大的解放:逆向過程可以使用完全并行的 Transformer 架構(gòu),實(shí)現(xiàn)真正的單步生成,不再受自回歸解碼的順序瓶頸約束。

      但這還不夠。逆向模型單獨(dú)訓(xùn)練,意味著它學(xué)到的表示空間可能與前向過程完全不同——兩者可能在不同的隱空間里各說各話。

      BiFlow 引入了隱藏層對(duì)齊機(jī)制,利用前向過程的中間狀態(tài)軌跡監(jiān)督逆向模型,確保兩者在表示空間中對(duì)齊,防止逆向模型"跑偏"。對(duì)齊之后,逆向模型既能受益于 Transformer 的強(qiáng)大表達(dá)能力,又能保持前向過程的分布結(jié)構(gòu)完整。


      標(biāo)準(zhǔn)化流與BiFlow的概念對(duì)比

      最終結(jié)果在 ImageNet 256×256 上實(shí)現(xiàn)了 FID 2.39,這是歸一化流方法的歷史新紀(jì)錄。但更有沖擊力的是速度數(shù)據(jù):單張圖像生成時(shí)間從 TARFlow 的 0.7 秒縮短到 0.001 秒,加速約 700 倍。


      BiFlow與SOTA流模型的效率對(duì)比

      這不再是理論推演,而是一個(gè)可以直接在工程中落地的效率躍遷。歸一化流長(zhǎng)期被視為"理論上優(yōu)美、工程上雞肋"的框架,BiFlow 至少把后半句的錯(cuò)誤認(rèn)知打破了。


      論文地址:https://arxiv.org/abs/2512.10953

      04


      快進(jìn)生成,無需蒸餾

      如果說 BiFlow 是把歸一化流從困境中拉了出來,那么 iMF(Improved Mean Flows)的目標(biāo)更徹底:把"快進(jìn)生成"這條路的瓶頸徹底打通。

      "快進(jìn)生成"的核心目標(biāo)是讓擴(kuò)散模型用 1 步而不是 250 步完成圖像生成。此前的工業(yè)界解法幾乎都依賴蒸餾——用一個(gè)大而慢的擴(kuò)散模型作為"教師",訓(xùn)練一個(gè)小的"學(xué)生"在 1-2 步內(nèi)近似教師的輸出。蒸餾效果不錯(cuò),但代價(jià)也明顯:訓(xùn)練流程極其復(fù)雜,學(xué)生的性能上限被教師鎖死,一旦教師本身有缺陷,學(xué)生無論如何都超不過去。

      何愷明團(tuán)隊(duì)在 2025 年 5 月提出了均值流(MeanFlow),首次將"均值速度場(chǎng)"引入生成建模,目標(biāo)是實(shí)現(xiàn)真正的單步高質(zhì)量生成。方向正確,但初代 MF 有三個(gè)系統(tǒng)性的訓(xùn)練缺陷,導(dǎo)致最終性能距離當(dāng)時(shí)的 SOTA 有明顯差距。ImageNet 256×256 的 FID 停留在 3.43,而最好的擴(kuò)散模型已經(jīng)在 1.x 徘徊了。

      第一個(gè)缺陷是訓(xùn)練目標(biāo)的"自依賴"。MF 的訓(xùn)練目標(biāo)是"平均速度損失"(u-loss),目標(biāo)函數(shù)里包含了一個(gè)由網(wǎng)絡(luò)自身輸出推導(dǎo)出的項(xiàng)——這就好比讓一個(gè)人預(yù)測(cè)"自己說的話會(huì)造成什么后果",優(yōu)化器在閉環(huán)里反復(fù)震蕩,訓(xùn)練方差極大,收斂不徹底。

      第二個(gè)缺陷是引導(dǎo)機(jī)制的"死板"。無分類器引導(dǎo)(CFG)是提升生成質(zhì)量的關(guān)鍵技術(shù),但 MF 訓(xùn)練時(shí)把 CFG 強(qiáng)度固定了,推理時(shí)用戶無法調(diào)節(jié)質(zhì)量-多樣性的權(quán)衡——這等于剝奪了生成器最重要的一個(gè)調(diào)參手段。

      第三個(gè)缺陷是架構(gòu)效率的"肥胖"。MF 依賴的 adaLN-zero 機(jī)制在處理多條件(時(shí)間步 t、類別標(biāo)簽 c、CFG 強(qiáng)度 ω)時(shí)把所有條件向量簡(jiǎn)單求和,條件多了之后互相干擾,參數(shù)利用率極低。

      iMF 成功解決了這三個(gè)缺陷目標(biāo),通過將訓(xùn)練目標(biāo)重新表述為更穩(wěn)定的瞬時(shí)速度損失,同時(shí)引入靈活的無分類器指導(dǎo)(CFG)和高效的上下文內(nèi)條件作用,大幅提升了模型性能。


      論文鏈接: https://arxiv.org/abs/2512.02012

      針對(duì)訓(xùn)練目標(biāo),iMF 利用 MeanFlow 的數(shù)學(xué)恒等式,將平均速度損失(u-loss)等價(jià)轉(zhuǎn)換為瞬時(shí)速度損失(v-loss)。瞬時(shí)速度 v 等于網(wǎng)絡(luò)在 t 時(shí)刻的瞬時(shí)導(dǎo)數(shù),它的特點(diǎn)是:目標(biāo) v 與網(wǎng)絡(luò)自身的輸出完全無關(guān),是一個(gè)純粹的標(biāo)準(zhǔn)回歸問題。這個(gè)看似簡(jiǎn)單的數(shù)學(xué)變換,把 MF 訓(xùn)練不穩(wěn)定的根因直接消除了。

      針對(duì) CFG 靈活性,iMF 把 CFG 強(qiáng)度 ω、引導(dǎo)區(qū)間 t_min 和 t_max 一起編碼為顯式的條件變量作為額外輸入傳入網(wǎng)絡(luò)。訓(xùn)練時(shí)從冪分布中隨機(jī)采樣不同引導(dǎo)強(qiáng)度,讓網(wǎng)絡(luò)學(xué)習(xí)不同 CFG 強(qiáng)度下的速度場(chǎng)分布;推理時(shí),用戶可以自由調(diào)節(jié) CFG 強(qiáng)度,就像使用普通擴(kuò)散模型一樣自然。這個(gè)設(shè)計(jì)讓 iMF 支持了 CFG 區(qū)間控制——只有當(dāng) t 落在某個(gè)區(qū)間內(nèi)時(shí)才啟用引導(dǎo),超出區(qū)間自動(dòng)關(guān)閉,給了研究者更多調(diào)控手段。

      針對(duì)架構(gòu)效率,iMF 摒棄了把條件向量求和的粗暴做法,轉(zhuǎn)而將每類條件轉(zhuǎn)化為多個(gè)可學(xué)習(xí)的 token,類別 8 個(gè)、時(shí)間步 4 個(gè)、CFG 強(qiáng)度 4 個(gè)、引導(dǎo)區(qū)間 4 個(gè),與圖像 latent token 沿序列維度拼接后聯(lián)合處理。Base 模型參數(shù)從 133M 降至 89M,減少了三分之一,同時(shí) FID 反而改善。


      iMF 和MF對(duì)比圖

      三條改進(jìn)的效果是疊加的。iMF 的消融鏈路清晰地記錄了每一步的貢獻(xiàn):原 MF 基線 6.17 FID → v-loss 替換 5.68 → 靈活 CFG 4.57 → 多 token 條件 4.09 → Transformer 架構(gòu)改進(jìn) 3.39 → 640 epoch 長(zhǎng)訓(xùn)練 1.72。每一步都有據(jù)可查,每一步的改善都可以歸因到具體的修改點(diǎn)。

      最終 iMF-XL/2 實(shí)現(xiàn)了 1-NFE FID 1.72,且這是從零訓(xùn)練、不依賴任何蒸餾取得的成績(jī)。iMF 的 FID 優(yōu)于所有依賴蒸餾的單步生成方法,包括 FACM-XL/2(蒸餾,F(xiàn)ID 1.76)和 DMF-XL/2+(蒸餾,F(xiàn)ID 2.16)。擴(kuò)散模型領(lǐng)域的一個(gè)默認(rèn)假設(shè)被打破了:高質(zhì)量單步生成,不需要蒸餾。

      更值得關(guān)注的是 2-NFE 時(shí) iMF 的 FID 降至 1.54,已經(jīng)非常接近主流多步擴(kuò)散的水平(SiT-XL/2+REPA 為 1.42 @ 數(shù)百步)。單步模型與多步模型的性能差距,第一次縮小到了這個(gè)量級(jí)。

      05


      像素監(jiān)督:從邊緣到正面競(jìng)爭(zhēng)

      自監(jiān)督視覺預(yù)訓(xùn)練領(lǐng)域近年來有一個(gè)明顯的主流敘事:像素空間已經(jīng)過時(shí),潛空間才是未來。

      DINOv3 是這個(gè)方向的代表——將圖像通過 VAE Tokenizer 壓縮到低維潛空間,再進(jìn)行對(duì)比學(xué)習(xí),在多項(xiàng)視覺任務(wù)上達(dá)到了 SOTA,逐漸被視為"正確答案"。

      這個(gè)敘事的隱含前提是:在大規(guī)模訓(xùn)練場(chǎng)景下,像素級(jí)自監(jiān)督天然不如潛空間方法,因?yàn)橄袼乜臻g的高維、冗余、多噪聲特性讓學(xué)習(xí)效率更低。

      Pixo(pixel supervision) 要檢驗(yàn)的正是這個(gè)前提。

      MAE 已經(jīng)證明,像素空間的掩碼自編碼器在大規(guī)模訓(xùn)練下是一個(gè)簡(jiǎn)單而高效的選擇。Pixo 則把這個(gè)思路推向極致:在 20 億張網(wǎng)絡(luò)爬取圖像上,系統(tǒng)性地探索像素監(jiān)督的上限,并在預(yù)訓(xùn)練任務(wù)、模型架構(gòu)和訓(xùn)練策略三個(gè)層面對(duì) MAE 做了全面增強(qiáng)。預(yù)訓(xùn)練任務(wù)設(shè)計(jì)得更具挑戰(zhàn)性,架構(gòu)針對(duì)大規(guī)模高效訓(xùn)練做了優(yōu)化,訓(xùn)練策略引入了自篩選機(jī)制自動(dòng)過濾低質(zhì)量數(shù)據(jù),最小化人工干預(yù)。


      Pixio 對(duì) MAE 進(jìn)行的關(guān)鍵更新

      結(jié)果沒有出現(xiàn)預(yù)期的"像素完敗"局面。在深度估計(jì)、前饋 3D 重建、語(yǔ)義分割、機(jī)器人操控等多個(gè)下游任務(wù)上,Pixo 與 DINOv3 正面競(jìng)爭(zhēng),各有勝負(fù)。

      這意味著像素監(jiān)督在大規(guī)模場(chǎng)景下并非不如潛空間方法,只是需要更強(qiáng)的任務(wù)設(shè)計(jì)、更大規(guī)模的優(yōu)質(zhì)數(shù)據(jù)和更精細(xì)的訓(xùn)練策略。

      兩種范式各有其適合的場(chǎng)景:像素監(jiān)督在需要保留完整視覺細(xì)節(jié)的任務(wù)上可能更有優(yōu)勢(shì),而潛空間方法在語(yǔ)義理解類任務(wù)上更占優(yōu)。

      兩種范式的競(jìng)爭(zhēng)才剛剛開始,Pixo 的價(jià)值在于證明了像素監(jiān)督的邊界還遠(yuǎn)未到達(dá)——在 20 億規(guī)模的數(shù)據(jù)上,它依然是一個(gè)有力的競(jìng)爭(zhēng)者,而非被淘汰的遺產(chǎn)。


      論文鏈接: https://arxiv.org/abs/2512.15715

      06


      結(jié)語(yǔ)

      盤點(diǎn)完何愷明近期的五篇論文,一個(gè)值得深思的問題浮現(xiàn)出來:擴(kuò)散模型統(tǒng)治圖像生成五年,這個(gè)"統(tǒng)治"到底有多扎實(shí)?

      歸一化流在效率上的結(jié)構(gòu)性缺陷,是可以通過放棄"精確逆"來修復(fù)的;

      擴(kuò)散模型的訓(xùn)練目標(biāo)不穩(wěn)定,是可以通過換掉噪聲預(yù)測(cè)目標(biāo)來改善的;

      單步生成必須依賴蒸餾的假設(shè),是被 iMF 用從零訓(xùn)練的 FID 1.72 直接打破的。

      甚至在視覺推理和自監(jiān)督學(xué)習(xí)領(lǐng)域,何愷明團(tuán)隊(duì)也在用最小化的視覺架構(gòu)挑戰(zhàn)語(yǔ)言模型的傳統(tǒng)領(lǐng)地,而且贏了。他們不是在已有的游戲規(guī)則里優(yōu)化指標(biāo),而是在重新定義問題本身的前提。他們用返璞歸真的方式、"大道至簡(jiǎn)"的風(fēng)格提出新的思路,這些思路對(duì)于傳統(tǒng)方案來說,是顛覆性的改變。

      同時(shí),這五篇論文也反映了他們一個(gè)連貫的戰(zhàn)略判斷。擴(kuò)散模型不是終點(diǎn),而是某個(gè)更高效范式出現(xiàn)之前的過渡階段。流匹配是他們的答案,iMF 和 BiFlow 是這個(gè)答案最有力的支撐。他們從底層基礎(chǔ)(歸一化、去噪目標(biāo)函數(shù)、流模型設(shè)計(jì))出發(fā),重構(gòu)視覺生成與理解的理論框架。

      接下來的問題是,這個(gè)判斷會(huì)不會(huì)在 2026 年成為整個(gè)生成式 AI 領(lǐng)域的共識(shí)——而這一次,何愷明的團(tuán)隊(duì)已經(jīng)把路標(biāo)立好了。

      這次去 CVPR 現(xiàn)場(chǎng),一定不要錯(cuò)過

      【認(rèn)識(shí)大牛+賺外快】的機(jī)會(huì)

      需要你做什么:把你最關(guān)注的10個(gè)大會(huì)報(bào)告,每頁(yè)P(yáng)PT都拍下來

      你能獲得什么?

      認(rèn)識(shí)大牛:你將可以進(jìn)入CVPR名師博士社群;

      錢多活少:提供豐厚獎(jiǎng)金,任務(wù)量精簡(jiǎn);

      聽會(huì)自由:你的行程你做主,順手就把外快賺。拍下你最感興趣的10個(gè)報(bào)告PPT即可。

      如果你即將前往CVPR,想邊聽會(huì)邊賺錢,還能順便為AI學(xué)術(shù)社區(qū)做貢獻(xiàn)、認(rèn)識(shí)更多大牛,歡迎聯(lián)系我們:[添加微信號(hào):MS_Yahei]

      【限額5位,先到先得】

      未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

      公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      波爾圖主帥:葡超奪冠后我醒來,穆帥就打電話來祝賀我

      波爾圖主帥:葡超奪冠后我醒來,穆帥就打電話來祝賀我

      懂球帝
      2026-05-16 10:52:10
      張紹忠:“美國(guó)啥也不干,讓東方大國(guó)追,20年內(nèi)趕不上美國(guó)!”

      張紹忠:“美國(guó)啥也不干,讓東方大國(guó)追,20年內(nèi)趕不上美國(guó)!”

      阿七說史
      2026-05-15 15:36:38
      杭州青山湖房?jī)r(jià)雪崩式暴跌!2.6萬直砍至1萬,買房人虧麻了

      杭州青山湖房?jī)r(jià)雪崩式暴跌!2.6萬直砍至1萬,買房人虧麻了

      阿離家居
      2026-05-16 13:24:31
      基本盤被指用來嘲諷有愛國(guó)情懷的人

      基本盤被指用來嘲諷有愛國(guó)情懷的人

      映射生活的身影
      2026-05-13 21:13:11
      14歲男孩上午被銀環(huán)蛇咬傷 出現(xiàn)手腳麻痹 眼睛模糊誤認(rèn)為是近視 淡定上完上午課程后才就醫(yī)

      14歲男孩上午被銀環(huán)蛇咬傷 出現(xiàn)手腳麻痹 眼睛模糊誤認(rèn)為是近視 淡定上完上午課程后才就醫(yī)

      閃電新聞
      2026-05-15 12:33:44
      22歲銀行女生慘遭前男友殺害,男方偽裝快遞員騙開門,媽媽曝細(xì)節(jié)

      22歲銀行女生慘遭前男友殺害,男方偽裝快遞員騙開門,媽媽曝細(xì)節(jié)

      180視角
      2026-05-15 08:52:13
      華為贏麻了!微信800人天團(tuán)適配鴻蒙,安卓、iOS慕了

      華為贏麻了!微信800人天團(tuán)適配鴻蒙,安卓、iOS慕了

      雷科技
      2026-05-14 18:51:01
      買下之后迅速賣出!33歲老射手無人信任,雙逆足難題仍存在

      買下之后迅速賣出!33歲老射手無人信任,雙逆足難題仍存在

      里芃芃體育
      2026-05-16 00:15:06
      上海學(xué)者親歷中美國(guó)宴:“這樣熱絡(luò)的交流氛圍多年未見了”

      上海學(xué)者親歷中美國(guó)宴:“這樣熱絡(luò)的交流氛圍多年未見了”

      澎湃新聞
      2026-05-15 20:32:28
      日本網(wǎng)民的真正破防,開始了

      日本網(wǎng)民的真正破防,開始了

      這里是東京
      2026-05-15 17:19:46
      心臟決定壽命?勸告中老年別太節(jié)儉,多吃這3樣,心臟越吃越年輕

      心臟決定壽命?勸告中老年別太節(jié)儉,多吃這3樣,心臟越吃越年輕

      芹姐說生活
      2026-05-11 13:29:00
      美加墨世界杯版權(quán)落定,談判最后24小時(shí)發(fā)生了什么?

      美加墨世界杯版權(quán)落定,談判最后24小時(shí)發(fā)生了什么?

      第一財(cái)經(jīng)資訊
      2026-05-15 23:08:17
      千萬網(wǎng)紅董赤赤賬號(hào)僅剩9000元,欠54萬!更背后誰拿走了網(wǎng)紅的錢

      千萬網(wǎng)紅董赤赤賬號(hào)僅剩9000元,欠54萬!更背后誰拿走了網(wǎng)紅的錢

      眼界縱橫
      2026-05-14 14:50:49
      他是黃仁勛的哥哥,從小在美國(guó)打拼,兄弟五官相似,對(duì)弟弟評(píng)價(jià)高

      他是黃仁勛的哥哥,從小在美國(guó)打拼,兄弟五官相似,對(duì)弟弟評(píng)價(jià)高

      攬星河的筆記
      2026-05-15 23:49:40
      普通家庭最大的通病,是把托舉的順序搞反了

      普通家庭最大的通病,是把托舉的順序搞反了

      洞見
      2026-05-15 10:08:02
      A股:周六上午傳來3個(gè)特大級(jí)消息!周一或迎來更大級(jí)別踩踏大行情?

      A股:周六上午傳來3個(gè)特大級(jí)消息!周一或迎來更大級(jí)別踩踏大行情?

      趨勢(shì)清風(fēng)俠
      2026-05-16 10:34:04
      比亞迪回應(yīng):消息屬實(shí)

      比亞迪回應(yīng):消息屬實(shí)

      新浪財(cái)經(jīng)
      2026-05-15 15:56:04
      怎么拒絕親戚要長(zhǎng)期住到家里的請(qǐng)求?網(wǎng)友:看好了,我只教一遍!

      怎么拒絕親戚要長(zhǎng)期住到家里的請(qǐng)求?網(wǎng)友:看好了,我只教一遍!

      夜深愛雜談
      2026-05-15 07:17:28
      這場(chǎng)頂級(jí)晚宴,真正的主角不是馬斯克、黃仁勛,而是一方中式桌面

      這場(chǎng)頂級(jí)晚宴,真正的主角不是馬斯克、黃仁勛,而是一方中式桌面

      魔都姐姐雜談
      2026-05-15 00:53:47
      西決對(duì)陣出爐:馬刺深入狼窩大勝而歸,活塞與騎士連續(xù)兩輪搶七

      西決對(duì)陣出爐:馬刺深入狼窩大勝而歸,活塞與騎士連續(xù)兩輪搶七

      燒體壇
      2026-05-16 12:16:37
      2026-05-16 18:12:49
      AI科技評(píng)論 incentive-icons
      AI科技評(píng)論
      點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
      7280文章數(shù) 20751關(guān)注度
      往期回顧 全部

      科技要聞

      漲的是車價(jià),要的是老命

      頭條要聞

      26歲警察因急性白血病引發(fā)腦出血 從確診到離世僅11天

      頭條要聞

      26歲警察因急性白血病引發(fā)腦出血 從確診到離世僅11天

      體育要聞

      馬刺2號(hào),少年老成,這集看過?

      娛樂要聞

      張嘉譯和老婆的差距讓人心酸

      財(cái)經(jīng)要聞

      造詞狂魔賈躍亭

      汽車要聞

      高爾夫GTI刷新紐北紀(jì)錄 ID. Polo GTI迎全球首秀

      態(tài)度原創(chuàng)

      親子
      健康
      藝術(shù)
      時(shí)尚
      房產(chǎn)

      親子要聞

      《2026中國(guó)兒童生長(zhǎng)與消化健康白皮書》發(fā)布,關(guān)注兒童健康

      專家揭秘干細(xì)胞回輸?shù)陌踩L(fēng)險(xiǎn)

      藝術(shù)要聞

      19位當(dāng)代畫家油畫作品欣賞

      從全網(wǎng)嘲到全網(wǎng)夸,魯豫到底經(jīng)歷了什么?

      房產(chǎn)要聞

      老黃埔熱銷之下,珠江春,為何去化僅3成?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 免费看国产成年无码AV片| 99久久精品费精品国产一区二| 亚洲欧美日韩三区| 成人午夜天| 中文字幕亚洲欧美专区| 亚洲国产午夜理论片不卡| 日韩av一区二区三区精品| avav免费入口| 中文字幕奈奈美被公侵犯| 肉大捧一进一出免费视频| 亚洲国产精品羞羞| 国产福利视频一区二区| 天天撸影院| 一本无码字幕在线少妇| 国产爽视频一区二区三区| 久久精品丰满少妇免费| 中文字幕人妻系列人妻?无码| 欧美久久精品一级c片免费| 亚洲大乳高潮日本专区| 人妻一本久道久久综合鬼色| 亚洲成人在线黄网| 麻豆蜜桃在线| 国产一区二区精品久久| 国产成人免费高清激情明星| 自拍av一区| 天堂网www在线资源| 国产精品无码不卡一区二区三区| 亚洲色成人网站www永久男男| 国产精品 日韩精品| 国产亚洲精品久久久久四川人| 亚洲国产精品日韩专区av| 亚洲精品成人无码AV在线| 女人下边被添全过视频的网址| 亚洲视频中文字幕| 精品一区二区三区无码免费直播| 熟妇人妻中文字幕| 桃色综合网站| 国产caonila在线观看| 国内精品久久久久影视日本| 国产精品福利自产拍在线观看| 国产91午夜福利精品|