![]()
高度依賴擴(kuò)散模型的圖像生成范式,正在被重新審視。
作者丨陳淑瑜
編輯丨岑 峰
2025 年到 2026 年,如果要問生成式 AI 領(lǐng)域最值得關(guān)注的研究方向,流匹配(Flow Matching) 是一個(gè)無法繞開的答案。
從去年起,這個(gè)名字開始頻繁出現(xiàn)在頂會(huì)論文里、被工業(yè)界反復(fù)討論、被拿來和統(tǒng)治了圖像生成領(lǐng)域長(zhǎng)達(dá)五年的擴(kuò)散模型正面比較。
所謂流匹配,本質(zhì)上是用常微分方程路徑(ODE path)替代擴(kuò)散模型的隨機(jī)微分方程路徑,讓數(shù)據(jù)從噪聲到圖像的轉(zhuǎn)變不再依賴數(shù)百步迭代,從而在理論上實(shí)現(xiàn)更高效的生成。但從理論可行到工程落地,中間隔著無數(shù)技術(shù)細(xì)節(jié)——訓(xùn)練目標(biāo)怎么設(shè)計(jì)、架構(gòu)怎么選、速度和質(zhì)量如何兼顧,每一步都是坑。
何愷明團(tuán)隊(duì)正是在這個(gè)節(jié)點(diǎn)上,密集地交出了一份多角度的答卷。
AI科技評(píng)論總結(jié)了何愷明團(tuán)隊(duì)近期在CVPR大會(huì)上發(fā)表上的論文: 2025 年 5 月,他們提出了均值流(MeanFlow),首次將"均值速度場(chǎng)"引入生成建模;同年年底,BiFlow 在歸一化流框架上實(shí)現(xiàn)了 700 倍加速,將 FID 推到 2.39;幾乎同一時(shí)間,Improved MeanFlow(iMF)則以三個(gè)系統(tǒng)性修復(fù)將單步 FID 降至 1.72,首次在無蒸餾條件下超越所有蒸餾方法。
生成模型之外,團(tuán)隊(duì)在視覺推理(VARC,CVPR 2026)和自監(jiān)督學(xué)習(xí)(Pixo,CVPR 2026)上也同時(shí)出擊,共同勾勒出一個(gè)清晰的戰(zhàn)略意圖:擴(kuò)散模型并不是圖像生成的終點(diǎn),流匹配這條路,值得全力押注。
這五篇論文之間沒有直接的方法傳承,方向各有側(cè)重,但貫穿其中的核心問題始終如一:在每一個(gè)被默認(rèn)的技術(shù)選擇背后,到底藏著多少被低估的優(yōu)化空間?
01
讓"去噪"模型真正做一次去噪
理解 JiT 的工作,需要從擴(kuò)散模型一個(gè)被忽視已久的痛點(diǎn)說起。
當(dāng)前的擴(kuò)散模型在訓(xùn)練時(shí),網(wǎng)絡(luò)學(xué)習(xí)預(yù)測(cè)的目標(biāo)是噪聲 ε 或速度 v,而非干凈圖像 x。
這個(gè)細(xì)節(jié)在大多數(shù)論文里被一筆帶過,但它有一個(gè)容易被忽視的含義:噪聲和速度并不在自然圖像的流形上。用大白話說,網(wǎng)絡(luò)在試圖預(yù)測(cè)一個(gè)"不屬于這個(gè)世界"的東西——它不在圖像分布內(nèi),是離群的量。這種預(yù)測(cè)天然地不穩(wěn)定,網(wǎng)絡(luò)需要額外的表達(dá)能力來處理那些本不應(yīng)該出現(xiàn)在預(yù)測(cè)目標(biāo)里的高維噪聲。
也就是說,預(yù)測(cè)噪聲和預(yù)測(cè)干凈圖區(qū)別很大。
![]()
流形示意圖
JiT 的核心洞察正是從這里切入的。既然 x(干凈圖像)在圖像流形上,那就讓網(wǎng)絡(luò)直接預(yù)測(cè) x。直覺上這是一個(gè)退步——流形外的東西更難預(yù)測(cè),流形內(nèi)的東西反而應(yīng)該更容易。但團(tuán)隊(duì)指出,這個(gè)邏輯在擴(kuò)散模型里是反的:噪聲 ε 分布在高維空間,目標(biāo)分布極廣,網(wǎng)絡(luò)需要一個(gè)很強(qiáng)的先驗(yàn)來"猜測(cè)"噪聲的真實(shí)值;而 x 就在流形上,是網(wǎng)絡(luò)見過的、理解的、可以自然逼近的東西。
為了讓這個(gè)樸素的想法在工程上成立,JiT 采用了標(biāo)準(zhǔn) Vision Transformer,但做了一個(gè)看似大膽的調(diào)整:patch 尺寸可以非常大——16×16、32×32 甚至 64×64,而不像標(biāo)準(zhǔn)擴(kuò)散模型那樣在高分辨率下被迫使用極小的 patch。
原因在于:x 在流形上,網(wǎng)絡(luò)不需要處理流形外的高維噪聲干擾,因此 patch 大小的增加不會(huì)導(dǎo)致信息缺失,也沒有帶來災(zāi)難性的效果退化。
這是一種返璞歸真,直接預(yù)測(cè)目標(biāo)圖像,對(duì)傳統(tǒng)認(rèn)知發(fā)起了一次直接挑戰(zhàn).
![]()
JiT模型生成的圖像樣本
JiT 還完全去掉了 VAE Tokenizer,不需要預(yù)訓(xùn)練的潛空間,不需要 GAN 損失或感知損失,就是最樸素的 Transformer 在像素上做去噪。模型規(guī)模 86M 參數(shù),從 256 到 1024 分辨率,計(jì)算量幾乎不變——只需要調(diào)整 patch 大小。這意味著一個(gè)原生模型可以在任意分辨率上生成,而不需要借助潛空間的壓縮-解壓機(jī)制。
最終結(jié)果在 ImageNet 512×512 上實(shí)現(xiàn)了 FID 1.78,且 JiT-G 版本在更高分辨率下依然保持了競(jìng)爭(zhēng)力的 FID。更值得關(guān)注的是,這個(gè)性能是在沒有任何蒸餾、沒有任何外部模型輔助的前提下從零訓(xùn)練得到的。
JiT 證明了"讓擴(kuò)散模型真正做去噪"這件事本身,就足以帶來顯著的質(zhì)量提升——不需要更多的工程技巧,只需要把預(yù)測(cè)目標(biāo)換回那個(gè)理所當(dāng)然卻被忽視了五年的選項(xiàng)。
![]()
論文鏈接:https://arxiv.org/abs/2511.13720
02
ARC:跳出語(yǔ)言模型的舒適圈
ARC是 AI 領(lǐng)域歷史最久的推理能力測(cè)試之一,包含數(shù)百個(gè)"視覺謎題",要求模型從少數(shù)示例中推斷規(guī)則并泛化到新樣本。物體對(duì)稱、重力方向、顏色連續(xù)性、反射變換——這些概念本質(zhì)上是對(duì)物理世界的抽象,本不應(yīng)該和語(yǔ)言有任何關(guān)系。
然而長(zhǎng)期以來,整個(gè)社區(qū)把 ARC 當(dāng)成了一個(gè)語(yǔ)言問題。GPT-4、Claude、Deepseek 幾乎都在 ARC 上刷過榜,原因是 ARC 的任務(wù)描述可以自然地翻譯成文字,語(yǔ)言模型恰好擅長(zhǎng)這類文字推理。這在工程上無可厚非,但它制造了一個(gè)隱性的假設(shè):視覺抽象推理,必須借助語(yǔ)言才能完成。
VARC 要挑戰(zhàn)的正是這個(gè)假設(shè)。
它把 ARC 任務(wù)重新建模為圖像到圖像的翻譯問題,用一個(gè)只有 18M 參數(shù)的 ViT 從頭訓(xùn)練,不依賴任何語(yǔ)言能力,在 ARC-1 上達(dá)到了單模型 54.5%、集成 60.4% 的準(zhǔn)確率。60.4% 是什么水平?人類平均水平是 60.2%,頂級(jí)大語(yǔ)言模型也在這個(gè)區(qū)間。
這意味著,一個(gè)參數(shù)量只有頂級(jí) LLM 幾千分之一的純視覺模型,在視覺推理任務(wù)上達(dá)到了與人類相當(dāng)?shù)乃健?/strong>
VARC框架的實(shí)現(xiàn)路徑也非常直接,沒有把輸入網(wǎng)格直接 token 化,而是使用了“畫布”,將網(wǎng)格嵌入到一個(gè)足夠大的預(yù)定義畫布(32×32)上,背景用第 11 種顏色填充。然后像處理一張普通圖片一樣,被ViT模型進(jìn)行端到端的處理。
這帶來一個(gè)關(guān)鍵效果:token 數(shù)量從有限的網(wǎng)格大小擴(kuò)展到了更大的空間,讓 ViT 的注意力機(jī)制有了充足的施展余地,能夠捕捉遠(yuǎn)程的視覺關(guān)系。
![]()
WARC的畫布
另外,測(cè)試時(shí)訓(xùn)練(TTT)在推理階段利用測(cè)試任務(wù)的少量示例做快速微調(diào),是性能逼近人類水平的關(guān)鍵——模型不是"記住"了 ARC 的規(guī)則,而是在看到新任務(wù)時(shí)快速學(xué)習(xí)規(guī)則本身。
VARC 的出現(xiàn)給整個(gè) ARC 社區(qū)潑了一盆冷水:大家花了大量工程資源在語(yǔ)言模型上刷榜,卻忽視了純視覺方法在這個(gè)任務(wù)上的潛力。
這個(gè)潛力的釋放需要兩個(gè)條件:一個(gè)足夠大的視覺畫布,以及一個(gè)讓模型在推理時(shí)繼續(xù)學(xué)習(xí)的機(jī)制。一旦這兩個(gè)條件被滿足,視覺推理不需要語(yǔ)言模型這件事,變得異常清晰。
![]()
論文鏈接: https://arxiv.org/abs/2511.14761
03
突破歸一化流限制,圖像單步生成加速
歸一化流是生成式建模中歷史最悠久的框架之一。它最大的理論優(yōu)勢(shì)是可以用精確的數(shù)學(xué)形式同時(shí)完成生成和似然估計(jì),訓(xùn)練過程透明、可解釋,不像擴(kuò)散模型那樣依賴多次采樣來近似對(duì)數(shù)似然。但長(zhǎng)期以來,它在性能上被擴(kuò)散模型壓得喘不過氣來。
原因出在兩個(gè)結(jié)構(gòu)性約束上。
第一,傳統(tǒng)歸一化流為了保證前向變換的精確可逆性,必須采用受限的網(wǎng)絡(luò)架構(gòu),無法使用 Transformer 等更強(qiáng)大的序列模型。
第二,逆向過程依賴自回歸因果解碼,每一步必須順序計(jì)算,無法并行,生成一張圖的時(shí)間成本極高。這兩個(gè)約束幾乎從根子上限制了歸一化流在大規(guī)模圖像生成上的競(jìng)爭(zhēng)力。
BiFlow 的解題思路初看有些反直覺:逆向過程不需要是前向過程的精確逆。
前向過程保持可逆,這是數(shù)學(xué)上的保證,確保分布映射的準(zhǔn)確性不受損害;但逆向過程單獨(dú)訓(xùn)練一個(gè)獨(dú)立的模型來近似逆映射,不要求它在數(shù)學(xué)上等于前向的解析逆。這個(gè)"放棄精確逆"帶來了一個(gè)巨大的解放:逆向過程可以使用完全并行的 Transformer 架構(gòu),實(shí)現(xiàn)真正的單步生成,不再受自回歸解碼的順序瓶頸約束。
但這還不夠。逆向模型單獨(dú)訓(xùn)練,意味著它學(xué)到的表示空間可能與前向過程完全不同——兩者可能在不同的隱空間里各說各話。
BiFlow 引入了隱藏層對(duì)齊機(jī)制,利用前向過程的中間狀態(tài)軌跡監(jiān)督逆向模型,確保兩者在表示空間中對(duì)齊,防止逆向模型"跑偏"。對(duì)齊之后,逆向模型既能受益于 Transformer 的強(qiáng)大表達(dá)能力,又能保持前向過程的分布結(jié)構(gòu)完整。
![]()
標(biāo)準(zhǔn)化流與BiFlow的概念對(duì)比
最終結(jié)果在 ImageNet 256×256 上實(shí)現(xiàn)了 FID 2.39,這是歸一化流方法的歷史新紀(jì)錄。但更有沖擊力的是速度數(shù)據(jù):單張圖像生成時(shí)間從 TARFlow 的 0.7 秒縮短到 0.001 秒,加速約 700 倍。
![]()
BiFlow與SOTA流模型的效率對(duì)比
這不再是理論推演,而是一個(gè)可以直接在工程中落地的效率躍遷。歸一化流長(zhǎng)期被視為"理論上優(yōu)美、工程上雞肋"的框架,BiFlow 至少把后半句的錯(cuò)誤認(rèn)知打破了。
![]()
論文地址:https://arxiv.org/abs/2512.10953
04
快進(jìn)生成,無需蒸餾
如果說 BiFlow 是把歸一化流從困境中拉了出來,那么 iMF(Improved Mean Flows)的目標(biāo)更徹底:把"快進(jìn)生成"這條路的瓶頸徹底打通。
"快進(jìn)生成"的核心目標(biāo)是讓擴(kuò)散模型用 1 步而不是 250 步完成圖像生成。此前的工業(yè)界解法幾乎都依賴蒸餾——用一個(gè)大而慢的擴(kuò)散模型作為"教師",訓(xùn)練一個(gè)小的"學(xué)生"在 1-2 步內(nèi)近似教師的輸出。蒸餾效果不錯(cuò),但代價(jià)也明顯:訓(xùn)練流程極其復(fù)雜,學(xué)生的性能上限被教師鎖死,一旦教師本身有缺陷,學(xué)生無論如何都超不過去。
何愷明團(tuán)隊(duì)在 2025 年 5 月提出了均值流(MeanFlow),首次將"均值速度場(chǎng)"引入生成建模,目標(biāo)是實(shí)現(xiàn)真正的單步高質(zhì)量生成。方向正確,但初代 MF 有三個(gè)系統(tǒng)性的訓(xùn)練缺陷,導(dǎo)致最終性能距離當(dāng)時(shí)的 SOTA 有明顯差距。ImageNet 256×256 的 FID 停留在 3.43,而最好的擴(kuò)散模型已經(jīng)在 1.x 徘徊了。
第一個(gè)缺陷是訓(xùn)練目標(biāo)的"自依賴"。MF 的訓(xùn)練目標(biāo)是"平均速度損失"(u-loss),目標(biāo)函數(shù)里包含了一個(gè)由網(wǎng)絡(luò)自身輸出推導(dǎo)出的項(xiàng)——這就好比讓一個(gè)人預(yù)測(cè)"自己說的話會(huì)造成什么后果",優(yōu)化器在閉環(huán)里反復(fù)震蕩,訓(xùn)練方差極大,收斂不徹底。
第二個(gè)缺陷是引導(dǎo)機(jī)制的"死板"。無分類器引導(dǎo)(CFG)是提升生成質(zhì)量的關(guān)鍵技術(shù),但 MF 訓(xùn)練時(shí)把 CFG 強(qiáng)度固定了,推理時(shí)用戶無法調(diào)節(jié)質(zhì)量-多樣性的權(quán)衡——這等于剝奪了生成器最重要的一個(gè)調(diào)參手段。
第三個(gè)缺陷是架構(gòu)效率的"肥胖"。MF 依賴的 adaLN-zero 機(jī)制在處理多條件(時(shí)間步 t、類別標(biāo)簽 c、CFG 強(qiáng)度 ω)時(shí)把所有條件向量簡(jiǎn)單求和,條件多了之后互相干擾,參數(shù)利用率極低。
iMF 成功解決了這三個(gè)缺陷目標(biāo),通過將訓(xùn)練目標(biāo)重新表述為更穩(wěn)定的瞬時(shí)速度損失,同時(shí)引入靈活的無分類器指導(dǎo)(CFG)和高效的上下文內(nèi)條件作用,大幅提升了模型性能。
![]()
論文鏈接: https://arxiv.org/abs/2512.02012
針對(duì)訓(xùn)練目標(biāo),iMF 利用 MeanFlow 的數(shù)學(xué)恒等式,將平均速度損失(u-loss)等價(jià)轉(zhuǎn)換為瞬時(shí)速度損失(v-loss)。瞬時(shí)速度 v 等于網(wǎng)絡(luò)在 t 時(shí)刻的瞬時(shí)導(dǎo)數(shù),它的特點(diǎn)是:目標(biāo) v 與網(wǎng)絡(luò)自身的輸出完全無關(guān),是一個(gè)純粹的標(biāo)準(zhǔn)回歸問題。這個(gè)看似簡(jiǎn)單的數(shù)學(xué)變換,把 MF 訓(xùn)練不穩(wěn)定的根因直接消除了。
針對(duì) CFG 靈活性,iMF 把 CFG 強(qiáng)度 ω、引導(dǎo)區(qū)間 t_min 和 t_max 一起編碼為顯式的條件變量作為額外輸入傳入網(wǎng)絡(luò)。訓(xùn)練時(shí)從冪分布中隨機(jī)采樣不同引導(dǎo)強(qiáng)度,讓網(wǎng)絡(luò)學(xué)習(xí)不同 CFG 強(qiáng)度下的速度場(chǎng)分布;推理時(shí),用戶可以自由調(diào)節(jié) CFG 強(qiáng)度,就像使用普通擴(kuò)散模型一樣自然。這個(gè)設(shè)計(jì)讓 iMF 支持了 CFG 區(qū)間控制——只有當(dāng) t 落在某個(gè)區(qū)間內(nèi)時(shí)才啟用引導(dǎo),超出區(qū)間自動(dòng)關(guān)閉,給了研究者更多調(diào)控手段。
針對(duì)架構(gòu)效率,iMF 摒棄了把條件向量求和的粗暴做法,轉(zhuǎn)而將每類條件轉(zhuǎn)化為多個(gè)可學(xué)習(xí)的 token,類別 8 個(gè)、時(shí)間步 4 個(gè)、CFG 強(qiáng)度 4 個(gè)、引導(dǎo)區(qū)間 4 個(gè),與圖像 latent token 沿序列維度拼接后聯(lián)合處理。Base 模型參數(shù)從 133M 降至 89M,減少了三分之一,同時(shí) FID 反而改善。
![]()
iMF 和MF對(duì)比圖
三條改進(jìn)的效果是疊加的。iMF 的消融鏈路清晰地記錄了每一步的貢獻(xiàn):原 MF 基線 6.17 FID → v-loss 替換 5.68 → 靈活 CFG 4.57 → 多 token 條件 4.09 → Transformer 架構(gòu)改進(jìn) 3.39 → 640 epoch 長(zhǎng)訓(xùn)練 1.72。每一步都有據(jù)可查,每一步的改善都可以歸因到具體的修改點(diǎn)。
最終 iMF-XL/2 實(shí)現(xiàn)了 1-NFE FID 1.72,且這是從零訓(xùn)練、不依賴任何蒸餾取得的成績(jī)。iMF 的 FID 優(yōu)于所有依賴蒸餾的單步生成方法,包括 FACM-XL/2(蒸餾,F(xiàn)ID 1.76)和 DMF-XL/2+(蒸餾,F(xiàn)ID 2.16)。擴(kuò)散模型領(lǐng)域的一個(gè)默認(rèn)假設(shè)被打破了:高質(zhì)量單步生成,不需要蒸餾。
更值得關(guān)注的是 2-NFE 時(shí) iMF 的 FID 降至 1.54,已經(jīng)非常接近主流多步擴(kuò)散的水平(SiT-XL/2+REPA 為 1.42 @ 數(shù)百步)。單步模型與多步模型的性能差距,第一次縮小到了這個(gè)量級(jí)。
05
像素監(jiān)督:從邊緣到正面競(jìng)爭(zhēng)
自監(jiān)督視覺預(yù)訓(xùn)練領(lǐng)域近年來有一個(gè)明顯的主流敘事:像素空間已經(jīng)過時(shí),潛空間才是未來。
DINOv3 是這個(gè)方向的代表——將圖像通過 VAE Tokenizer 壓縮到低維潛空間,再進(jìn)行對(duì)比學(xué)習(xí),在多項(xiàng)視覺任務(wù)上達(dá)到了 SOTA,逐漸被視為"正確答案"。
這個(gè)敘事的隱含前提是:在大規(guī)模訓(xùn)練場(chǎng)景下,像素級(jí)自監(jiān)督天然不如潛空間方法,因?yàn)橄袼乜臻g的高維、冗余、多噪聲特性讓學(xué)習(xí)效率更低。
Pixo(pixel supervision) 要檢驗(yàn)的正是這個(gè)前提。
MAE 已經(jīng)證明,像素空間的掩碼自編碼器在大規(guī)模訓(xùn)練下是一個(gè)簡(jiǎn)單而高效的選擇。Pixo 則把這個(gè)思路推向極致:在 20 億張網(wǎng)絡(luò)爬取圖像上,系統(tǒng)性地探索像素監(jiān)督的上限,并在預(yù)訓(xùn)練任務(wù)、模型架構(gòu)和訓(xùn)練策略三個(gè)層面對(duì) MAE 做了全面增強(qiáng)。預(yù)訓(xùn)練任務(wù)設(shè)計(jì)得更具挑戰(zhàn)性,架構(gòu)針對(duì)大規(guī)模高效訓(xùn)練做了優(yōu)化,訓(xùn)練策略引入了自篩選機(jī)制自動(dòng)過濾低質(zhì)量數(shù)據(jù),最小化人工干預(yù)。
![]()
Pixio 對(duì) MAE 進(jìn)行的關(guān)鍵更新
結(jié)果沒有出現(xiàn)預(yù)期的"像素完敗"局面。在深度估計(jì)、前饋 3D 重建、語(yǔ)義分割、機(jī)器人操控等多個(gè)下游任務(wù)上,Pixo 與 DINOv3 正面競(jìng)爭(zhēng),各有勝負(fù)。
這意味著像素監(jiān)督在大規(guī)模場(chǎng)景下并非不如潛空間方法,只是需要更強(qiáng)的任務(wù)設(shè)計(jì)、更大規(guī)模的優(yōu)質(zhì)數(shù)據(jù)和更精細(xì)的訓(xùn)練策略。
兩種范式各有其適合的場(chǎng)景:像素監(jiān)督在需要保留完整視覺細(xì)節(jié)的任務(wù)上可能更有優(yōu)勢(shì),而潛空間方法在語(yǔ)義理解類任務(wù)上更占優(yōu)。
兩種范式的競(jìng)爭(zhēng)才剛剛開始,Pixo 的價(jià)值在于證明了像素監(jiān)督的邊界還遠(yuǎn)未到達(dá)——在 20 億規(guī)模的數(shù)據(jù)上,它依然是一個(gè)有力的競(jìng)爭(zhēng)者,而非被淘汰的遺產(chǎn)。
![]()
論文鏈接: https://arxiv.org/abs/2512.15715
06
結(jié)語(yǔ)
盤點(diǎn)完何愷明近期的五篇論文,一個(gè)值得深思的問題浮現(xiàn)出來:擴(kuò)散模型統(tǒng)治圖像生成五年,這個(gè)"統(tǒng)治"到底有多扎實(shí)?
歸一化流在效率上的結(jié)構(gòu)性缺陷,是可以通過放棄"精確逆"來修復(fù)的;
擴(kuò)散模型的訓(xùn)練目標(biāo)不穩(wěn)定,是可以通過換掉噪聲預(yù)測(cè)目標(biāo)來改善的;
單步生成必須依賴蒸餾的假設(shè),是被 iMF 用從零訓(xùn)練的 FID 1.72 直接打破的。
甚至在視覺推理和自監(jiān)督學(xué)習(xí)領(lǐng)域,何愷明團(tuán)隊(duì)也在用最小化的視覺架構(gòu)挑戰(zhàn)語(yǔ)言模型的傳統(tǒng)領(lǐng)地,而且贏了。他們不是在已有的游戲規(guī)則里優(yōu)化指標(biāo),而是在重新定義問題本身的前提。他們用返璞歸真的方式、"大道至簡(jiǎn)"的風(fēng)格提出新的思路,這些思路對(duì)于傳統(tǒng)方案來說,是顛覆性的改變。
同時(shí),這五篇論文也反映了他們一個(gè)連貫的戰(zhàn)略判斷。擴(kuò)散模型不是終點(diǎn),而是某個(gè)更高效范式出現(xiàn)之前的過渡階段。流匹配是他們的答案,iMF 和 BiFlow 是這個(gè)答案最有力的支撐。他們從底層基礎(chǔ)(歸一化、去噪目標(biāo)函數(shù)、流模型設(shè)計(jì))出發(fā),重構(gòu)視覺生成與理解的理論框架。
接下來的問題是,這個(gè)判斷會(huì)不會(huì)在 2026 年成為整個(gè)生成式 AI 領(lǐng)域的共識(shí)——而這一次,何愷明的團(tuán)隊(duì)已經(jīng)把路標(biāo)立好了。
這次去 CVPR 現(xiàn)場(chǎng),一定不要錯(cuò)過
【認(rèn)識(shí)大牛+賺外快】的機(jī)會(huì)
需要你做什么:把你最關(guān)注的10個(gè)大會(huì)報(bào)告,每頁(yè)P(yáng)PT都拍下來
你能獲得什么?
認(rèn)識(shí)大牛:你將可以進(jìn)入CVPR名師博士社群;
錢多活少:提供豐厚獎(jiǎng)金,任務(wù)量精簡(jiǎn);
聽會(huì)自由:你的行程你做主,順手就把外快賺。拍下你最感興趣的10個(gè)報(bào)告PPT即可。
如果你即將前往CVPR,想邊聽會(huì)邊賺錢,還能順便為AI學(xué)術(shù)社區(qū)做貢獻(xiàn)、認(rèn)識(shí)更多大牛,歡迎聯(lián)系我們:[添加微信號(hào):MS_Yahei]
【限額5位,先到先得】
未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.