![]()
編輯|Panda
AI 圖像生成通常遵循「能力越強(qiáng)、代價(jià)越高」的鐵律;與此同時(shí),學(xué)界卻在悄悄質(zhì)疑另一個(gè)更根本的浪費(fèi):傳統(tǒng) VAE 對(duì)圖像語(yǔ)義幾乎一無(wú)所知,而 DINOv2、SigLIP 等視覺(jué)編碼器早已從數(shù)億張圖片中習(xí)得了豐富的視覺(jué)常識(shí)。圖像生成模型,真的需要從零開(kāi)始「發(fā)明」對(duì)圖像的理解嗎?
2025 年 10 月,紐約大學(xué)謝賽寧團(tuán)隊(duì)提出了「表征自編碼器(Representation Autoencoder,RAE)」框架,首次系統(tǒng)性地將預(yù)訓(xùn)練視覺(jué)編碼器引入擴(kuò)散模型的潛在空間。參閱我們的報(bào)道《VAE 時(shí)代終結(jié)?謝賽寧團(tuán)隊(duì)「RAE」登場(chǎng),表征自編碼器或成 DiT 訓(xùn)練新基石》。
這項(xiàng)成果在學(xué)界引發(fā)強(qiáng)烈反響,但同時(shí)也暴露出三個(gè)阻礙實(shí)用落地的核心問(wèn)題:重建質(zhì)量不如專(zhuān)用 VAE、無(wú)法配合傳統(tǒng)引導(dǎo)機(jī)制、訓(xùn)練收斂極慢。
五個(gè)月后,同一團(tuán)隊(duì)攜手 Adobe Research 與澳大利亞國(guó)立大學(xué),帶來(lái)了全面改進(jìn)的RAEv2
![]()
- 論文標(biāo)題:Improved Baselines with Representation Autoencoders
- 論文地址:https://arxiv.org/abs/2605.18324v1
- 項(xiàng)目頁(yè)面:https://raev2.github.io
為什么 VAE 是瓶頸?
要理解這項(xiàng)工作的意義,先要理解 VAE 是什么,以及它為什么開(kāi)始成為瓶頸。
想象一家大型圖書(shū)館。圖書(shū)館的索引系統(tǒng)(VAE 編碼器)負(fù)責(zé)將每一本書(shū)壓縮成一張卡片,存入一個(gè)巨大的卡片柜(潛在空間)。擴(kuò)散模型在這個(gè)卡片柜里工作:從一堆雜亂的卡片出發(fā),一步步「去噪」,最終還原出一張清晰的卡片,再由解碼器將卡片還原成完整的書(shū)。
問(wèn)題在于傳統(tǒng)的索引卡片(VAE 潛在空間)記錄的是書(shū)的物理特征,比如厚度、顏色、字體大小。但模型真正需要的,是書(shū)的內(nèi)容和含義。擴(kuò)散模型每次從噪聲出發(fā),都要自己重新學(xué)會(huì)「這是一只貓」、「這是一棵樹(shù)」,效率極低。
預(yù)訓(xùn)練視覺(jué)編碼器(DINOv2 等)則截然不同。它們的索引卡片記錄的是語(yǔ)義:這本書(shū)講的是什么主題、出現(xiàn)了哪些人物、場(chǎng)景的空間結(jié)構(gòu)如何。如果擴(kuò)散模型能在這樣的潛在空間里工作,就相當(dāng)于站在了巨人的肩膀上,不需要重復(fù)學(xué)習(xí)「視覺(jué)常識(shí)」。
RAE 正是這樣的系統(tǒng):以預(yù)訓(xùn)練編碼器為圖書(shū)館的索引系統(tǒng),訓(xùn)練一個(gè)解碼器來(lái)還原圖像。但第一代 RAE 的問(wèn)題,是這套索引卡片只記錄了「書(shū)的最后一章摘要」,丟失了大量中間層的細(xì)節(jié)信息。
三個(gè)洞察,一次系統(tǒng)性升級(jí)
RAEv2 的工作核心是三個(gè)獨(dú)立但相互支撐的技術(shù)洞察。
洞察一:最后一層不是全部。
原始 RAE 直接使用視覺(jué)編碼器最后一層的輸出作為潛在表征。但預(yù)訓(xùn)練編碼器的知識(shí)并非只集中在最后一層 —— 就像一個(gè)專(zhuān)家的完整知識(shí)體系,不只存在于他最后的結(jié)論里,也分布在他的推理過(guò)程中。
RAEv2 提出了一個(gè)極其簡(jiǎn)潔的解法:將編碼器最后 K 層的特征直接相加,作為潛在表征。這個(gè)操作不引入任何新參數(shù),不需要額外訓(xùn)練數(shù)據(jù)(比如文字或人臉),卻讓圖像重建質(zhì)量產(chǎn)生了質(zhì)的飛躍。當(dāng) K 從 1(原始 RAE)增加到 23(全部層)時(shí),重建誤差(rFID)從 0.60 驟降至 0.18,峰值信噪比從 18.93 dB 提升至 27.03 dB。
![]()
洞察二:RAE 和 REPA 其實(shí)是互補(bǔ)的,不是競(jìng)爭(zhēng)關(guān)系。
這是整篇論文最出人意料的發(fā)現(xiàn)。
學(xué)界此前普遍認(rèn)為:既然 RAE 已經(jīng)把預(yù)訓(xùn)練編碼器的特征直接用作潛在空間,就沒(méi)必要再用 REPA(表征對(duì)齊損失,將同一批編碼器特征蒸餾到擴(kuò)散模型的中間層)—— 那不是多此一舉,讓同一個(gè)信號(hào)走兩條路嗎?
研究團(tuán)隊(duì)橫跨 27 種視覺(jué)編碼器進(jìn)行了大規(guī)模實(shí)驗(yàn),結(jié)果令人驚訝:無(wú)論哪種編碼器,REPA 和 RAE 同時(shí)使用時(shí),效果都優(yōu)于單獨(dú)使用任一方。
![]()
更有趣的是,兩者改善的是不同維度。RAE 提供的是「全局語(yǔ)義」,比如模型知道圖里有只貓;REPA 提供的是「空間結(jié)構(gòu)」,比如模型知道貓?jiān)趫D像左上角、眼睛在鼻子上方。前者對(duì)應(yīng)語(yǔ)義信息(用線性探針準(zhǔn)確率 LP 衡量),后者對(duì)應(yīng)空間自相似性(用 LDS 衡量)。在 27 個(gè)編碼器的相關(guān)性分析中,這一互補(bǔ)機(jī)制得到了嚴(yán)格統(tǒng)計(jì)驗(yàn)證,皮爾遜相關(guān)系數(shù)分別達(dá)到 -0.81(RAE 依賴(lài) LP)和 -0.89(REPA 依賴(lài) LDS)。
這一發(fā)現(xiàn)還解釋了為什么更強(qiáng)的編碼器 DINOv3-L,在第一代 RAE 里反而表現(xiàn)不如 DINOv2-B;因?yàn)樵?RAE 只利用了語(yǔ)義維度,而 DINOv3-L 的優(yōu)勢(shì)恰恰在于兩個(gè)維度都強(qiáng),RAE+REPA 才能充分發(fā)揮它的潛力。
![]()
洞察三:「引導(dǎo)」其實(shí)一直藏在模型里。
這是最優(yōu)雅的一個(gè)技術(shù)貢獻(xiàn)。
圖像生成模型在推理時(shí),通常需要一種叫做「引導(dǎo)」(Guidance)的機(jī)制來(lái)提升圖像質(zhì)量 —— 本質(zhì)是讓模型在「有條件」和「無(wú)條件」兩個(gè)狀態(tài)之間做差值,從而強(qiáng)化目標(biāo)特征。原始 RAE 無(wú)法使用標(biāo)準(zhǔn)的分類(lèi)器自由引導(dǎo)(CFG),只能訓(xùn)練一個(gè)額外的「弱版擴(kuò)散模型」來(lái)充當(dāng)引導(dǎo)基線(AutoGuidance),這不僅增加了訓(xùn)練成本,推理時(shí)也需要額外一次前向計(jì)算。
![]()
RAEv2 觀察到一個(gè)關(guān)鍵性質(zhì):REPA 在 RAE 框架下,本質(zhì)上是在做「x 預(yù)測(cè)」(預(yù)測(cè)干凈的圖像表征),而 REPA 頭只能訪問(wèn)模型的淺層特征,天然是一個(gè)「更弱的版本」。將主模型輸出也改寫(xiě)為 x 預(yù)測(cè)格式,就可以直接用 REPA 頭作為引導(dǎo)基線。這樣就無(wú)需額外訓(xùn)練任何模型,無(wú)需額外前向計(jì)算,引導(dǎo)完全「免費(fèi)」。
RAEv2 的表現(xiàn)如何?
三個(gè)洞察組合在一起,形成了 RAEv2,帶來(lái)了可量化的全面改進(jìn)。
在圖像生成質(zhì)量(ImageNet-256,以 gFID 衡量,越低越好)上,RAEv2 在僅 80 個(gè)訓(xùn)練 epoch 后達(dá)到 1.06。
![]()
![]()
以 FDr?這一更嚴(yán)格的評(píng)估指標(biāo)衡量,RAEv2 以 80 epoch 達(dá)到 2.17,超越了原始 RAE 的最佳成績(jī) 3.26—— 后者需要十倍訓(xùn)練時(shí)長(zhǎng)且依賴(lài)后處理。
![]()
研究團(tuán)隊(duì)為此引入了一個(gè)新的效率指標(biāo):EPFID@k,即「達(dá)到無(wú)引導(dǎo) gFID ≤ k 所需的訓(xùn)練 epoch 數(shù)」。這個(gè)指標(biāo)的意義在于:絕對(duì) gFID 數(shù)值的微小差異在實(shí)際應(yīng)用中幾乎感知不到,但訓(xùn)練效率的差異直接決定了誰(shuí)能更快迭代、更低成本實(shí)驗(yàn)。
RAE 的 EPFID@2 為 177 epoch,RAEv2 將其壓縮到了 35 epoch—— 收斂速度超過(guò) 5 倍,若與早期方法比較則達(dá) 10 倍以上。
![]()
在計(jì)算成本上,RAEv2 保持與第一代 RAE 完全相同的 189 GFLOPs,而 FLUX.1 等頂級(jí)商業(yè)模型需要 448 GFLOPs。以不到一半的算力,達(dá)到超越所有同類(lèi)系統(tǒng)的生成質(zhì)量。這是 RAEv2 最直接的工程價(jià)值。
在重建質(zhì)量上,盡管只在 ImageNet 上訓(xùn)練,RAEv2 的還原效果已可與 FLUX VAE、SDXL-VAE 等在大規(guī)模多樣化數(shù)據(jù)集上訓(xùn)練的專(zhuān)有模型相媲美。
![]()
超越圖像分類(lèi):更廣的適用性
RAEv2 并未局限于 ImageNet 實(shí)驗(yàn)。論文還驗(yàn)證了其在兩個(gè)方向上的泛化能力。
在文本生圖方向,使用 SigLIP-2 作為編碼器的 RAEv2,在文本生圖基準(zhǔn)上展現(xiàn)出與 ImageNet 實(shí)驗(yàn)一致的改進(jìn)趨勢(shì),收斂速度顯著快于基于 VAE 的對(duì)比方法。
![]()
在導(dǎo)航世界模型方向 —— 即 AI 通過(guò)視覺(jué)預(yù)測(cè)未來(lái)幀的任務(wù)場(chǎng)景 ——RAEv2 同樣帶來(lái)了一致的性能提升,證明這一框架并非專(zhuān)為圖像生成設(shè)計(jì)的特殊技巧,而是具有跨任務(wù)通用性的基礎(chǔ)方法。
![]()
一個(gè)更大的賭注
RAEv2 所指向的不只是「更快的圖像生成」。
在傳統(tǒng)的圖像 AI 體系里,「理解圖像」和「生成圖像」是兩條平行的軌道:前者用 DINOv2、CLIP 等判別式模型,后者用 Stable Diffusion、FLUX 等生成式模型,兩者共享的只有訓(xùn)練數(shù)據(jù),而非知識(shí)體系。
RAE 框架的核心賭注是把這兩條軌道合并。如果生成模型直接在視覺(jué)理解模型的語(yǔ)義空間里工作,那理解和生成就共享同一套「視覺(jué)語(yǔ)言」,未來(lái)的統(tǒng)一多模態(tài)模型將具備直接在生成的圖像潛在表征上進(jìn)行推理的能力。
從一個(gè)單純的「更快收斂」的工程改進(jìn)出發(fā),RAEv2 不經(jīng)意間指向了一個(gè)更宏觀的問(wèn)題:下一代多模態(tài) AI 是否應(yīng)當(dāng)從根本上統(tǒng)一「看」與「畫(huà)」的底層表征?
這個(gè)問(wèn)題,也許比 gFID 數(shù)字本身更值得關(guān)注。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.