網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

剛剛，謝賽寧團(tuán)隊(duì)放出第二代表征自編碼器

2026-05-21 11:15:28　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

編輯｜Panda

AI 圖像生成通常遵循「能力越強(qiáng)、代價(jià)越高」的鐵律；與此同時(shí)，學(xué)界卻在悄悄質(zhì)疑另一個(gè)更根本的浪費(fèi)：傳統(tǒng) VAE 對(duì)圖像語(yǔ)義幾乎一無(wú)所知，而 DINOv2、SigLIP 等視覺(jué)編碼器早已從數(shù)億張圖片中習(xí)得了豐富的視覺(jué)常識(shí)。圖像生成模型，真的需要從零開(kāi)始「發(fā)明」對(duì)圖像的理解嗎？

2025 年 10 月，紐約大學(xué)謝賽寧團(tuán)隊(duì)提出了「表征自編碼器（Representation Autoencoder，RAE）」框架，首次系統(tǒng)性地將預(yù)訓(xùn)練視覺(jué)編碼器引入擴(kuò)散模型的潛在空間。參閱我們的報(bào)道《VAE 時(shí)代終結(jié)？謝賽寧團(tuán)隊(duì)「RAE」登場(chǎng)，表征自編碼器或成 DiT 訓(xùn)練新基石》。

這項(xiàng)成果在學(xué)界引發(fā)強(qiáng)烈反響，但同時(shí)也暴露出三個(gè)阻礙實(shí)用落地的核心問(wèn)題：重建質(zhì)量不如專(zhuān)用 VAE、無(wú)法配合傳統(tǒng)引導(dǎo)機(jī)制、訓(xùn)練收斂極慢。

五個(gè)月后，同一團(tuán)隊(duì)攜手 Adobe Research 與澳大利亞國(guó)立大學(xué)，帶來(lái)了全面改進(jìn)的RAEv2

論文標(biāo)題：Improved Baselines with Representation Autoencoders
論文地址：https://arxiv.org/abs/2605.18324v1
項(xiàng)目頁(yè)面：https://raev2.github.io

為什么 VAE 是瓶頸？

要理解這項(xiàng)工作的意義，先要理解 VAE 是什么，以及它為什么開(kāi)始成為瓶頸。

想象一家大型圖書(shū)館。圖書(shū)館的索引系統(tǒng)（VAE 編碼器）負(fù)責(zé)將每一本書(shū)壓縮成一張卡片，存入一個(gè)巨大的卡片柜（潛在空間）。擴(kuò)散模型在這個(gè)卡片柜里工作：從一堆雜亂的卡片出發(fā)，一步步「去噪」，最終還原出一張清晰的卡片，再由解碼器將卡片還原成完整的書(shū)。

問(wèn)題在于傳統(tǒng)的索引卡片（VAE 潛在空間）記錄的是書(shū)的物理特征，比如厚度、顏色、字體大小。但模型真正需要的，是書(shū)的內(nèi)容和含義。擴(kuò)散模型每次從噪聲出發(fā)，都要自己重新學(xué)會(huì)「這是一只貓」、「這是一棵樹(shù)」，效率極低。

預(yù)訓(xùn)練視覺(jué)編碼器（DINOv2 等）則截然不同。它們的索引卡片記錄的是語(yǔ)義：這本書(shū)講的是什么主題、出現(xiàn)了哪些人物、場(chǎng)景的空間結(jié)構(gòu)如何。如果擴(kuò)散模型能在這樣的潛在空間里工作，就相當(dāng)于站在了巨人的肩膀上，不需要重復(fù)學(xué)習(xí)「視覺(jué)常識(shí)」。

RAE 正是這樣的系統(tǒng)：以預(yù)訓(xùn)練編碼器為圖書(shū)館的索引系統(tǒng)，訓(xùn)練一個(gè)解碼器來(lái)還原圖像。但第一代 RAE 的問(wèn)題，是這套索引卡片只記錄了「書(shū)的最后一章摘要」，丟失了大量中間層的細(xì)節(jié)信息。

三個(gè)洞察，一次系統(tǒng)性升級(jí)

RAEv2 的工作核心是三個(gè)獨(dú)立但相互支撐的技術(shù)洞察。

洞察一：最后一層不是全部。

原始 RAE 直接使用視覺(jué)編碼器最后一層的輸出作為潛在表征。但預(yù)訓(xùn)練編碼器的知識(shí)并非只集中在最后一層 —— 就像一個(gè)專(zhuān)家的完整知識(shí)體系，不只存在于他最后的結(jié)論里，也分布在他的推理過(guò)程中。

RAEv2 提出了一個(gè)極其簡(jiǎn)潔的解法：將編碼器最后 K 層的特征直接相加，作為潛在表征。這個(gè)操作不引入任何新參數(shù)，不需要額外訓(xùn)練數(shù)據(jù)（比如文字或人臉），卻讓圖像重建質(zhì)量產(chǎn)生了質(zhì)的飛躍。當(dāng) K 從 1（原始 RAE）增加到 23（全部層）時(shí)，重建誤差（rFID）從 0.60 驟降至 0.18，峰值信噪比從 18.93 dB 提升至 27.03 dB。

洞察二：RAE 和 REPA 其實(shí)是互補(bǔ)的，不是競(jìng)爭(zhēng)關(guān)系。

這是整篇論文最出人意料的發(fā)現(xiàn)。

學(xué)界此前普遍認(rèn)為：既然 RAE 已經(jīng)把預(yù)訓(xùn)練編碼器的特征直接用作潛在空間，就沒(méi)必要再用 REPA（表征對(duì)齊損失，將同一批編碼器特征蒸餾到擴(kuò)散模型的中間層）—— 那不是多此一舉，讓同一個(gè)信號(hào)走兩條路嗎？

研究團(tuán)隊(duì)橫跨 27 種視覺(jué)編碼器進(jìn)行了大規(guī)模實(shí)驗(yàn)，結(jié)果令人驚訝：無(wú)論哪種編碼器，REPA 和 RAE 同時(shí)使用時(shí)，效果都優(yōu)于單獨(dú)使用任一方。

更有趣的是，兩者改善的是不同維度。RAE 提供的是「全局語(yǔ)義」，比如模型知道圖里有只貓；REPA 提供的是「空間結(jié)構(gòu)」，比如模型知道貓?jiān)趫D像左上角、眼睛在鼻子上方。前者對(duì)應(yīng)語(yǔ)義信息（用線性探針準(zhǔn)確率 LP 衡量），后者對(duì)應(yīng)空間自相似性（用 LDS 衡量）。在 27 個(gè)編碼器的相關(guān)性分析中，這一互補(bǔ)機(jī)制得到了嚴(yán)格統(tǒng)計(jì)驗(yàn)證，皮爾遜相關(guān)系數(shù)分別達(dá)到 -0.81（RAE 依賴(lài) LP）和 -0.89（REPA 依賴(lài) LDS）。

這一發(fā)現(xiàn)還解釋了為什么更強(qiáng)的編碼器 DINOv3-L，在第一代 RAE 里反而表現(xiàn)不如 DINOv2-B；因?yàn)樵?RAE 只利用了語(yǔ)義維度，而 DINOv3-L 的優(yōu)勢(shì)恰恰在于兩個(gè)維度都強(qiáng)，RAE+REPA 才能充分發(fā)揮它的潛力。

洞察三：「引導(dǎo)」其實(shí)一直藏在模型里。

這是最優(yōu)雅的一個(gè)技術(shù)貢獻(xiàn)。

圖像生成模型在推理時(shí)，通常需要一種叫做「引導(dǎo)」（Guidance）的機(jī)制來(lái)提升圖像質(zhì)量 —— 本質(zhì)是讓模型在「有條件」和「無(wú)條件」兩個(gè)狀態(tài)之間做差值，從而強(qiáng)化目標(biāo)特征。原始 RAE 無(wú)法使用標(biāo)準(zhǔn)的分類(lèi)器自由引導(dǎo)（CFG），只能訓(xùn)練一個(gè)額外的「弱版擴(kuò)散模型」來(lái)充當(dāng)引導(dǎo)基線（AutoGuidance），這不僅增加了訓(xùn)練成本，推理時(shí)也需要額外一次前向計(jì)算。

RAEv2 觀察到一個(gè)關(guān)鍵性質(zhì)：REPA 在 RAE 框架下，本質(zhì)上是在做「x 預(yù)測(cè)」（預(yù)測(cè)干凈的圖像表征），而 REPA 頭只能訪問(wèn)模型的淺層特征，天然是一個(gè)「更弱的版本」。將主模型輸出也改寫(xiě)為 x 預(yù)測(cè)格式，就可以直接用 REPA 頭作為引導(dǎo)基線。這樣就無(wú)需額外訓(xùn)練任何模型，無(wú)需額外前向計(jì)算，引導(dǎo)完全「免費(fèi)」。

RAEv2 的表現(xiàn)如何？

三個(gè)洞察組合在一起，形成了 RAEv2，帶來(lái)了可量化的全面改進(jìn)。

在圖像生成質(zhì)量（ImageNet-256，以 gFID 衡量，越低越好）上，RAEv2 在僅 80 個(gè)訓(xùn)練 epoch 后達(dá)到 1.06。

以 FDr?這一更嚴(yán)格的評(píng)估指標(biāo)衡量，RAEv2 以 80 epoch 達(dá)到 2.17，超越了原始 RAE 的最佳成績(jī) 3.26—— 后者需要十倍訓(xùn)練時(shí)長(zhǎng)且依賴(lài)后處理。

研究團(tuán)隊(duì)為此引入了一個(gè)新的效率指標(biāo)：EPFID@k，即「達(dá)到無(wú)引導(dǎo) gFID ≤ k 所需的訓(xùn)練 epoch 數(shù)」。這個(gè)指標(biāo)的意義在于：絕對(duì) gFID 數(shù)值的微小差異在實(shí)際應(yīng)用中幾乎感知不到，但訓(xùn)練效率的差異直接決定了誰(shuí)能更快迭代、更低成本實(shí)驗(yàn)。

RAE 的 EPFID@2 為 177 epoch，RAEv2 將其壓縮到了 35 epoch—— 收斂速度超過(guò) 5 倍，若與早期方法比較則達(dá) 10 倍以上。

在計(jì)算成本上，RAEv2 保持與第一代 RAE 完全相同的 189 GFLOPs，而 FLUX.1 等頂級(jí)商業(yè)模型需要 448 GFLOPs。以不到一半的算力，達(dá)到超越所有同類(lèi)系統(tǒng)的生成質(zhì)量。這是 RAEv2 最直接的工程價(jià)值。

在重建質(zhì)量上，盡管只在 ImageNet 上訓(xùn)練，RAEv2 的還原效果已可與 FLUX VAE、SDXL-VAE 等在大規(guī)模多樣化數(shù)據(jù)集上訓(xùn)練的專(zhuān)有模型相媲美。

超越圖像分類(lèi)：更廣的適用性

RAEv2 并未局限于 ImageNet 實(shí)驗(yàn)。論文還驗(yàn)證了其在兩個(gè)方向上的泛化能力。

在文本生圖方向，使用 SigLIP-2 作為編碼器的 RAEv2，在文本生圖基準(zhǔn)上展現(xiàn)出與 ImageNet 實(shí)驗(yàn)一致的改進(jìn)趨勢(shì)，收斂速度顯著快于基于 VAE 的對(duì)比方法。

在導(dǎo)航世界模型方向 —— 即 AI 通過(guò)視覺(jué)預(yù)測(cè)未來(lái)幀的任務(wù)場(chǎng)景 ——RAEv2 同樣帶來(lái)了一致的性能提升，證明這一框架并非專(zhuān)為圖像生成設(shè)計(jì)的特殊技巧，而是具有跨任務(wù)通用性的基礎(chǔ)方法。

一個(gè)更大的賭注

RAEv2 所指向的不只是「更快的圖像生成」。

在傳統(tǒng)的圖像 AI 體系里，「理解圖像」和「生成圖像」是兩條平行的軌道：前者用 DINOv2、CLIP 等判別式模型，后者用 Stable Diffusion、FLUX 等生成式模型，兩者共享的只有訓(xùn)練數(shù)據(jù)，而非知識(shí)體系。

RAE 框架的核心賭注是把這兩條軌道合并。如果生成模型直接在視覺(jué)理解模型的語(yǔ)義空間里工作，那理解和生成就共享同一套「視覺(jué)語(yǔ)言」，未來(lái)的統(tǒng)一多模態(tài)模型將具備直接在生成的圖像潛在表征上進(jìn)行推理的能力。

從一個(gè)單純的「更快收斂」的工程改進(jìn)出發(fā)，RAEv2 不經(jīng)意間指向了一個(gè)更宏觀的問(wèn)題：下一代多模態(tài) AI 是否應(yīng)當(dāng)從根本上統(tǒng)一「看」與「畫(huà)」的底層表征？

這個(gè)問(wèn)題，也許比 gFID 數(shù)字本身更值得關(guān)注。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.