<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      剛剛,謝賽寧團(tuán)隊(duì)放出第二代表征自編碼器

      0
      分享至



      編輯|Panda

      AI 圖像生成通常遵循「能力越強(qiáng)、代價(jià)越高」的鐵律;與此同時(shí),學(xué)界卻在悄悄質(zhì)疑另一個(gè)更根本的浪費(fèi):傳統(tǒng) VAE 對(duì)圖像語(yǔ)義幾乎一無(wú)所知,而 DINOv2、SigLIP 等視覺(jué)編碼器早已從數(shù)億張圖片中習(xí)得了豐富的視覺(jué)常識(shí)。圖像生成模型,真的需要從零開(kāi)始「發(fā)明」對(duì)圖像的理解嗎?

      2025 年 10 月,紐約大學(xué)謝賽寧團(tuán)隊(duì)提出了「表征自編碼器(Representation Autoencoder,RAE)」框架,首次系統(tǒng)性地將預(yù)訓(xùn)練視覺(jué)編碼器引入擴(kuò)散模型的潛在空間。參閱我們的報(bào)道《VAE 時(shí)代終結(jié)?謝賽寧團(tuán)隊(duì)「RAE」登場(chǎng),表征自編碼器或成 DiT 訓(xùn)練新基石》。

      這項(xiàng)成果在學(xué)界引發(fā)強(qiáng)烈反響,但同時(shí)也暴露出三個(gè)阻礙實(shí)用落地的核心問(wèn)題:重建質(zhì)量不如專(zhuān)用 VAE、無(wú)法配合傳統(tǒng)引導(dǎo)機(jī)制、訓(xùn)練收斂極慢。

      五個(gè)月后,同一團(tuán)隊(duì)攜手 Adobe Research 與澳大利亞國(guó)立大學(xué),帶來(lái)了全面改進(jìn)的RAEv2



      • 論文標(biāo)題:Improved Baselines with Representation Autoencoders
      • 論文地址:https://arxiv.org/abs/2605.18324v1
      • 項(xiàng)目頁(yè)面:https://raev2.github.io

      為什么 VAE 是瓶頸?

      要理解這項(xiàng)工作的意義,先要理解 VAE 是什么,以及它為什么開(kāi)始成為瓶頸。

      想象一家大型圖書(shū)館。圖書(shū)館的索引系統(tǒng)(VAE 編碼器)負(fù)責(zé)將每一本書(shū)壓縮成一張卡片,存入一個(gè)巨大的卡片柜(潛在空間)。擴(kuò)散模型在這個(gè)卡片柜里工作:從一堆雜亂的卡片出發(fā),一步步「去噪」,最終還原出一張清晰的卡片,再由解碼器將卡片還原成完整的書(shū)。

      問(wèn)題在于傳統(tǒng)的索引卡片(VAE 潛在空間)記錄的是書(shū)的物理特征,比如厚度、顏色、字體大小。但模型真正需要的,是書(shū)的內(nèi)容和含義。擴(kuò)散模型每次從噪聲出發(fā),都要自己重新學(xué)會(huì)「這是一只貓」、「這是一棵樹(shù)」,效率極低。

      預(yù)訓(xùn)練視覺(jué)編碼器(DINOv2 等)則截然不同。它們的索引卡片記錄的是語(yǔ)義:這本書(shū)講的是什么主題、出現(xiàn)了哪些人物、場(chǎng)景的空間結(jié)構(gòu)如何。如果擴(kuò)散模型能在這樣的潛在空間里工作,就相當(dāng)于站在了巨人的肩膀上,不需要重復(fù)學(xué)習(xí)「視覺(jué)常識(shí)」。

      RAE 正是這樣的系統(tǒng):以預(yù)訓(xùn)練編碼器為圖書(shū)館的索引系統(tǒng),訓(xùn)練一個(gè)解碼器來(lái)還原圖像。但第一代 RAE 的問(wèn)題,是這套索引卡片只記錄了「書(shū)的最后一章摘要」,丟失了大量中間層的細(xì)節(jié)信息。

      三個(gè)洞察,一次系統(tǒng)性升級(jí)

      RAEv2 的工作核心是三個(gè)獨(dú)立但相互支撐的技術(shù)洞察。

      洞察一:最后一層不是全部。

      原始 RAE 直接使用視覺(jué)編碼器最后一層的輸出作為潛在表征。但預(yù)訓(xùn)練編碼器的知識(shí)并非只集中在最后一層 —— 就像一個(gè)專(zhuān)家的完整知識(shí)體系,不只存在于他最后的結(jié)論里,也分布在他的推理過(guò)程中。

      RAEv2 提出了一個(gè)極其簡(jiǎn)潔的解法:將編碼器最后 K 層的特征直接相加,作為潛在表征。這個(gè)操作不引入任何新參數(shù),不需要額外訓(xùn)練數(shù)據(jù)(比如文字或人臉),卻讓圖像重建質(zhì)量產(chǎn)生了質(zhì)的飛躍。當(dāng) K 從 1(原始 RAE)增加到 23(全部層)時(shí),重建誤差(rFID)從 0.60 驟降至 0.18,峰值信噪比從 18.93 dB 提升至 27.03 dB。



      洞察二:RAE 和 REPA 其實(shí)是互補(bǔ)的,不是競(jìng)爭(zhēng)關(guān)系。

      這是整篇論文最出人意料的發(fā)現(xiàn)。

      學(xué)界此前普遍認(rèn)為:既然 RAE 已經(jīng)把預(yù)訓(xùn)練編碼器的特征直接用作潛在空間,就沒(méi)必要再用 REPA(表征對(duì)齊損失,將同一批編碼器特征蒸餾到擴(kuò)散模型的中間層)—— 那不是多此一舉,讓同一個(gè)信號(hào)走兩條路嗎?

      研究團(tuán)隊(duì)橫跨 27 種視覺(jué)編碼器進(jìn)行了大規(guī)模實(shí)驗(yàn),結(jié)果令人驚訝:無(wú)論哪種編碼器,REPA 和 RAE 同時(shí)使用時(shí),效果都優(yōu)于單獨(dú)使用任一方。



      更有趣的是,兩者改善的是不同維度。RAE 提供的是「全局語(yǔ)義」,比如模型知道圖里有只貓;REPA 提供的是「空間結(jié)構(gòu)」,比如模型知道貓?jiān)趫D像左上角、眼睛在鼻子上方。前者對(duì)應(yīng)語(yǔ)義信息(用線性探針準(zhǔn)確率 LP 衡量),后者對(duì)應(yīng)空間自相似性(用 LDS 衡量)。在 27 個(gè)編碼器的相關(guān)性分析中,這一互補(bǔ)機(jī)制得到了嚴(yán)格統(tǒng)計(jì)驗(yàn)證,皮爾遜相關(guān)系數(shù)分別達(dá)到 -0.81(RAE 依賴(lài) LP)和 -0.89(REPA 依賴(lài) LDS)。

      這一發(fā)現(xiàn)還解釋了為什么更強(qiáng)的編碼器 DINOv3-L,在第一代 RAE 里反而表現(xiàn)不如 DINOv2-B;因?yàn)樵?RAE 只利用了語(yǔ)義維度,而 DINOv3-L 的優(yōu)勢(shì)恰恰在于兩個(gè)維度都強(qiáng),RAE+REPA 才能充分發(fā)揮它的潛力。



      洞察三:「引導(dǎo)」其實(shí)一直藏在模型里。

      這是最優(yōu)雅的一個(gè)技術(shù)貢獻(xiàn)。

      圖像生成模型在推理時(shí),通常需要一種叫做「引導(dǎo)」(Guidance)的機(jī)制來(lái)提升圖像質(zhì)量 —— 本質(zhì)是讓模型在「有條件」和「無(wú)條件」兩個(gè)狀態(tài)之間做差值,從而強(qiáng)化目標(biāo)特征。原始 RAE 無(wú)法使用標(biāo)準(zhǔn)的分類(lèi)器自由引導(dǎo)(CFG),只能訓(xùn)練一個(gè)額外的「弱版擴(kuò)散模型」來(lái)充當(dāng)引導(dǎo)基線(AutoGuidance),這不僅增加了訓(xùn)練成本,推理時(shí)也需要額外一次前向計(jì)算。



      RAEv2 觀察到一個(gè)關(guān)鍵性質(zhì):REPA 在 RAE 框架下,本質(zhì)上是在做「x 預(yù)測(cè)」(預(yù)測(cè)干凈的圖像表征),而 REPA 頭只能訪問(wèn)模型的淺層特征,天然是一個(gè)「更弱的版本」。將主模型輸出也改寫(xiě)為 x 預(yù)測(cè)格式,就可以直接用 REPA 頭作為引導(dǎo)基線。這樣就無(wú)需額外訓(xùn)練任何模型,無(wú)需額外前向計(jì)算,引導(dǎo)完全「免費(fèi)」。

      RAEv2 的表現(xiàn)如何?

      三個(gè)洞察組合在一起,形成了 RAEv2,帶來(lái)了可量化的全面改進(jìn)。

      在圖像生成質(zhì)量(ImageNet-256,以 gFID 衡量,越低越好)上,RAEv2 在僅 80 個(gè)訓(xùn)練 epoch 后達(dá)到 1.06。





      以 FDr?這一更嚴(yán)格的評(píng)估指標(biāo)衡量,RAEv2 以 80 epoch 達(dá)到 2.17,超越了原始 RAE 的最佳成績(jī) 3.26—— 后者需要十倍訓(xùn)練時(shí)長(zhǎng)且依賴(lài)后處理。



      研究團(tuán)隊(duì)為此引入了一個(gè)新的效率指標(biāo):EPFID@k,即「達(dá)到無(wú)引導(dǎo) gFID ≤ k 所需的訓(xùn)練 epoch 數(shù)」。這個(gè)指標(biāo)的意義在于:絕對(duì) gFID 數(shù)值的微小差異在實(shí)際應(yīng)用中幾乎感知不到,但訓(xùn)練效率的差異直接決定了誰(shuí)能更快迭代、更低成本實(shí)驗(yàn)。

      RAE 的 EPFID@2 為 177 epoch,RAEv2 將其壓縮到了 35 epoch—— 收斂速度超過(guò) 5 倍,若與早期方法比較則達(dá) 10 倍以上。



      在計(jì)算成本上,RAEv2 保持與第一代 RAE 完全相同的 189 GFLOPs,而 FLUX.1 等頂級(jí)商業(yè)模型需要 448 GFLOPs。以不到一半的算力,達(dá)到超越所有同類(lèi)系統(tǒng)的生成質(zhì)量。這是 RAEv2 最直接的工程價(jià)值。

      在重建質(zhì)量上,盡管只在 ImageNet 上訓(xùn)練,RAEv2 的還原效果已可與 FLUX VAE、SDXL-VAE 等在大規(guī)模多樣化數(shù)據(jù)集上訓(xùn)練的專(zhuān)有模型相媲美。



      超越圖像分類(lèi):更廣的適用性

      RAEv2 并未局限于 ImageNet 實(shí)驗(yàn)。論文還驗(yàn)證了其在兩個(gè)方向上的泛化能力。

      在文本生圖方向,使用 SigLIP-2 作為編碼器的 RAEv2,在文本生圖基準(zhǔn)上展現(xiàn)出與 ImageNet 實(shí)驗(yàn)一致的改進(jìn)趨勢(shì),收斂速度顯著快于基于 VAE 的對(duì)比方法。



      在導(dǎo)航世界模型方向 —— 即 AI 通過(guò)視覺(jué)預(yù)測(cè)未來(lái)幀的任務(wù)場(chǎng)景 ——RAEv2 同樣帶來(lái)了一致的性能提升,證明這一框架并非專(zhuān)為圖像生成設(shè)計(jì)的特殊技巧,而是具有跨任務(wù)通用性的基礎(chǔ)方法。



      一個(gè)更大的賭注

      RAEv2 所指向的不只是「更快的圖像生成」。

      在傳統(tǒng)的圖像 AI 體系里,「理解圖像」和「生成圖像」是兩條平行的軌道:前者用 DINOv2、CLIP 等判別式模型,后者用 Stable Diffusion、FLUX 等生成式模型,兩者共享的只有訓(xùn)練數(shù)據(jù),而非知識(shí)體系。

      RAE 框架的核心賭注是把這兩條軌道合并。如果生成模型直接在視覺(jué)理解模型的語(yǔ)義空間里工作,那理解和生成就共享同一套「視覺(jué)語(yǔ)言」,未來(lái)的統(tǒng)一多模態(tài)模型將具備直接在生成的圖像潛在表征上進(jìn)行推理的能力。

      從一個(gè)單純的「更快收斂」的工程改進(jìn)出發(fā),RAEv2 不經(jīng)意間指向了一個(gè)更宏觀的問(wèn)題:下一代多模態(tài) AI 是否應(yīng)當(dāng)從根本上統(tǒng)一「看」與「畫(huà)」的底層表征?

      這個(gè)問(wèn)題,也許比 gFID 數(shù)字本身更值得關(guān)注。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      武漢記者:讓我們暫時(shí)告別鄧卓翔,因?yàn)樘K亞雷斯已經(jīng)到了

      武漢記者:讓我們暫時(shí)告別鄧卓翔,因?yàn)樘K亞雷斯已經(jīng)到了

      懂球帝
      2026-05-21 08:58:20
      知名大學(xué)教授 90 篇論文數(shù)據(jù)全是偽造

      知名大學(xué)教授 90 篇論文數(shù)據(jù)全是偽造

      生物學(xué)霸
      2026-05-21 10:54:34
      我56歲已經(jīng)絕經(jīng),和76歲的他出去玩了8天,回來(lái)后我果斷提出散伙

      我56歲已經(jīng)絕經(jīng),和76歲的他出去玩了8天,回來(lái)后我果斷提出散伙

      王二哥老搞笑
      2026-05-21 07:38:09
      小偷徹底失業(yè)了!根本不僅是監(jiān)控多,而是偷東西不賺錢(qián)了

      小偷徹底失業(yè)了!根本不僅是監(jiān)控多,而是偷東西不賺錢(qián)了

      貓叔東山再起
      2026-05-14 10:15:08
      中俄教育年啟動(dòng)!雙向留學(xué)10萬(wàn)人目標(biāo)沒(méi)實(shí)現(xiàn)?你會(huì)留學(xué)俄羅斯嗎?

      中俄教育年啟動(dòng)!雙向留學(xué)10萬(wàn)人目標(biāo)沒(méi)實(shí)現(xiàn)?你會(huì)留學(xué)俄羅斯嗎?

      留學(xué)觀察家
      2026-05-21 11:34:05
      臺(tái)積電創(chuàng)辦人張忠謀曾言:中國(guó)大陸如果被逼到極限,真的無(wú)能為力

      臺(tái)積電創(chuàng)辦人張忠謀曾言:中國(guó)大陸如果被逼到極限,真的無(wú)能為力

      張硜鹵說(shuō)體育
      2026-05-20 01:34:11
      清華大學(xué)對(duì)葛同學(xué)作出退學(xué)處理決定

      清華大學(xué)對(duì)葛同學(xué)作出退學(xué)處理決定

      臺(tái)州交通廣播
      2026-05-18 14:35:53
      10億都救不了一命!京東副總裁蔡磊,生命進(jìn)入倒計(jì)時(shí)

      10億都救不了一命!京東副總裁蔡磊,生命進(jìn)入倒計(jì)時(shí)

      聽(tīng)風(fēng)喃
      2026-04-06 11:16:04
      于娜節(jié)目自曝胖到230斤原因,跟媽媽住,不吃主食一頓吃5個(gè)菜

      于娜節(jié)目自曝胖到230斤原因,跟媽媽住,不吃主食一頓吃5個(gè)菜

      卷史
      2026-05-21 11:11:04
      毛澤東陜北遇險(xiǎn),敵軍不足五百米,主席做最壞準(zhǔn)備時(shí)王震騎兵趕到

      毛澤東陜北遇險(xiǎn),敵軍不足五百米,主席做最壞準(zhǔn)備時(shí)王震騎兵趕到

      歷史龍?jiān)w
      2026-05-21 11:40:19
      歐冠落幕即翻臉?薩爾布呂肯慶功照獨(dú)缺樊振東,真心錯(cuò)付了?

      歐冠落幕即翻臉?薩爾布呂肯慶功照獨(dú)缺樊振東,真心錯(cuò)付了?

      涵豆說(shuō)娛
      2026-05-20 19:27:09
      國(guó)家一級(jí)演員張國(guó)強(qiáng):因窮被前妻拋棄,后娶郭京飛前任,現(xiàn)很幸福

      國(guó)家一級(jí)演員張國(guó)強(qiáng):因窮被前妻拋棄,后娶郭京飛前任,現(xiàn)很幸福

      琴琴有氧運(yùn)動(dòng)
      2026-05-12 19:15:23
      小鵬GX殺瘋了!26.98萬(wàn)起步,直接把百萬(wàn)級(jí)配置塞進(jìn)30萬(wàn)的殼子里

      小鵬GX殺瘋了!26.98萬(wàn)起步,直接把百萬(wàn)級(jí)配置塞進(jìn)30萬(wàn)的殼子里

      旭日章同學(xué)
      2026-05-21 10:54:35
      簽完聯(lián)合聲明后,普京訪華取得圓滿,登機(jī)離京前,終于說(shuō)了大實(shí)話

      簽完聯(lián)合聲明后,普京訪華取得圓滿,登機(jī)離京前,終于說(shuō)了大實(shí)話

      近史談
      2026-05-21 15:15:07
      母親是前女排隊(duì)長(zhǎng),父親是香港公務(wù)員,15歲的她繼承天賦開(kāi)始爭(zhēng)光

      母親是前女排隊(duì)長(zhǎng),父親是香港公務(wù)員,15歲的她繼承天賦開(kāi)始爭(zhēng)光

      云上烏托邦
      2026-05-20 13:27:28
      2013年大陸最后剩下的3名軍統(tǒng)特務(wù)低調(diào)碰了面,笑著留下一張合影

      2013年大陸最后剩下的3名軍統(tǒng)特務(wù)低調(diào)碰了面,笑著留下一張合影

      小豫講故事
      2026-05-17 06:00:20
      震驚!武漢年近5旬女子征婚:有車(chē)有房,月入4到5萬(wàn),年齡可放寬

      震驚!武漢年近5旬女子征婚:有車(chē)有房,月入4到5萬(wàn),年齡可放寬

      火山詩(shī)話
      2026-05-21 09:59:22
      審計(jì)師也進(jìn)去了!公安部這次是真的動(dòng)真格了

      審計(jì)師也進(jìn)去了!公安部這次是真的動(dòng)真格了

      審計(jì)之家
      2026-05-21 08:05:14
      “100%椰子水”再調(diào)查:又有5款送檢產(chǎn)品均顯示“外源水、糖添加”

      “100%椰子水”再調(diào)查:又有5款送檢產(chǎn)品均顯示“外源水、糖添加”

      閃電新聞
      2026-05-20 17:30:54
      金庸:大兒子自縊,二兒子入獄,大女兒失聰,唯有小女兒命好一點(diǎn)

      金庸:大兒子自縊,二兒子入獄,大女兒失聰,唯有小女兒命好一點(diǎn)

      飄飄然的娛樂(lè)匯
      2026-05-18 20:15:08
      2026-05-21 16:03:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專(zhuān)業(yè)的人工智能媒體
      13050文章數(shù) 142651關(guān)注度
      往期回顧 全部

      科技要聞

      好到離譜也不夠!英偉達(dá)交出816億美元營(yíng)收

      頭條要聞

      園區(qū)被指以電費(fèi)賺差價(jià):有斷電企業(yè)被要求繳納數(shù)十萬(wàn)

      頭條要聞

      園區(qū)被指以電費(fèi)賺差價(jià):有斷電企業(yè)被要求繳納數(shù)十萬(wàn)

      體育要聞

      常住人口7000的小鎮(zhèn),擁有了一支德甲球隊(duì)

      娛樂(lè)要聞

      同行吐槽汪涵野心重 爆雷37萬(wàn)人受損

      財(cái)經(jīng)要聞

      英偉達(dá)業(yè)績(jī)超預(yù)!指引再新高仍不夠亮眼

      汽車(chē)要聞

      26.98萬(wàn)起步 看小鵬GX如何詮釋一車(chē)多能以及滿配的科技與豪華

      態(tài)度原創(chuàng)

      手機(jī)
      藝術(shù)
      旅游
      本地
      公開(kāi)課

      手機(jī)要聞

      三星開(kāi)始向全球Galaxy S23系列手機(jī)推送One UI 8.5更新

      藝術(shù)要聞

      崔雪冬 2026年油畫(huà)新作

      旅游要聞

      跟著氣象去旅行,上海-阿爾山氣象旅游包機(jī)首航

      本地新聞

      用云錦的方式,打開(kāi)江蘇南京

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产精品98视频全部国产| 亚洲亚洲人成综合丝袜图片| 少妇无套内谢久久久久| 国产欧美日本| 久久午夜夜伦鲁鲁片不卡| 性少妇videoxxⅹ中国69| 中文字幕不卡av| 成人精品视频一区二区三区尤物| 男女猛烈xx00免费视频试看| 邻居少妇张开腿让我爽了在线观看| 三个男吃我奶头一边一个视频| 亚洲AV成人无码国产一区二区| 成年无码av片在线狼人| 亚洲男人av天堂久久资源| 国产亚洲精品VA片在线播放,国产中年熟女大集合 | 无码中文字幕在线播放2| 久久国产色av免费观看| 亚洲自拍另类欧美综合| 国产精品久久久久久久免费看| 国产aⅴ激情无码久久久无码| 日本在线看片免费人成视频| 爱看午夜福利| 国产黄色片在线看| 国产中年夫妇高潮精品视频| 亚洲欧美国产另类首页| 欧美婷婷六月丁香综合色| 国产黄色一区二区三区四区 | 亚洲 欧美 激情 小说 另类 | 黄床大片免费30分钟国产精品| 伊人无码一区二区三区| 四虎影视一区二区精品| 伊人一二三四区| 久久中文精品无码中文字幕下载| 亚洲精品第一| 日韩欧美亚洲国产v| 97国产精品人人爽人人做| 欧美多人片高潮野外做片黑人| 久久婷婷影院| 亚洲综合第一色| 欧美黑人xxxx高潮猛交| 团风县|