FlashAR：僅用0.05%數(shù)據(jù)，讓預(yù)訓(xùn)練好的自回歸圖像模型飛起來

2026-05-24 17:52:21　來源: 機(jī)器之心Pro

天津舉報

分享至

背景：自回歸圖像生成的崛起與推理瓶頸

大語言模型的成功讓 "next-token prediction" 這套范式從文本延伸到了圖像領(lǐng)域。把圖像用視覺分詞器編碼成離散 token，再一個接一個的預(yù)測出來 —— 這就是自回歸（AR）圖像生成的核心思路。從早期的 PixelCNN、iGPT、Parti，到近期的 Emu3.5、LlamaGen、Lumina-mGPT、GLM-Image，AR 模型的生成質(zhì)量已經(jīng)全面逼近甚至超過了擴(kuò)散模型。

但 AR 模型有個繞不開的問題：慢。標(biāo)準(zhǔn)的 raster-scan 解碼從左到右、從上到下，一步只出一個 token。生成一張 512×512 的圖要走 32×32 = 1024 步串行前向傳播，單卡耗時超過兩分鐘。延遲隨分辨率線性增長，GPU 的并行算力也用不起來 —— 高分辨率和實時場景下，基本沒法實際部署。

現(xiàn)有加速方案

為了突破這一瓶頸，研究者們已經(jīng)探索了多種加速策略，但都面臨不同的局限：

重新設(shè)計生成范式：例如如 VAR 的 "下一尺度預(yù)測"、NAR 的 "近鄰預(yù)測"、PAR 的分組并行解碼，雖然能大幅降低解碼步數(shù)，但這些方法需要從頭預(yù)訓(xùn)練，無法復(fù)用已有的大規(guī)模預(yù)訓(xùn)練 AR 模型，訓(xùn)練成本高昂。
離散擴(kuò)散適配：例如 Emu3.5 原文采用的 DiDA，他們通過后訓(xùn)練將 AR 模型改造為支持并行解碼的離散擴(kuò)散模型。但這種方法改變了原始的預(yù)測目標(biāo)，引入了預(yù)訓(xùn)練和推理之間的不一致性，往往導(dǎo)致生成質(zhì)量顯著下降，在我們的復(fù)現(xiàn)實驗中，相同數(shù)據(jù)量，Emu3.5 在 block diffusion 后訓(xùn)練過程中，geneval 分?jǐn)?shù)會在總體會有一個比較大的 drop
推測解碼：作為一種無需訓(xùn)練的加速插件，實際加速效果受限于草稿模型的接受率，提升效果相對比較有限。

這就引出了一個關(guān)鍵的開放性問題：能否在不從頭訓(xùn)練、不改變原始預(yù)測目標(biāo)的前提下，將已有的預(yù)訓(xùn)練 AR 模型改造成高度并行的生成器，同時繼承其強(qiáng)大的生成能力？

來自浙江大學(xué)和阿德萊德大學(xué)的研究團(tuán)隊提出了FlashAR—— 一個輕量級的后訓(xùn)練加速框架。不需要從頭訓(xùn)練，在 Emu3.5-Image-34B 模型上，僅用原始訓(xùn)練數(shù)據(jù)的 0.05%（約 8 萬張圖片），就能將預(yù)訓(xùn)練好的自回歸模型改造成高度并行的生成器 Emu3.5-34B-Flash，實現(xiàn)最高22.9 倍的端到端加速。

論文標(biāo)題：FlashAR: Efficient Post-Training Acceleration for Autoregressive Image Generation
論文主頁：https://lxazjk.github.io/FlashAR/
論文鏈接：https://arxiv.org/abs/2605.09430
代碼鏈接：https://github.com/lxazjk/Emu3.5-FlashAR

核心思路：從 "逐個生成" 到 "對角線并行"

傳統(tǒng)的自回歸圖像生成模型遵循嚴(yán)格的光柵掃描順序 —— 從左到右、從上到下，每一步只預(yù)測水平方向的下一個 token。對于一張由 H×W 個 token 構(gòu)成的圖像，需要 H×W 步才能完成生成。

FlashAR 的關(guān)鍵洞察在于：圖像天然具有 2D 結(jié)構(gòu)，如果我們?yōu)槟Ｐ托略龃怪狈较虻南乱粋€ token 的預(yù)測能力，在每個步驟中，水平解碼頭和垂直解碼頭并行工作，解碼步數(shù)從 H×W 驟降至 H+W-1。以 512×512 分辨率（16×16 下采樣倍率）為例，解碼步數(shù)從 1024 步直接降到 63 步。

但要讓一個已經(jīng)訓(xùn)練好的 "水平方向" 預(yù)測模型具備 "垂直方向" 預(yù)測能力，并不容易。FlashAR 為此設(shè)計了三個關(guān)鍵組件：

1. 中間層分支（Intermediate Branching）

FlashAR 沒有把輕量級的 Vertical Head 接在預(yù)訓(xùn)練模型的最終層，而是從中間層分出一條支路，讓它和原有的水平預(yù)測頭并行工作。

為什么不直接用最終層？因為經(jīng)過完整訓(xùn)練后，最終層特征已經(jīng)更偏向原本的水平方向光柵預(yù)測任務(wù)，針對這個目標(biāo)做了充分適配，但也因此不一定適合再拿來做垂直方向預(yù)測。相比之下，中間層往往還保留著更豐富的二維空間信息，用來適配新的預(yù)測方向會更自然。

這樣的設(shè)計還有一個額外好處：從中間層分支之后，Vertical Head 可以和原有分支并行執(zhí)行，從而為整體吞吐帶來提升。

我們也在消融實驗里驗證了這一點(diǎn)。具體來說，我們用 linear probing 系統(tǒng)評估了預(yù)訓(xùn)練模型不同層的特征，結(jié)果發(fā)現(xiàn)，最終層特征并不是最適合做垂直預(yù)測的。這也進(jìn)一步支持了我們從中間層引出 Vertical Head 的設(shè)計。

2. 可學(xué)習(xí)融合門（Learnable Fusion Gate）

水平和垂直方向的預(yù)測分別建模了互補(bǔ)的空間依賴，其貢獻(xiàn)在不同空間位置上并不一致。基于這一觀察，F(xiàn)lashAR 引入了一個輕量級的 MLP 融合門，在逐位置的粒度上自適應(yīng)地融合兩個方向的預(yù)測結(jié)果，以避免簡單平均所導(dǎo)致的預(yù)測模糊。

3. 兩階段適配訓(xùn)練（Two-Stage Adaptation）

具體而言，訓(xùn)練過程分為兩個階段：

在第一階段，凍結(jié)骨干網(wǎng)絡(luò)，僅優(yōu)化垂直預(yù)測頭，以使其快速學(xué)習(xí)到有意義的預(yù)測能力；
在第二階段，進(jìn)一步聯(lián)合微調(diào)垂直預(yù)測頭和骨干網(wǎng)絡(luò)，使模型更好地適配新的解碼范式。這樣的漸進(jìn)式訓(xùn)練策略提升了后訓(xùn)練過程的穩(wěn)定性，并提高了數(shù)據(jù)利用效率。

在推理階段，F(xiàn)lashAR 還部署了硬件感知的推理優(yōu)化管線：利用 FlexAttention 動態(tài)編譯稀疏的二維近鄰注意力掩碼，配合批量化 KV 緩存更新，將理論上的并行性切實轉(zhuǎn)化為真實的加速效果。

實驗結(jié)果

Emu3.5-Image-34B 加速

將 FlashAR 擴(kuò)展到 340 億參數(shù)的 Emu3.5 模型上，是對框架能力的嚴(yán)格考驗：

用0.05%的原始訓(xùn)練數(shù)據(jù)（80M token，約 8 萬張圖片），F(xiàn)lashAR 將 512×512 圖像生成速度從 130.10 秒壓縮到 5.68 秒，實現(xiàn)22.9 倍加速。更關(guān)鍵的是，加速幾乎不損失質(zhì)量。在 GenEval 基準(zhǔn)上，F(xiàn)lashAR 的 GenEval 總分僅下降 0.19 分（80.48→80.29），在顏色（+1.59）和位置（+7.00）兩個子項上甚至超過了原始模型。相比之下，BlockDiffusion 在相同設(shè)置下性能大幅下降至 73.83。

ImageNet 類別條件生成

在 ImageNet 256×256 基準(zhǔn)上，F(xiàn)lashAR 在四個模型規(guī)模（B/L/XL/XXL）上全面超越現(xiàn)有后訓(xùn)練方法 BlockDiffusion。

值得注意的是：

FlashAR-L 的 IS（289.0）甚至超過了從頭訓(xùn)練的 NAR-L（263.9），而 FlashAR 僅需輕量級后訓(xùn)練；
FlashAR-B 達(dá)到 447.2 img/s 的吞吐量，超過了 NAR-B（419.7 img/s）；
FlashAR 僅需25 個 epoch的后訓(xùn)練 —— 只有 BlockDiffusion 訓(xùn)練量的三分之一。

為什么 FlashAR 如此高效？

我們總結(jié)了 FlashAR 的核心優(yōu)勢

無需從頭訓(xùn)練：直接復(fù)用現(xiàn)有預(yù)訓(xùn)練 AR 模型，通過輕量后訓(xùn)練實現(xiàn)加速；
數(shù)據(jù)極致高效：僅需 0.05% 的原始訓(xùn)練數(shù)據(jù)；
性能保持優(yōu)異：生成質(zhì)量幾乎無損，部分指標(biāo)甚至提升；
框架通用性強(qiáng)：在 LlamaGen（120M~1.4B）和 Emu3.5（34B）上均驗證有效；
實際加速顯著：最高 22.9 倍端到端加速。

FlashAR 證明了一個重要觀點(diǎn)：通過精心設(shè)計的后訓(xùn)練適配，可以在幾乎不改變原始模型訓(xùn)練目標(biāo)的前提下，將自回歸模型改造成高度并行的生成器，完整繼承預(yù)訓(xùn)練模型的強(qiáng)大能力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.