![]()
背景:自回歸圖像生成的崛起與推理瓶頸
大語言模型的成功讓 "next-token prediction" 這套范式從文本延伸到了圖像領(lǐng)域。把圖像用視覺分詞器編碼成離散 token,再一個接一個的預(yù)測出來 —— 這就是自回歸(AR)圖像生成的核心思路。從早期的 PixelCNN、iGPT、Parti,到近期的 Emu3.5、LlamaGen、Lumina-mGPT、GLM-Image,AR 模型的生成質(zhì)量已經(jīng)全面逼近甚至超過了擴(kuò)散模型。
但 AR 模型有個繞不開的問題:慢。標(biāo)準(zhǔn)的 raster-scan 解碼從左到右、從上到下,一步只出一個 token。生成一張 512×512 的圖要走 32×32 = 1024 步串行前向傳播,單卡耗時超過兩分鐘。延遲隨分辨率線性增長,GPU 的并行算力也用不起來 —— 高分辨率和實時場景下,基本沒法實際部署。
現(xiàn)有加速方案
為了突破這一瓶頸,研究者們已經(jīng)探索了多種加速策略,但都面臨不同的局限:
- 重新設(shè)計生成范式:例如如 VAR 的 "下一尺度預(yù)測"、NAR 的 "近鄰預(yù)測"、PAR 的分組并行解碼,雖然能大幅降低解碼步數(shù),但這些方法需要從頭預(yù)訓(xùn)練,無法復(fù)用已有的大規(guī)模預(yù)訓(xùn)練 AR 模型,訓(xùn)練成本高昂。
- 離散擴(kuò)散適配:例如 Emu3.5 原文采用的 DiDA,他們通過后訓(xùn)練將 AR 模型改造為支持并行解碼的離散擴(kuò)散模型。但這種方法改變了原始的預(yù)測目標(biāo),引入了預(yù)訓(xùn)練和推理之間的不一致性,往往導(dǎo)致生成質(zhì)量顯著下降,在我們的復(fù)現(xiàn)實驗中,相同數(shù)據(jù)量,Emu3.5 在 block diffusion 后訓(xùn)練過程中,geneval 分?jǐn)?shù)會在總體會有一個比較大的 drop
- 推測解碼:作為一種無需訓(xùn)練的加速插件,實際加速效果受限于草稿模型的接受率,提升效果相對比較有限。
這就引出了一個關(guān)鍵的開放性問題:能否在不從頭訓(xùn)練、不改變原始預(yù)測目標(biāo)的前提下,將已有的預(yù)訓(xùn)練 AR 模型改造成高度并行的生成器,同時繼承其強(qiáng)大的生成能力?
來自浙江大學(xué)和阿德萊德大學(xué)的研究團(tuán)隊提出了FlashAR—— 一個輕量級的后訓(xùn)練加速框架。不需要從頭訓(xùn)練,在 Emu3.5-Image-34B 模型上,僅用原始訓(xùn)練數(shù)據(jù)的 0.05%(約 8 萬張圖片),就能將預(yù)訓(xùn)練好的自回歸模型改造成高度并行的生成器 Emu3.5-34B-Flash,實現(xiàn)最高22.9 倍的端到端加速。
![]()
![]()
- 論文標(biāo)題:FlashAR: Efficient Post-Training Acceleration for Autoregressive Image Generation
- 論文主頁:https://lxazjk.github.io/FlashAR/
- 論文鏈接:https://arxiv.org/abs/2605.09430
- 代碼鏈接:https://github.com/lxazjk/Emu3.5-FlashAR
核心思路:從 "逐個生成" 到 "對角線并行"
傳統(tǒng)的自回歸圖像生成模型遵循嚴(yán)格的光柵掃描順序 —— 從左到右、從上到下,每一步只預(yù)測水平方向的下一個 token。對于一張由 H×W 個 token 構(gòu)成的圖像,需要 H×W 步才能完成生成。
FlashAR 的關(guān)鍵洞察在于:圖像天然具有 2D 結(jié)構(gòu),如果我們?yōu)槟P托略龃怪狈较虻南乱粋€ token 的預(yù)測能力,在每個步驟中,水平解碼頭和垂直解碼頭并行工作,解碼步數(shù)從 H×W 驟降至 H+W-1。以 512×512 分辨率(16×16 下采樣倍率)為例,解碼步數(shù)從 1024 步直接降到 63 步。
但要讓一個已經(jīng)訓(xùn)練好的 "水平方向" 預(yù)測模型具備 "垂直方向" 預(yù)測能力,并不容易。FlashAR 為此設(shè)計了三個關(guān)鍵組件:
![]()
1. 中間層分支(Intermediate Branching)
FlashAR 沒有把輕量級的 Vertical Head 接在預(yù)訓(xùn)練模型的最終層,而是從中間層分出一條支路,讓它和原有的水平預(yù)測頭并行工作。
為什么不直接用最終層?因為經(jīng)過完整訓(xùn)練后,最終層特征已經(jīng)更偏向原本的水平方向光柵預(yù)測任務(wù),針對這個目標(biāo)做了充分適配,但也因此不一定適合再拿來做垂直方向預(yù)測。相比之下,中間層往往還保留著更豐富的二維空間信息,用來適配新的預(yù)測方向會更自然。
這樣的設(shè)計還有一個額外好處:從中間層分支之后,Vertical Head 可以和原有分支并行執(zhí)行,從而為整體吞吐帶來提升。
我們也在消融實驗里驗證了這一點(diǎn)。具體來說,我們用 linear probing 系統(tǒng)評估了預(yù)訓(xùn)練模型不同層的特征,結(jié)果發(fā)現(xiàn),最終層特征并不是最適合做垂直預(yù)測的。這也進(jìn)一步支持了我們從中間層引出 Vertical Head 的設(shè)計。
![]()
2. 可學(xué)習(xí)融合門(Learnable Fusion Gate)
水平和垂直方向的預(yù)測分別建模了互補(bǔ)的空間依賴,其貢獻(xiàn)在不同空間位置上并不一致。基于這一觀察,F(xiàn)lashAR 引入了一個輕量級的 MLP 融合門,在逐位置的粒度上自適應(yīng)地融合兩個方向的預(yù)測結(jié)果,以避免簡單平均所導(dǎo)致的預(yù)測模糊。
3. 兩階段適配訓(xùn)練(Two-Stage Adaptation)
具體而言,訓(xùn)練過程分為兩個階段:
- 在第一階段,凍結(jié)骨干網(wǎng)絡(luò),僅優(yōu)化垂直預(yù)測頭,以使其快速學(xué)習(xí)到有意義的預(yù)測能力;
- 在第二階段,進(jìn)一步聯(lián)合微調(diào)垂直預(yù)測頭和骨干網(wǎng)絡(luò),使模型更好地適配新的解碼范式。這樣的漸進(jìn)式訓(xùn)練策略提升了后訓(xùn)練過程的穩(wěn)定性,并提高了數(shù)據(jù)利用效率。
在推理階段,F(xiàn)lashAR 還部署了硬件感知的推理優(yōu)化管線:利用 FlexAttention 動態(tài)編譯稀疏的二維近鄰注意力掩碼,配合批量化 KV 緩存更新,將理論上的并行性切實轉(zhuǎn)化為真實的加速效果。
實驗結(jié)果
Emu3.5-Image-34B 加速
將 FlashAR 擴(kuò)展到 340 億參數(shù)的 Emu3.5 模型上,是對框架能力的嚴(yán)格考驗:
![]()
用0.05%的原始訓(xùn)練數(shù)據(jù)(80M token,約 8 萬張圖片),F(xiàn)lashAR 將 512×512 圖像生成速度從 130.10 秒壓縮到 5.68 秒,實現(xiàn)22.9 倍加速。更關(guān)鍵的是,加速幾乎不損失質(zhì)量。在 GenEval 基準(zhǔn)上,F(xiàn)lashAR 的 GenEval 總分僅下降 0.19 分(80.48→80.29),在顏色(+1.59)和位置(+7.00)兩個子項上甚至超過了原始模型。相比之下,BlockDiffusion 在相同設(shè)置下性能大幅下降至 73.83。
ImageNet 類別條件生成
在 ImageNet 256×256 基準(zhǔn)上,F(xiàn)lashAR 在四個模型規(guī)模(B/L/XL/XXL)上全面超越現(xiàn)有后訓(xùn)練方法 BlockDiffusion。
![]()
值得注意的是:
- FlashAR-L 的 IS(289.0)甚至超過了從頭訓(xùn)練的 NAR-L(263.9),而 FlashAR 僅需輕量級后訓(xùn)練;
- FlashAR-B 達(dá)到 447.2 img/s 的吞吐量,超過了 NAR-B(419.7 img/s);
- FlashAR 僅需25 個 epoch的后訓(xùn)練 —— 只有 BlockDiffusion 訓(xùn)練量的三分之一。
為什么 FlashAR 如此高效?
我們總結(jié)了 FlashAR 的核心優(yōu)勢
- 無需從頭訓(xùn)練:直接復(fù)用現(xiàn)有預(yù)訓(xùn)練 AR 模型,通過輕量后訓(xùn)練實現(xiàn)加速;
- 數(shù)據(jù)極致高效:僅需 0.05% 的原始訓(xùn)練數(shù)據(jù);
- 性能保持優(yōu)異:生成質(zhì)量幾乎無損,部分指標(biāo)甚至提升;
- 框架通用性強(qiáng):在 LlamaGen(120M~1.4B)和 Emu3.5(34B)上均驗證有效;
- 實際加速顯著:最高 22.9 倍端到端加速。
FlashAR 證明了一個重要觀點(diǎn):通過精心設(shè)計的后訓(xùn)練適配,可以在幾乎不改變原始模型訓(xùn)練目標(biāo)的前提下,將自回歸模型改造成高度并行的生成器,完整繼承預(yù)訓(xùn)練模型的強(qiáng)大能力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.