<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      FlashAR:僅用0.05%數(shù)據(jù),讓預(yù)訓(xùn)練好的自回歸圖像模型飛起來

      0
      分享至




      背景:自回歸圖像生成的崛起與推理瓶頸

      大語言模型的成功讓 "next-token prediction" 這套范式從文本延伸到了圖像領(lǐng)域。把圖像用視覺分詞器編碼成離散 token,再一個接一個的預(yù)測出來 —— 這就是自回歸(AR)圖像生成的核心思路。從早期的 PixelCNN、iGPT、Parti,到近期的 Emu3.5、LlamaGen、Lumina-mGPT、GLM-Image,AR 模型的生成質(zhì)量已經(jīng)全面逼近甚至超過了擴(kuò)散模型。

      但 AR 模型有個繞不開的問題:慢。標(biāo)準(zhǔn)的 raster-scan 解碼從左到右、從上到下,一步只出一個 token。生成一張 512×512 的圖要走 32×32 = 1024 步串行前向傳播,單卡耗時超過兩分鐘。延遲隨分辨率線性增長,GPU 的并行算力也用不起來 —— 高分辨率和實時場景下,基本沒法實際部署。

      現(xiàn)有加速方案

      為了突破這一瓶頸,研究者們已經(jīng)探索了多種加速策略,但都面臨不同的局限:

      • 重新設(shè)計生成范式:例如如 VAR 的 "下一尺度預(yù)測"、NAR 的 "近鄰預(yù)測"、PAR 的分組并行解碼,雖然能大幅降低解碼步數(shù),但這些方法需要從頭預(yù)訓(xùn)練,無法復(fù)用已有的大規(guī)模預(yù)訓(xùn)練 AR 模型,訓(xùn)練成本高昂。
      • 離散擴(kuò)散適配:例如 Emu3.5 原文采用的 DiDA,他們通過后訓(xùn)練將 AR 模型改造為支持并行解碼的離散擴(kuò)散模型。但這種方法改變了原始的預(yù)測目標(biāo),引入了預(yù)訓(xùn)練和推理之間的不一致性,往往導(dǎo)致生成質(zhì)量顯著下降,在我們的復(fù)現(xiàn)實驗中,相同數(shù)據(jù)量,Emu3.5 在 block diffusion 后訓(xùn)練過程中,geneval 分?jǐn)?shù)會在總體會有一個比較大的 drop
      • 推測解碼:作為一種無需訓(xùn)練的加速插件,實際加速效果受限于草稿模型的接受率,提升效果相對比較有限。

      這就引出了一個關(guān)鍵的開放性問題:能否在不從頭訓(xùn)練、不改變原始預(yù)測目標(biāo)的前提下,將已有的預(yù)訓(xùn)練 AR 模型改造成高度并行的生成器,同時繼承其強(qiáng)大的生成能力?

      來自浙江大學(xué)和阿德萊德大學(xué)的研究團(tuán)隊提出了FlashAR—— 一個輕量級的后訓(xùn)練加速框架。不需要從頭訓(xùn)練,在 Emu3.5-Image-34B 模型上,僅用原始訓(xùn)練數(shù)據(jù)的 0.05%(約 8 萬張圖片),就能將預(yù)訓(xùn)練好的自回歸模型改造成高度并行的生成器 Emu3.5-34B-Flash,實現(xiàn)最高22.9 倍的端到端加速。





      • 論文標(biāo)題:FlashAR: Efficient Post-Training Acceleration for Autoregressive Image Generation
      • 論文主頁:https://lxazjk.github.io/FlashAR/
      • 論文鏈接:https://arxiv.org/abs/2605.09430
      • 代碼鏈接:https://github.com/lxazjk/Emu3.5-FlashAR

      核心思路:從 "逐個生成" 到 "對角線并行"

      傳統(tǒng)的自回歸圖像生成模型遵循嚴(yán)格的光柵掃描順序 —— 從左到右、從上到下,每一步只預(yù)測水平方向的下一個 token。對于一張由 H×W 個 token 構(gòu)成的圖像,需要 H×W 步才能完成生成。

      FlashAR 的關(guān)鍵洞察在于:圖像天然具有 2D 結(jié)構(gòu),如果我們?yōu)槟P托略龃怪狈较虻南乱粋€ token 的預(yù)測能力,在每個步驟中,水平解碼頭和垂直解碼頭并行工作,解碼步數(shù)從 H×W 驟降至 H+W-1。以 512×512 分辨率(16×16 下采樣倍率)為例,解碼步數(shù)從 1024 步直接降到 63 步。

      但要讓一個已經(jīng)訓(xùn)練好的 "水平方向" 預(yù)測模型具備 "垂直方向" 預(yù)測能力,并不容易。FlashAR 為此設(shè)計了三個關(guān)鍵組件:



      1. 中間層分支(Intermediate Branching)

      FlashAR 沒有把輕量級的 Vertical Head 接在預(yù)訓(xùn)練模型的最終層,而是從中間層分出一條支路,讓它和原有的水平預(yù)測頭并行工作。

      為什么不直接用最終層?因為經(jīng)過完整訓(xùn)練后,最終層特征已經(jīng)更偏向原本的水平方向光柵預(yù)測任務(wù),針對這個目標(biāo)做了充分適配,但也因此不一定適合再拿來做垂直方向預(yù)測。相比之下,中間層往往還保留著更豐富的二維空間信息,用來適配新的預(yù)測方向會更自然。

      這樣的設(shè)計還有一個額外好處:從中間層分支之后,Vertical Head 可以和原有分支并行執(zhí)行,從而為整體吞吐帶來提升。

      我們也在消融實驗里驗證了這一點(diǎn)。具體來說,我們用 linear probing 系統(tǒng)評估了預(yù)訓(xùn)練模型不同層的特征,結(jié)果發(fā)現(xiàn),最終層特征并不是最適合做垂直預(yù)測的。這也進(jìn)一步支持了我們從中間層引出 Vertical Head 的設(shè)計。



      2. 可學(xué)習(xí)融合門(Learnable Fusion Gate)

      水平和垂直方向的預(yù)測分別建模了互補(bǔ)的空間依賴,其貢獻(xiàn)在不同空間位置上并不一致。基于這一觀察,F(xiàn)lashAR 引入了一個輕量級的 MLP 融合門,在逐位置的粒度上自適應(yīng)地融合兩個方向的預(yù)測結(jié)果,以避免簡單平均所導(dǎo)致的預(yù)測模糊。

      3. 兩階段適配訓(xùn)練(Two-Stage Adaptation)

      具體而言,訓(xùn)練過程分為兩個階段:

      • 在第一階段,凍結(jié)骨干網(wǎng)絡(luò),僅優(yōu)化垂直預(yù)測頭,以使其快速學(xué)習(xí)到有意義的預(yù)測能力;
      • 在第二階段,進(jìn)一步聯(lián)合微調(diào)垂直預(yù)測頭和骨干網(wǎng)絡(luò),使模型更好地適配新的解碼范式。這樣的漸進(jìn)式訓(xùn)練策略提升了后訓(xùn)練過程的穩(wěn)定性,并提高了數(shù)據(jù)利用效率。

      在推理階段,F(xiàn)lashAR 還部署了硬件感知的推理優(yōu)化管線:利用 FlexAttention 動態(tài)編譯稀疏的二維近鄰注意力掩碼,配合批量化 KV 緩存更新,將理論上的并行性切實轉(zhuǎn)化為真實的加速效果。

      實驗結(jié)果

      Emu3.5-Image-34B 加速

      將 FlashAR 擴(kuò)展到 340 億參數(shù)的 Emu3.5 模型上,是對框架能力的嚴(yán)格考驗:



      用0.05%的原始訓(xùn)練數(shù)據(jù)(80M token,約 8 萬張圖片),F(xiàn)lashAR 將 512×512 圖像生成速度從 130.10 秒壓縮到 5.68 秒,實現(xiàn)22.9 倍加速。更關(guān)鍵的是,加速幾乎不損失質(zhì)量。在 GenEval 基準(zhǔn)上,F(xiàn)lashAR 的 GenEval 總分僅下降 0.19 分(80.48→80.29),在顏色(+1.59)和位置(+7.00)兩個子項上甚至超過了原始模型。相比之下,BlockDiffusion 在相同設(shè)置下性能大幅下降至 73.83。

      ImageNet 類別條件生成

      在 ImageNet 256×256 基準(zhǔn)上,F(xiàn)lashAR 在四個模型規(guī)模(B/L/XL/XXL)上全面超越現(xiàn)有后訓(xùn)練方法 BlockDiffusion。



      值得注意的是:

      • FlashAR-L 的 IS(289.0)甚至超過了從頭訓(xùn)練的 NAR-L(263.9),而 FlashAR 僅需輕量級后訓(xùn)練;
      • FlashAR-B 達(dá)到 447.2 img/s 的吞吐量,超過了 NAR-B(419.7 img/s);
      • FlashAR 僅需25 個 epoch的后訓(xùn)練 —— 只有 BlockDiffusion 訓(xùn)練量的三分之一。

      為什么 FlashAR 如此高效?

      我們總結(jié)了 FlashAR 的核心優(yōu)勢

      • 無需從頭訓(xùn)練:直接復(fù)用現(xiàn)有預(yù)訓(xùn)練 AR 模型,通過輕量后訓(xùn)練實現(xiàn)加速;
      • 數(shù)據(jù)極致高效:僅需 0.05% 的原始訓(xùn)練數(shù)據(jù);
      • 性能保持優(yōu)異:生成質(zhì)量幾乎無損,部分指標(biāo)甚至提升;
      • 框架通用性強(qiáng):在 LlamaGen(120M~1.4B)和 Emu3.5(34B)上均驗證有效;
      • 實際加速顯著:最高 22.9 倍端到端加速。

      FlashAR 證明了一個重要觀點(diǎn):通過精心設(shè)計的后訓(xùn)練適配,可以在幾乎不改變原始模型訓(xùn)練目標(biāo)的前提下,將自回歸模型改造成高度并行的生成器,完整繼承預(yù)訓(xùn)練模型的強(qiáng)大能力。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      3-0衛(wèi)冕冠軍!9.7億豪門加冕三冠王 神鋒決賽戴帽+61球創(chuàng)98年神跡

      3-0衛(wèi)冕冠軍!9.7億豪門加冕三冠王 神鋒決賽戴帽+61球創(chuàng)98年神跡

      狍子歪解體壇
      2026-05-24 04:05:32
      日本耕地6500萬畝,年產(chǎn)1100萬噸糧食,江蘇6223萬畝,年產(chǎn)多少

      日本耕地6500萬畝,年產(chǎn)1100萬噸糧食,江蘇6223萬畝,年產(chǎn)多少

      抽象派大師
      2026-05-18 00:06:29
      心理學(xué):長壽的男人,往往有這兩種“生理性”愛好

      心理學(xué):長壽的男人,往往有這兩種“生理性”愛好

      心理觀察局
      2026-05-22 07:18:12
      震驚!南通一老牌飯店被曝缺斤少兩?!

      震驚!南通一老牌飯店被曝缺斤少兩?!

      好通網(wǎng)
      2026-05-24 16:17:30
      建國后,為何把"六大名著"變成"四大名著"?被淘汰的兩部家喻戶曉!

      建國后,為何把"六大名著"變成"四大名著"?被淘汰的兩部家喻戶曉!

      每日一首古詩詞
      2026-05-22 21:43:26
      巴菲特大動作!重磅押注AI巨頭

      巴菲特大動作!重磅押注AI巨頭

      商業(yè)模式桑博士
      2026-05-24 07:48:19
      阿斯:穆帥仔細(xì)觀看了皇馬近幾場比賽,已明確球隊需補(bǔ)強(qiáng)位置

      阿斯:穆帥仔細(xì)觀看了皇馬近幾場比賽,已明確球隊需補(bǔ)強(qiáng)位置

      懂球帝
      2026-05-24 18:21:45
      綠聯(lián)推出45W單USB-C帶屏充電頭:“斜切”設(shè)計,119元

      綠聯(lián)推出45W單USB-C帶屏充電頭:“斜切”設(shè)計,119元

      IT之家
      2026-05-22 17:47:16
      上海交大的“天才少女”,讓當(dāng)代女大學(xué)生成為“最差的一屆”

      上海交大的“天才少女”,讓當(dāng)代女大學(xué)生成為“最差的一屆”

      將軍箭
      2026-05-21 14:07:13
      張召忠曾預(yù)測:如果中國不用核武器,4小時就能拿下日本!

      張召忠曾預(yù)測:如果中國不用核武器,4小時就能拿下日本!

      賤議你讀史
      2026-05-24 00:17:43
      這3種魚中老年人要常吃,不是鱸魚、不是鯽魚,刺少、低脂高蛋白

      這3種魚中老年人要常吃,不是鱸魚、不是鯽魚,刺少、低脂高蛋白

      江江食研社
      2026-05-24 14:30:07
      趙麗穎突然發(fā)博官宣,全網(wǎng)沸騰,憋了一年多的大招終于放出來了

      趙麗穎突然發(fā)博官宣,全網(wǎng)沸騰,憋了一年多的大招終于放出來了

      孤傲何妨初
      2026-05-23 22:33:35
      安徽省紀(jì)委監(jiān)委通報:伊茂森被查!另有3名干部被查處

      安徽省紀(jì)委監(jiān)委通報:伊茂森被查!另有3名干部被查處

      鳳凰網(wǎng)安徽
      2026-05-24 16:20:07
      還有8天,鄭麗文將啟程赴美,沒料到,美國“欽差”給她個下馬威

      還有8天,鄭麗文將啟程赴美,沒料到,美國“欽差”給她個下馬威

      健身狂人
      2026-05-24 13:35:54
      醫(yī)生發(fā)飆:“我道歉個屁!你去叫派出所來!”

      醫(yī)生發(fā)飆:“我道歉個屁!你去叫派出所來!”

      醫(yī)脈圈
      2026-05-24 20:08:16
      從皇馬棄子到梅西驚嘆的“瘋狂天才”,尼科·帕斯憑何用900萬撬動伯納烏?

      從皇馬棄子到梅西驚嘆的“瘋狂天才”,尼科·帕斯憑何用900萬撬動伯納烏?

      生活新鮮市
      2026-05-24 10:21:41
      唯一擔(dān)任過共青團(tuán)書記的解放軍少將宋德福:他從沒有穿過將軍禮服

      唯一擔(dān)任過共青團(tuán)書記的解放軍少將宋德福:他從沒有穿過將軍禮服

      浩渺青史
      2026-05-24 01:23:49
      拜仁僅靠3人進(jìn)球贏得德國杯冠軍,創(chuàng)造賽事自68-69賽季后紀(jì)錄

      拜仁僅靠3人進(jìn)球贏得德國杯冠軍,創(chuàng)造賽事自68-69賽季后紀(jì)錄

      懂球帝
      2026-05-24 05:30:36
      楊振寧去世5個月后,49歲翁帆現(xiàn)狀:剪了頭發(fā)染了色,仍獨(dú)居國內(nèi)

      楊振寧去世5個月后,49歲翁帆現(xiàn)狀:剪了頭發(fā)染了色,仍獨(dú)居國內(nèi)

      照見古今
      2026-03-26 19:06:28
      我如今已68了,以親身血淚教訓(xùn)告訴你:不要跟任何人,包括你的父母、子女、枕邊人,分享這兩件事

      我如今已68了,以親身血淚教訓(xùn)告訴你:不要跟任何人,包括你的父母、子女、枕邊人,分享這兩件事

      心理觀察局
      2026-05-23 07:00:06
      2026-05-24 21:04:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      13069文章數(shù) 142652關(guān)注度
      往期回顧 全部

      科技要聞

      我戴著攝像頭上班,正在幫AI搶走我飯碗

      頭條要聞

      老板因工人墜亡賠百萬又被罰175萬 抵押父親房產(chǎn)繳罰金

      頭條要聞

      老板因工人墜亡賠百萬又被罰175萬 抵押父親房產(chǎn)繳罰金

      體育要聞

      唐斯發(fā)牌,大頭逆襲:騎士跌向殘忍夏季

      娛樂要聞

      王鶴棣掉粉超20萬!代言和作品遭抵制

      財經(jīng)要聞

      什么情況下,本輪AI大行情會結(jié)束?

      汽車要聞

      2027款星途瑤光上市 把"全球車"標(biāo)準(zhǔn)卷進(jìn)13萬級市場

      態(tài)度原創(chuàng)

      家居
      數(shù)碼
      藝術(shù)
      手機(jī)
      時尚

      家居要聞

      低調(diào)傳承 溫潤沉靜

      數(shù)碼要聞

      聯(lián)力調(diào)整水冷漏液保障:無法購買原產(chǎn)品將按當(dāng)下市價全額賠付

      藝術(shù)要聞

      這位法國畫家不簡單,36歲獲法國藝術(shù)家沙龍金質(zhì)勛章,45歲又獲榮譽(yù)勛章!

      手機(jī)要聞

      榮耀WIN Turbo系列手機(jī)三色官圖發(fā)布,5月29日發(fā)布

      伊姐周六熱推:電視劇《嫁金枝》;電視劇《大唐迷霧 第一季》......

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲色无码国产精品网站可下载| 欧美日韩国产在线人| 欧美国产日本精品一区二区三区| 欧美家庭乱伦XX| V11亚二新区乱码无人区| 丝袜美腿亚洲一区二区| 亚洲国产成人综合精品| 刺激一区仑乱| 国产亚洲精品欧洲在线观看 | 深夜福利| 色99久久久久高潮综合影院| 99国产精品欧美一区二区三区| 国内精品久久人妻无码不卡| 国产精品无码一本二本三本色| 亚洲国产精品尤物YW在线| 麻豆蜜桃AV蜜臀AV色欲AV| wwwww黄| 午夜短视频日韩免费| 亚洲熟妇色xxxxx欧美老妇| 国产精品九九久久精品女同| 国产精品亚欧美一区二区三区| 丁香五月综合网| 亚洲人成网站日本片| 久久精品免视看国产成人| av中文字幕不卡| 538任你爽精品视频国产| 蜜桃福利导航| 国产精品蜜芽在线观看| 日本乱子伦一区二区三区| 一区二区三区无码高清视频 | 在线成人av| 国产精品久久福利新婚之夜| av电影在线观看| 国产精品一区二区中文| 国产99reb| 亚洲永久免费精网站| 中文国产成人精品久久APP| 国产对白老熟女正在播放| 国产精品专区在线| 正在播放的国产A一片| 久久人妻无码aⅴ毛片a片直播|