![]()
近日,字節(jié)跳動智能創(chuàng)作部門(Intelligent Creation Lab)提出新作 DreamLite,一個主干網(wǎng)絡僅有 0.39B 參數(shù)的輕量級統(tǒng)一擴散模型,在單一網(wǎng)絡內(nèi)同時支持文生圖(Text-to-Image) 和圖像編輯(Text-guided Image Editing)兩個任務,是目前已知首個實現(xiàn)這一能力的端側(cè)模型。
![]()
DreamLite 在 iPhone 17 Pro 上實現(xiàn)了約 3 秒生成或編輯一張 1024×1024 圖像,完全在設備端運行,無需云端。在 GenEval、DPG、ImgEdit 等主流基準上,DreamLite 全面超越現(xiàn)有端側(cè)模型,并與參數(shù)量大 10-30 倍的服務端模型表現(xiàn)相當。
目前,DreamLite 論文與推理代碼已開源。
![]()
- 論文鏈接:https://arxiv.org/abs/2603.28713
- 項目主頁:https://carlofkl.github.io/dreamlite/
- GitHub 鏈接:https://github.com/ByteVisionLab/DreamLite
- 在線 Demo:https://huggingface.co/spaces/carlofkl/DreamLite
當擴散模型想 "搬進手機":兩大痛點亟待解決
在使用 FLUX、HunyuanImage、Qwen-Image 這類大模型創(chuàng)作或修圖時,用戶正在習慣 "提詞即生圖、一句話改圖" 的體驗。但當這些能力想真正走進手機、走向離線場景時,卻遇到兩個現(xiàn)實的攔路虎:
痛點一:生成與編輯,要裝兩個模型
現(xiàn)有方案中,文生圖和圖像編輯往往依賴兩個獨立的 pipeline: 一個負責 "從零生成",一個負責 "看圖改圖"。對本就內(nèi)存緊張、存儲有限的移動設備而言,同時裝下兩套數(shù)十億參數(shù)的模型,幾乎不可承受。
痛點二:質(zhì)量和速度,難以兼得
把大模型壓縮到端側(cè)可用的體量后,生成質(zhì)量往往斷崖式下跌;而如果追求畫質(zhì)和指令跟隨能力,推理延遲又會退回到 "按下按鈕等待十幾秒",徹底喪失實時交互的意義。
更關鍵的是,真實產(chǎn)品場景里,用戶需要的是同一套應用里無縫切換 "生成一張圖片" 和 "修改這張圖片"。兩個模型意味著兩份顯存占用、兩份下載流量、兩份維護成本,這在端側(cè)尤其奢侈。
DreamLite:一個模型,兩種能力
![]()
DreamLite 的核心思想非常直接:將把 "生成" 和 "編輯" 統(tǒng)一壓進一個輕量級網(wǎng)絡里,而不是分別訓練兩個模型。圍繞這個思路,團隊做了三項關鍵設計。
1. In-Context 空間拼接:用 "占位符" 統(tǒng)一兩類任務
DreamLite 在剪枝后的 SDXL U-Net 主干上,引入了一種空間維度的 in-context 條件注入機制。具體而言,模型的輸入始終是一對左右拼接的潛變量。對于文生圖,輸入的右側(cè)參考圖為全黑占位圖,相當于 "沒有視覺條件";對于編輯,輸入的參考圖為待編輯的原圖。
在此之上,團隊還在文本 prompt 前插入顯式任務 token([Generate] 或 [Edit]),作為一種零參數(shù)的任務路由信號。這樣一來,同一個 U-Net 就能根據(jù)輸入自動分辨當下是 "文生圖" 還是 "編輯",無需新增任何分支、適配器或額外模塊,天然適配緊湊主干。
2. Task-Progressive Joint Pretraining(漸進式聯(lián)合預訓練)
直接聯(lián)合訓練生成和編輯任務會導致小模型的訓練不穩(wěn)定。團隊提出了分階段的漸進式策略:
- 階段一|T2I 預訓練:用大規(guī)模圖文數(shù)據(jù),以及經(jīng)典的文生圖范式,訓練模型的生成能力;
- 階段二|編輯預訓練:激活 in-context 條件,讓模型在保留原圖結(jié)構的前提下,學會 "指令編輯";
- 階段三|統(tǒng)一聯(lián)合預訓練:在同一 in-context 范式下繼續(xù)聯(lián)合優(yōu)化生成與編輯。
這種分階段的策略,讓一個 0.39B 的小模型也能穩(wěn)定習得 "生成 + 編輯" 雙重能力。
3. RLHF 對齊 + DMD2 步數(shù)蒸餾
預訓練之后,DreamLite 還經(jīng)歷兩輪 "打磨":
- 高質(zhì)量 SFT + RLHF 對齊:在精選高質(zhì)量數(shù)據(jù)上監(jiān)督微調(diào),再通過強化學習做偏好對齊。生成任務以 HPSv3 作為 reward model,編輯任務以 EditReward 作為 reward model,并采用 ReFL 完成擴散模型的偏好優(yōu)化。這一步顯著提升了美學質(zhì)量和指令跟隨能力。
- DMD2 步數(shù)蒸餾:通過 Distribution Matching Distillation 2,將采樣步數(shù)從數(shù)十步壓縮到僅 4 步。
兩者疊加,DreamLite 真正具備了 "端側(cè)實時" 的現(xiàn)實可行性。最后通過量化和部署,實現(xiàn)在手機端生成 / 編輯(如下圖)。
![]()
實驗結(jié)果:躋身輕量化模型第一梯隊
1. 指標:同級壓制,越級對標
![]()
在文生圖側(cè),DreamLite 在 GenEval 拿到 0.72、DPG 拿到 85.8;在圖像編輯側(cè),在 ImgEdit 拿到 4.11、GEdit 拿到 6.88。在一眾基線的對比中,DreamLite 作為端側(cè)模型,不僅領先于 SnapGen、SANA 等輕量級的單任務模型,與參數(shù)量高出其 10–30 倍的服務端統(tǒng)一模型(如 FLUX、OmniGen2)相比,也展現(xiàn)出了極具競爭力的表現(xiàn)。
2. 手機實機演示:全程離線、無需聯(lián)網(wǎng)
在 iPhone 17 Pro 的實機演示中,DreamLite 可穩(wěn)定支持以下典型工作流:
- 人像生成 + 風格遷移:先生成人像寫真,再一鍵轉(zhuǎn)換為油畫風格;
![]()
視頻鏈接:https://mp.weixin.qq.com/s/QbATASScSyD6AX7nF2dsWw
- 風景生成 + 背景替換:先生成自然風景,再完成冬夏的季節(jié)切換;
![]()
視頻鏈接:https://mp.weixin.qq.com/s/QbATASScSyD6AX7nF2dsWw
- 商品場景 + 增刪替換:生成日常桌面場景,靈活替換物體。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/QbATASScSyD6AX7nF2dsWw
完整流程全程端側(cè)運行、無需聯(lián)網(wǎng)、用戶數(shù)據(jù)不出設備,對隱私敏感場景尤其友好。
意義與展望
DreamLite 給端側(cè)生成式 AI 的落地,提供了一條相當工程化、也相當有說服力的路徑:
- 一個模型替代兩個:統(tǒng)一生成與編輯,直接砍掉端側(cè) "雙模型部署" 的內(nèi)存、存儲與調(diào)度開銷;
- 4 步出圖、秒級可用:DMD2 步數(shù)蒸餾讓實時交互成為可能,真正貼合 App 級別的產(chǎn)品體驗;
- 完全端側(cè)、零數(shù)據(jù)外傳:所有計算在設備本地完成,既降低云端推理成本,又從根本上規(guī)避了用戶數(shù)據(jù)上傳帶來的隱私風險;
- 硬件門檻大幅降低:0.39B 主干意味著在更廣泛的中低端設備上,也有機會享受到擴散模型級別的創(chuàng)作能力。
DreamLite 的意義,不只是 "在手機上又能跑一個擴散模型"。它更像是在回答一個更根本的問題:當擴散模型進入生產(chǎn)級的移動端時代,"生成" 和 "編輯" 能否作為同一個能力、由同一個小模型來承擔?
隨著端側(cè)算力的持續(xù)提升、模型組件的持續(xù)輕量化,像 DreamLite 這樣的輕量統(tǒng)一模型,很可能成為 AI 創(chuàng)作工具走向大規(guī)模、人人可用的關鍵一步 —— 把生成式 AI 從 "云端算力密集型服務",變成 "口袋里隨時可用的畫板"。
作者介紹
Kailai Feng 為字節(jié)跳動實習生,Yuxiang Wei, Bo Chen, Yang Pan, Hu Ye, Songwei Liu, Chenqian Yan, Yuan Gao 均為字節(jié)跳動研究員
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.