告別云端依賴！字節(jié)開源新作DreamLite讓手機秒變 AI 畫板

2026-05-12 20:47:59　來源: 機器之心Pro

河北舉報

分享至

近日，字節(jié)跳動智能創(chuàng)作部門（Intelligent Creation Lab）提出新作 DreamLite，一個主干網(wǎng)絡僅有 0.39B 參數(shù)的輕量級統(tǒng)一擴散模型，在單一網(wǎng)絡內(nèi)同時支持文生圖（Text-to-Image）和圖像編輯（Text-guided Image Editing）兩個任務，是目前已知首個實現(xiàn)這一能力的端側(cè)模型。

DreamLite 在 iPhone 17 Pro 上實現(xiàn)了約 3 秒生成或編輯一張 1024×1024 圖像，完全在設備端運行，無需云端。在 GenEval、DPG、ImgEdit 等主流基準上，DreamLite 全面超越現(xiàn)有端側(cè)模型，并與參數(shù)量大 10-30 倍的服務端模型表現(xiàn)相當。

目前，DreamLite 論文與推理代碼已開源。

論文鏈接：https://arxiv.org/abs/2603.28713
項目主頁：https://carlofkl.github.io/dreamlite/
GitHub 鏈接：https://github.com/ByteVisionLab/DreamLite
在線 Demo：https://huggingface.co/spaces/carlofkl/DreamLite

當擴散模型想 "搬進手機"：兩大痛點亟待解決

在使用 FLUX、HunyuanImage、Qwen-Image 這類大模型創(chuàng)作或修圖時，用戶正在習慣 "提詞即生圖、一句話改圖" 的體驗。但當這些能力想真正走進手機、走向離線場景時，卻遇到兩個現(xiàn)實的攔路虎：

痛點一：生成與編輯，要裝兩個模型

現(xiàn)有方案中，文生圖和圖像編輯往往依賴兩個獨立的 pipeline：一個負責 "從零生成"，一個負責 "看圖改圖"。對本就內(nèi)存緊張、存儲有限的移動設備而言，同時裝下兩套數(shù)十億參數(shù)的模型，幾乎不可承受。

痛點二：質(zhì)量和速度，難以兼得

把大模型壓縮到端側(cè)可用的體量后，生成質(zhì)量往往斷崖式下跌；而如果追求畫質(zhì)和指令跟隨能力，推理延遲又會退回到 "按下按鈕等待十幾秒"，徹底喪失實時交互的意義。

更關鍵的是，真實產(chǎn)品場景里，用戶需要的是同一套應用里無縫切換 "生成一張圖片" 和 "修改這張圖片"。兩個模型意味著兩份顯存占用、兩份下載流量、兩份維護成本，這在端側(cè)尤其奢侈。

DreamLite：一個模型，兩種能力

DreamLite 的核心思想非常直接：將把 "生成" 和 "編輯" 統(tǒng)一壓進一個輕量級網(wǎng)絡里，而不是分別訓練兩個模型。圍繞這個思路，團隊做了三項關鍵設計。

1. In-Context 空間拼接：用 "占位符" 統(tǒng)一兩類任務

DreamLite 在剪枝后的 SDXL U-Net 主干上，引入了一種空間維度的 in-context 條件注入機制。具體而言，模型的輸入始終是一對左右拼接的潛變量。對于文生圖，輸入的右側(cè)參考圖為全黑占位圖，相當于 "沒有視覺條件"；對于編輯，輸入的參考圖為待編輯的原圖。

在此之上，團隊還在文本 prompt 前插入顯式任務 token（[Generate] 或 [Edit]），作為一種零參數(shù)的任務路由信號。這樣一來，同一個 U-Net 就能根據(jù)輸入自動分辨當下是 "文生圖" 還是 "編輯"，無需新增任何分支、適配器或額外模塊，天然適配緊湊主干。

2. Task-Progressive Joint Pretraining（漸進式聯(lián)合預訓練）

直接聯(lián)合訓練生成和編輯任務會導致小模型的訓練不穩(wěn)定。團隊提出了分階段的漸進式策略：

階段一｜T2I 預訓練：用大規(guī)模圖文數(shù)據(jù)，以及經(jīng)典的文生圖范式，訓練模型的生成能力；
階段二｜編輯預訓練：激活 in-context 條件，讓模型在保留原圖結(jié)構的前提下，學會 "指令編輯"；
階段三｜統(tǒng)一聯(lián)合預訓練：在同一 in-context 范式下繼續(xù)聯(lián)合優(yōu)化生成與編輯。

這種分階段的策略，讓一個 0.39B 的小模型也能穩(wěn)定習得 "生成 + 編輯" 雙重能力。

3. RLHF 對齊 + DMD2 步數(shù)蒸餾

預訓練之后，DreamLite 還經(jīng)歷兩輪 "打磨"：

高質(zhì)量 SFT + RLHF 對齊：在精選高質(zhì)量數(shù)據(jù)上監(jiān)督微調(diào)，再通過強化學習做偏好對齊。生成任務以 HPSv3 作為 reward model，編輯任務以 EditReward 作為 reward model，并采用 ReFL 完成擴散模型的偏好優(yōu)化。這一步顯著提升了美學質(zhì)量和指令跟隨能力。
DMD2 步數(shù)蒸餾：通過 Distribution Matching Distillation 2，將采樣步數(shù)從數(shù)十步壓縮到僅 4 步。

兩者疊加，DreamLite 真正具備了 "端側(cè)實時" 的現(xiàn)實可行性。最后通過量化和部署，實現(xiàn)在手機端生成 / 編輯（如下圖）。

實驗結(jié)果：躋身輕量化模型第一梯隊

1. 指標：同級壓制，越級對標

在文生圖側(cè)，DreamLite 在 GenEval 拿到 0.72、DPG 拿到 85.8；在圖像編輯側(cè)，在 ImgEdit 拿到 4.11、GEdit 拿到 6.88。在一眾基線的對比中，DreamLite 作為端側(cè)模型，不僅領先于 SnapGen、SANA 等輕量級的單任務模型，與參數(shù)量高出其 10–30 倍的服務端統(tǒng)一模型（如 FLUX、OmniGen2）相比，也展現(xiàn)出了極具競爭力的表現(xiàn)。

2. 手機實機演示：全程離線、無需聯(lián)網(wǎng)

在 iPhone 17 Pro 的實機演示中，DreamLite 可穩(wěn)定支持以下典型工作流：

人像生成 + 風格遷移：先生成人像寫真，再一鍵轉(zhuǎn)換為油畫風格；

視頻鏈接：https://mp.weixin.qq.com/s/QbATASScSyD6AX7nF2dsWw

風景生成 + 背景替換：先生成自然風景，再完成冬夏的季節(jié)切換；

視頻鏈接：https://mp.weixin.qq.com/s/QbATASScSyD6AX7nF2dsWw

商品場景 + 增刪替換：生成日常桌面場景，靈活替換物體。

視頻鏈接：https://mp.weixin.qq.com/s/QbATASScSyD6AX7nF2dsWw

完整流程全程端側(cè)運行、無需聯(lián)網(wǎng)、用戶數(shù)據(jù)不出設備，對隱私敏感場景尤其友好。

意義與展望

DreamLite 給端側(cè)生成式 AI 的落地，提供了一條相當工程化、也相當有說服力的路徑：

一個模型替代兩個：統(tǒng)一生成與編輯，直接砍掉端側(cè) "雙模型部署" 的內(nèi)存、存儲與調(diào)度開銷；
4 步出圖、秒級可用：DMD2 步數(shù)蒸餾讓實時交互成為可能，真正貼合 App 級別的產(chǎn)品體驗；
完全端側(cè)、零數(shù)據(jù)外傳：所有計算在設備本地完成，既降低云端推理成本，又從根本上規(guī)避了用戶數(shù)據(jù)上傳帶來的隱私風險；
硬件門檻大幅降低：0.39B 主干意味著在更廣泛的中低端設備上，也有機會享受到擴散模型級別的創(chuàng)作能力。

DreamLite 的意義，不只是 "在手機上又能跑一個擴散模型"。它更像是在回答一個更根本的問題：當擴散模型進入生產(chǎn)級的移動端時代，"生成" 和 "編輯" 能否作為同一個能力、由同一個小模型來承擔？

隨著端側(cè)算力的持續(xù)提升、模型組件的持續(xù)輕量化，像 DreamLite 這樣的輕量統(tǒng)一模型，很可能成為 AI 創(chuàng)作工具走向大規(guī)模、人人可用的關鍵一步 —— 把生成式 AI 從 "云端算力密集型服務"，變成 "口袋里隨時可用的畫板"。

作者介紹

Kailai Feng 為字節(jié)跳動實習生，Yuxiang Wei, Bo Chen, Yang Pan, Hu Ye, Songwei Liu, Chenqian Yan, Yuan Gao 均為字節(jié)跳動研究員

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.