網易首頁 > 網易號 > 正文申請入駐

告別多獎勵蹺蹺板：Flow-OPD將多教師OPD帶入圖像生成

2026-05-25 14:49:32　來源: 機器之心Pro

天津舉報

分享至

本文由中國科學技術大學、加州大學洛杉磯分校、香港中文大學和小紅書等機構合作完成。共同作者第一為中國科學技術大學一年級研究生方鎮，他的研究方向為通用多模態智能體。

今年以來，在線策略蒸餾 OPD（On-Policy Distillation）已經逐漸成為大廠 LLM 后訓練中的重要組件，例如DeepSeek-V4，GLM5就使用了多教師 OPD 來整合不同領域專家模型的能力，相比混合獎勵強化學習收斂更快、效果更好。

那么這樣一種高效直觀的多教師 OPD 策略是否能夠應用于圖像生成任務呢？如果可行，這將是構建涵蓋多種生成內容、生成質量良好、風格多樣的超強通才文生圖模型的一次有益嘗試！

最近，來自 USTC、UCLA、CUHK 和小紅書的研究團隊開創性地提出了Flow-OPD，這是首個將 OPD 引入流匹配模型的統一多任務后訓練框架，為構建可靠、多維度泛化的視覺基礎模型提供了高度可擴展的對齊新范式。

論文標題：Flow-OPD: On-Policy Distillation for Flow Matching Models
論文鏈接
https://arxiv.org/abs/2605.08063
項目主頁
https://costaliya.github.io/Flow-OPD/
代碼地址
https://github.com/CostaliyA/Flow-OPD

一、核心問題：GRPO 在多任務中的系統性失效

在流匹配模型的后訓練對齊中，核心問題在于模型無法同時兼顧多個異構的對齊任務，陷入了嚴重的「蹺蹺板效應」。

具體表現為：

單獎勵 GRPO雖然能在孤立的單目標任務中讓模型逼近性能天花板，但會導致非目標領域的對齊能力發生嚴重退化，引發「獎勵黑客」行為，如上圖所示，使用 GenEval 進行強化學習訓練的模型無法成功完成文字渲染和風格化生成任務；

混合獎勵 GRPO試圖通過簡單堆疊或混合多個標量獎勵函數來進行聯合優化，卻根本無法建立穩定的認知基礎，每當引入新的獎勵信號時，就會引發此前已習得能力的災難性遺忘與參數吞噬。如下表所示，每當有新的獎勵模型加入訓練，模型進行基礎視覺生成和文本渲染的能力都會下降。

無論是 GRPO 單獨訓練還是混合訓練，其核心癥結在于稀疏的標量獎勵無法有效調和異構任務之間的梯度沖突，導致單獨訓練時因缺乏多維監督而引發非目標能力的嚴重降級，而混合訓練則會因異構梯度間的參數內耗觸發對先前能力的災難性遺忘。

那么，是否存在一種訓練方式，在每一種任務上都能達到對應的能力上界呢？是否可以通過一種方式，將多個單獎勵訓練的「教師模型」壓縮進一個「學生」，從而構建通才流匹配文生圖模型呢？

二、Flow-OPD：首個流匹配模型的 OPD 合版后訓練框架

對于相似的多任務優化難題，DeepSeek-V4 和 GLM5 等模型成功啟發了我們進行一種另外的嘗試：多教師 OPD 合版。通過學生模型的在線 rollout 和教師模型的稠密獎勵巧妙解決了多任務的梯度沖突。

Flow-OPD 的訓練框架如上圖所示：

首先通過單獎勵 GRPO 培養對應任務的教師；

對學生模型進行冷啟動，這里包含兩種冷啟動策略，分別是監督微調 SFT 和模型融合。冷啟動賦予了較高的初始表現，可以促使學生模仿教師的生成模式，從而快速收斂；

多教師 OPD 蒸餾：Flow-OPD 的核心思想是讓學生模型通過「實踐」暴露自身的錯誤與偏差，并在自己生成的圖像路徑上，實時接受不同專家教師的精準指引。訓練時，學生模型通過帶有隨機性的動態探索，自主生成圖像的演變軌跡。每走到一個具體的生成步驟，系統就會根據當前的文字指令，自動將任務派發給對應的領域專家（如文字渲染專家或基礎視覺元素生成專家）。這種「術業有專攻」的硬路由機制，讓特定專家只針對自身擅長的任務提供黃金標準指導。這里我們選擇教師和學生速度場的均方誤差對標 LLM OPD 中的 KL 散度。更進一步地，我們選擇使用負均方誤差替代標準 GRPO 中的獎勵，無需組內歸一化，使用 PPO-Style 進行參數更新；

激進地優化功能性目標往往會誘發嚴重的背景模式坍塌和語義冗余。為此，Flow-OPD 引入流形錨點正則化（Manifold Anchor Regularization, MAR）。該機制維護了一個凍結的美學教師模型（Aesthetic Teacher），提供高保真的 KL 正則化，從而保證了學生的生成質量和多樣性。

三、實驗效果

為了驗證 Flow-OPD 的性能，我們使用 stable-diffusion-3.5-medium（SD-3.5-M）作為基線模型，遵循 Flow-GRPO 的數據和訓練方式進行教師訓練。

多任務性能

多任務訓練常面臨「顧此失彼」的瓶頸，而新框架 Flow-OPD 實現了突破。它在文本渲染和圖像質量等多個維度全面看齊并超越了各領域的專家模型，有效解決了多任務聯合訓練中的能力衰退與優化難題。

更重要的是，在多位導師模型集體失效的極端邊緣場景下，Flow-OPD 表現出「青出于藍」的「出師」現象（如上圖的生成橙色剪刀）。這種通過多專家協同監督的方式，成功消除了單一模型的領域偏見，促使學生模型在潛空間中融會貫通，最終探索出超越任意單一導師的更優解法。

冷啟動消融

冷啟動初始化為后續訓練快速奠定了堅實基礎。在現有方案中，監督微調（SFT）擴展性強，具備吸收異構導師能力冷啟動的潛力；模型融合（Model Merging）則能在零訓練成本下，完美對齊同構導師的各項功能。

MAR 圖像質量正則化

傳統的 GRPO 優化由于獎勵粒度過粗，容易導致模型陷入背景模式崩塌或語義冗余，而單純依賴導師模型又常面臨指令遵循度不足的困境。 MAR 成功突破了這一瓶頸。它將優化過程錨定在高保真流形上，對于所有數據全流程監督，在保持結構多樣性的同時，實現了精準的語義遵循。表格的定量結果進一步證實，MAR 引入的全局數據集監督，在圖像視覺質量與人類偏好對齊上均取得了顯著突破。

四、為什么 Flow-OPD 可以完成多任務聯合優化？

Flow-OPD 成功的核心在于在線多專家密集監督機制。傳統方法僅依賴稀疏的標量獎勵，極易引發任務間的梯度干擾。而 Flow-OPD 在在線訓練過程中，將優化實時錨定在高保真流形上，利用多位專家的密集信號進行動態、協同的引導。這種在線互動不僅化解了梯度沖突、消除了單一偏見，更讓學生模型在潛空間中融會貫通，高效實現了多任務的實時聯合優化與超越。

五、未來的研究方向

未來，Flow-OPD 框架還可向多個方向拓展：

異構導師的動態調度：探索如何動態引入不同架構、不同模態（如純文本或具身模型）的異構導師，并實現自動化的在線權重分配。

跨流形軌跡的自發演化：深入探索「超越導師」現象，研究如何讓學生模型在潛空間中自發創造出導師從未涉足過的全新最優生成軌跡。

輕量化在線蒸餾算法：開發動態專家激活（MoE 化導師集群）或參數共享機制，大幅降低多專家在線訓練時的算力和顯存開銷。

Flow-OPD 作為首次將在線策略蒸餾引入流匹配擴散模型多任務訓練的創新嘗試，成功打破了傳統聯合優化的瓶頸。它不僅實現了多能力的完美融合，更展現出「青出于藍」的超越潛力。未來，這一全新范式有望在具身智能、跨模態協同等更廣泛的領域發酵，為構建真正通用、全能的下一代生成式大模型開辟全新的演進路徑。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.