<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      告別多獎勵蹺蹺板:Flow-OPD將多教師OPD帶入圖像生成

      0
      分享至



      本文由中國科學技術大學、加州大學洛杉磯分校、香港中文大學和小紅書等機構合作完成。共同作者第一為中國科學技術大學一年級研究生方鎮,他的研究方向為通用多模態智能體。

      今年以來,在線策略蒸餾 OPD(On-Policy Distillation)已經逐漸成為大廠 LLM 后訓練中的重要組件,例如DeepSeek-V4,GLM5就使用了多教師 OPD 來整合不同領域專家模型的能力,相比混合獎勵強化學習收斂更快、效果更好。

      那么這樣一種高效直觀的多教師 OPD 策略是否能夠應用于圖像生成任務呢?如果可行,這將是構建涵蓋多種生成內容、生成質量良好、風格多樣的超強通才文生圖模型的一次有益嘗試!

      最近,來自 USTC、UCLA、CUHK 和小紅書的研究團隊開創性地提出了Flow-OPD,這是首個將 OPD 引入流匹配模型的統一多任務后訓練框架,為構建可靠、多維度泛化的視覺基礎模型提供了高度可擴展的對齊新范式。





      • 論文標題:Flow-OPD: On-Policy Distillation for Flow Matching Models
      • 論文鏈接
      • https://arxiv.org/abs/2605.08063
      • 項目主頁
      • https://costaliya.github.io/Flow-OPD/
      • 代碼地址
      • https://github.com/CostaliyA/Flow-OPD

      一、核心問題:GRPO 在多任務中的系統性失效



      在流匹配模型的后訓練對齊中,核心問題在于模型無法同時兼顧多個異構的對齊任務,陷入了嚴重的「蹺蹺板效應」。

      具體表現為:

      單獎勵 GRPO雖然能在孤立的單目標任務中讓模型逼近性能天花板,但會導致非目標領域的對齊能力發生嚴重退化,引發「獎勵黑客」行為,如上圖所示,使用 GenEval 進行強化學習訓練的模型無法成功完成文字渲染和風格化生成任務;

      混合獎勵 GRPO試圖通過簡單堆疊或混合多個標量獎勵函數來進行聯合優化,卻根本無法建立穩定的認知基礎,每當引入新的獎勵信號時,就會引發此前已習得能力的災難性遺忘與參數吞噬。如下表所示,每當有新的獎勵模型加入訓練,模型進行基礎視覺生成和文本渲染的能力都會下降。



      無論是 GRPO 單獨訓練還是混合訓練,其核心癥結在于稀疏的標量獎勵無法有效調和異構任務之間的梯度沖突,導致單獨訓練時因缺乏多維監督而引發非目標能力的嚴重降級,而混合訓練則會因異構梯度間的參數內耗觸發對先前能力的災難性遺忘。

      那么,是否存在一種訓練方式,在每一種任務上都能達到對應的能力上界呢?是否可以通過一種方式,將多個單獎勵訓練的「教師模型」壓縮進一個「學生」,從而構建通才流匹配文生圖模型呢?

      二、Flow-OPD:首個流匹配模型的 OPD 合版后訓練框架

      對于相似的多任務優化難題,DeepSeek-V4 和 GLM5 等模型成功啟發了我們進行一種另外的嘗試:多教師 OPD 合版。通過學生模型的在線 rollout 和教師模型的稠密獎勵巧妙解決了多任務的梯度沖突。



      Flow-OPD 的訓練框架如上圖所示:

      • 首先通過單獎勵 GRPO 培養對應任務的教師;

      • 對學生模型進行冷啟動,這里包含兩種冷啟動策略,分別是監督微調 SFT 和模型融合。冷啟動賦予了較高的初始表現,可以促使學生模仿教師的生成模式,從而快速收斂;

      • 多教師 OPD 蒸餾:Flow-OPD 的核心思想是讓學生模型通過「實踐」暴露自身的錯誤與偏差,并在自己生成的圖像路徑上,實時接受不同專家教師的精準指引。訓練時,學生模型通過帶有隨機性的動態探索,自主生成圖像的演變軌跡。每走到一個具體的生成步驟,系統就會根據當前的文字指令,自動將任務派發給對應的領域專家(如文字渲染專家或基礎視覺元素生成專家)。這種「術業有專攻」的硬路由機制,讓特定專家只針對自身擅長的任務提供黃金標準指導。這里我們選擇教師和學生速度場的均方誤差對標 LLM OPD 中的 KL 散度。更進一步地,我們選擇使用負均方誤差替代標準 GRPO 中的獎勵,無需組內歸一化,使用 PPO-Style 進行參數更新;

      • 激進地優化功能性目標往往會誘發嚴重的背景模式坍塌和語義冗余。為此,Flow-OPD 引入流形錨點正則化(Manifold Anchor Regularization, MAR)。該機制維護了一個凍結的美學教師模型(Aesthetic Teacher),提供高保真的 KL 正則化,從而保證了學生的生成質量和多樣性。

      三、實驗效果


      為了驗證 Flow-OPD 的性能,我們使用 stable-diffusion-3.5-medium(SD-3.5-M)作為基線模型,遵循 Flow-GRPO 的數據和訓練方式進行教師訓練。

      多任務性能





      多任務訓練常面臨「顧此失彼」的瓶頸,而新框架 Flow-OPD 實現了突破。它在文本渲染和圖像質量等多個維度全面看齊并超越了各領域的專家模型,有效解決了多任務聯合訓練中的能力衰退與優化難題。

      更重要的是,在多位導師模型集體失效的極端邊緣場景下,Flow-OPD 表現出「青出于藍」的「出師」現象(如上圖的生成橙色剪刀)。這種通過多專家協同監督的方式,成功消除了單一模型的領域偏見,促使學生模型在潛空間中融會貫通,最終探索出超越任意單一導師的更優解法。

      冷啟動消融



      冷啟動初始化為后續訓練快速奠定了堅實基礎。在現有方案中,監督微調(SFT)擴展性強,具備吸收異構導師能力冷啟動的潛力;模型融合(Model Merging)則能在零訓練成本下,完美對齊同構導師的各項功能。

      MAR 圖像質量正則化





      傳統的 GRPO 優化由于獎勵粒度過粗,容易導致模型陷入背景模式崩塌或語義冗余,而單純依賴導師模型又常面臨指令遵循度不足的困境。 MAR 成功突破了這一瓶頸。它將優化過程錨定在高保真流形上,對于所有數據全流程監督,在保持結構多樣性的同時,實現了精準的語義遵循。表格的定量結果進一步證實,MAR 引入的全局數據集監督,在圖像視覺質量與人類偏好對齊上均取得了顯著突破。

      四、為什么 Flow-OPD 可以完成多任務聯合優化?


      Flow-OPD 成功的核心在于在線多專家密集監督機制。傳統方法僅依賴稀疏的標量獎勵,極易引發任務間的梯度干擾。而 Flow-OPD 在在線訓練過程中,將優化實時錨定在高保真流形上,利用多位專家的密集信號進行動態、協同的引導。這種在線互動不僅化解了梯度沖突、消除了單一偏見,更讓學生模型在潛空間中融會貫通,高效實現了多任務的實時聯合優化與超越。

      五、未來的研究方向


      未來,Flow-OPD 框架還可向多個方向拓展:

      • 異構導師的動態調度:探索如何動態引入不同架構、不同模態(如純文本或具身模型)的異構導師,并實現自動化的在線權重分配。

      • 跨流形軌跡的自發演化:深入探索「超越導師」現象,研究如何讓學生模型在潛空間中自發創造出導師從未涉足過的全新最優生成軌跡。

      • 輕量化在線蒸餾算法:開發動態專家激活(MoE 化導師集群)或參數共享機制,大幅降低多專家在線訓練時的算力和顯存開銷。

      Flow-OPD 作為首次將在線策略蒸餾引入流匹配擴散模型多任務訓練的創新嘗試,成功打破了傳統聯合優化的瓶頸。它不僅實現了多能力的完美融合,更展現出「青出于藍」的超越潛力。未來,這一全新范式有望在具身智能、跨模態協同等更廣泛的領域發酵,為構建真正通用、全能的下一代生成式大模型開辟全新的演進路徑。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      知恩圖報!德比斯直播百萬打賞一分不留,全捐給張雪搞中國青訓!

      知恩圖報!德比斯直播百萬打賞一分不留,全捐給張雪搞中國青訓!

      80后房車生活
      2026-05-25 14:45:06
      52歲樸樹近況:無兒無女,沒錢沒房,成了要錢不要命的“瘋子”

      52歲樸樹近況:無兒無女,沒錢沒房,成了要錢不要命的“瘋子”

      流云隨風去遠方
      2026-04-14 12:22:59
      王鶴棣經紀人發文內涵!“你躲在背后竊喜……”

      王鶴棣經紀人發文內涵!“你躲在背后竊喜……”

      美芽
      2026-05-25 15:22:18
      十大券商策略:大波段行情遠未結束!資金正往這三大方向流動

      十大券商策略:大波段行情遠未結束!資金正往這三大方向流動

      小白鴿財經
      2026-05-25 08:49:25
      竇靖童在節目中稱那英“老師”,卻遭那英反問“叫我啥?” 曝嬰兒時期叫“老那”,平時叫“那英阿姨”

      竇靖童在節目中稱那英“老師”,卻遭那英反問“叫我啥?” 曝嬰兒時期叫“老那”,平時叫“那英阿姨”

      天津生活通
      2026-05-23 14:47:55
      落選國少!雙胞胎天才曾被恒大看中 董路給幾萬元安家費截胡簽約

      落選國少!雙胞胎天才曾被恒大看中 董路給幾萬元安家費截胡簽約

      念洲
      2026-05-25 09:26:35
      學醫后才知道,腦梗最危險信號,不是手腳麻,而是頻繁出現4癥狀

      學醫后才知道,腦梗最危險信號,不是手腳麻,而是頻繁出現4癥狀

      垚垚分享健康
      2026-05-25 16:22:55
      金燦榮曾提醒,中國經濟雖遠超俄羅斯,但相比之下有一個重大弱勢

      金燦榮曾提醒,中國經濟雖遠超俄羅斯,但相比之下有一個重大弱勢

      眾生的世界觀
      2026-04-15 10:57:16
      2600萬成交!南京千萬級豪宅,天花板又被刷新

      2600萬成交!南京千萬級豪宅,天花板又被刷新

      地產銳評
      2026-05-25 18:52:03
      “統戰最高境界”?《給阿嬤的情書》引爆東南亞輿論場

      “統戰最高境界”?《給阿嬤的情書》引爆東南亞輿論場

      東方不敗然多多
      2026-05-25 14:34:07
      談判失敗,輪到中方掀桌子,拒絕美軍高層訪華,中方已定調統一

      談判失敗,輪到中方掀桌子,拒絕美軍高層訪華,中方已定調統一

      掉了顆大白兔糖
      2026-05-22 11:52:45
      裁判正常,雷霆就原形畢露?文班就應該放開掄,沒人能防住你!

      裁判正常,雷霆就原形畢露?文班就應該放開掄,沒人能防住你!

      籃球神吐槽
      2026-05-25 11:27:05
      泳渡賽事直播翻車,女選手隱私遭曝光,工作人員態度引眾怒

      泳渡賽事直播翻車,女選手隱私遭曝光,工作人員態度引眾怒

      青梅侃史啊
      2026-05-25 11:33:49
      一個時代漸落幕!詹姆斯無緣連續22年入選最佳陣容 出勤率差5場

      一個時代漸落幕!詹姆斯無緣連續22年入選最佳陣容 出勤率差5場

      醉臥浮生
      2026-05-25 07:00:14
      93年遼寧整箱77式手槍被盜,北京嚴令節前破案,兇手竟是守庫武警

      93年遼寧整箱77式手槍被盜,北京嚴令節前破案,兇手竟是守庫武警

      鑒史錄
      2026-05-24 14:07:32
      62歲布拉德·皮特被曝永不再婚:與前妻離婚后與孩子徹底疏遠

      62歲布拉德·皮特被曝永不再婚:與前妻離婚后與孩子徹底疏遠

      淺遇時光
      2026-05-24 00:01:30
      《主角》:龔麗麗給易青娥下藥!茍存忠臨死前一句話,竟救她一命

      《主角》:龔麗麗給易青娥下藥!茍存忠臨死前一句話,竟救她一命

      慢半拍sir
      2026-05-24 22:14:09
      大暴雨特大暴雨,來了

      大暴雨特大暴雨,來了

      環球網資訊
      2026-05-25 15:42:19
      比銷量下滑更可怕的是:就連生活在縣城的居民,都開始拋棄油車?

      比銷量下滑更可怕的是:就連生活在縣城的居民,都開始拋棄油車?

      南風不及你溫柔
      2026-05-21 19:27:29
      馬德興:中國U19踢土倫杯是以小打大,集訓時間短人員也不齊

      馬德興:中國U19踢土倫杯是以小打大,集訓時間短人員也不齊

      懂球帝
      2026-05-25 10:13:16
      2026-05-25 22:19:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13080文章數 142652關注度
      往期回顧 全部

      科技要聞

      華為:沒有先進光刻機也能造出高端芯片

      頭條要聞

      律師身份證丟失后被他人辦卡接收涉賭資金 成被執行人

      頭條要聞

      律師身份證丟失后被他人辦卡接收涉賭資金 成被執行人

      體育要聞

      如果不好好守門,他可能早就繼承家業了

      娛樂要聞

      李晨鄭愷跑男停宣:12年元老被邊緣化

      財經要聞

      起底煤礦“暗面”:假整改、假數據

      汽車要聞

      啟境GT7定檔5月29日預售 提供三電機版本

      態度原創

      家居
      藝術
      數碼
      本地
      公開課

      家居要聞

      生與命相依 舊公寓改造

      藝術要聞

      他把葡萄畫成了美少女

      數碼要聞

      AMD Zen 7“Grimlock”處理器將采用臺積電1.4nm制程 并評估FOPLP封裝技術

      本地新聞

      用云錦的方式,打開江蘇南京

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中文字幕乱码亚洲美女精品| 加勒比无码av中文字幕| 老色鬼永久精品网站| 欧美18在线观看| 漂亮人妻洗澡被强bd中文| 中文字幕日韩在线一区国内| 久久久久成人片免费观看r| 男同精品视频免费观看网站| 亚洲日本久久久| 日本精品视频| 成人国产精品日本在线观看| 99久久国产精品无码| 浮山县| 亚洲欧美日韩另类在线一| 日韩av色一区二区三区| 中文字幕日韩有码| 人妻洗澡被强公日日澡电影| 男女性生活交配一进一出成人久久影院| 欧美一区二区三区久久综| 国产白丝无码视频在线观看| 性饥渴少妇AV无码毛片| 琪琪电影午夜理论片八戒八戒| 18禁不禁短片| 欧美?级毛片一进一出夜本色| 国产国产人免费观看在线视频| 一区二区三区啪偷拍| 香港一级毛片免费看| 久久精品国产亚洲av麻| 日韩无码专区| 久久96热在精品国产高清| 牛牛视频一区二区三区| 欧美性精品不卡在线观看| 少妇丰满爆乳被呻吟进入| 亚洲人成网站在线小说| 国内精品久久久久久久久电影网| 人妻久久久| 欧美疯狂性受xxxxx喷水| www.99re6| 在线综合亚洲中文精品| 天天澡天天添天天摸97影院| 久久精品国产99精品最新|