<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      VeRL-Omni:面向擴散和全模態生成模型的通用RL后訓練框架

      0
      分享至



      VeRL-Omni 是一個面向多模態生成模型的通用 RL 后訓練框架,由VeRL-Omni 團隊在 verl 與 vllm-omni 之上構建。覆蓋擴散 transformer(Qwen-Image)、混合 AR-DiT(Qwen-Omni)、統一理解 + 生成(BAGEL、HunyuanImage-3.0)等架構。

      多模態 rollout 走 vLLM-Omni 的異步高吞吐 serving,VLM-as-judge / OCR 獎勵模型走 vLLM 推理,并與 rollout、訓練 overlap。Qwen-Image OCR FlowGRPO 演示中,把獎勵模型放到獨立 GPU 可將每步 wall-clock 時間降低約 14%。



      VeRL-Omni 架構

      • 代碼: github.com/verl-project/verl-omni
      • 文檔: verl-omni.readthedocs.io
      • vLLM 官方博客:vllm.ai/blog/verl-omni

      為什么需要 VeRL-Omni

      RL 已經成為把大型生成模型對齊到人類偏好與下游任務獎勵的有力手段。過去一年 LLM 的 RL 訓練棧飛快演進,但多模態生成 RL—— 覆蓋圖像 / 視頻 / 音頻理解與生成的擴散和全模態模型 —— 還有幾個關鍵缺口:

      • 擴散與全模態擴展:把 verl 的靈活性和性能延伸到多模態、非自回歸 RL 訓練的世界,包括擴散 transformer 主干(Qwen-Image)、混合 AR-DiT 架構(Qwen-Omni)、統一理解 + 生成模型(BAGEL、HunyuanImage-3.0);
      • 異構 rollout 流水線:Rollout 是連續 latent 空間里的去噪軌跡,而不是 token 序列;單次 rollout 還可能調用多個異構模型組件、走多階段流水線(text encoder → DiT → VAE);
      • 復雜的負載調度:多模態 RL 訓練的獎勵函數本身就是多模態模型(VLM judge、OCR scorer 等),多模態生成 rollout 的峰值顯存又比文本生成高得多,把這些工作流編排好并不簡單。

      關鍵特性

      • 高效的多模態 rollout:集成 vLLM-Omni 的異步高吞吐多模態生成 serving,精度與 diffusers 持平。VeRL-Omni 與 vLLM-Omni 協同,通過 step-wise continuous batching、embedding caching 等持續優化 rollout 效率。
      • 靈活的獎勵引擎:同時支持基于規則的獎勵與基于模型的獎勵(如 VLM-as-judge for OCR)。集成 vLLM 用于高效的 VLM / LLM 獎勵模型推理。獎勵計算與 rollout、訓練流程 overlap,降低端到端延遲。
      • 模塊化訓練后端:提供多種 trainer(DiffusersFSDP / Megatron / VeOmni),針對擴散和全模態模型內置優化,便于接入不同并行策略(FSDP / USP / TP)。
      • 廣泛的硬件兼容:同時支持 NVIDIA GPU 和昇騰 NPU,部署可在多種硬件后端之間靈活切換。
      • 端到端訓練 recipe 與基準:提供參考性能結果;得益于上述特性,訓練吞吐可以做得很高。

      算法與模型支持




      上手指南

      • 安裝

      詳見安裝文檔:

      https://verl-omni.readthedocs.io/en/latest/start/install.html

      • 訓練擴散模型

      examples 目錄(https://github.com/verl-project/verl-omni/tree/main/examples)提供了不同 RL 算法 trainer 的啟動腳本,覆蓋圖像 / 音頻 / 視頻理解與生成任務。訓練性能與結果可以通過 wandb 跟蹤。

      • Demo:Qwen-Image FlowGRPO 后訓練

      在 flowgrpo 示例中,團隊用 OCR 獎勵任務訓練 Qwen-Image。獎勵模型采用 Qwen3-VL-8B-Instruct,通過讀取生成圖像里的渲染文字、與數據集 ground truth 比對,對生成圖像評分。

      • flowgrpo 示例:https://github.com/verl-project/verl-omni/tree/main/examples/flowgrpo_trainer

      算法回顧



      FlowGRPO 算法示意

      FlowGRPO 示意

      FlowGRPO 是面向 flow-matching 模型的在線策略方法。它通過 diffusion policy 模型做多步 SDE 采樣以實現高效 RL 探索,并采用基于模型的獎勵評估生成質量。

      訓練流程主要分四步:

      1. Rollout 生成:擴散 policy 模型生成樣本 rollout,收集 log probability 和生成圖像的軌跡。
      2. 獎勵模型打分:獎勵模型給每個生成樣本打分,用于計算 trajectory advantage。
      3. 策略優化:用 FlowGRPO CLIP-style loss 更新策略,基于 advantage 優化獎勵。
      4. 權重同步:定期把 trainer 最新的策略權重同步到 rollout worker,確保生成樣本反映最新策略。

      LoRA 微調

      NVIDIA H800 GPU 上的訓練吞吐如下:



      把獎勵模型放到獨立 GPU 上,與策略訓練 overlap,每步 wall-clock 時間降低約 14%。

      全模型微調

      團隊還驗證了 non-CFG 全模型 Qwen-Image OCR 訓練,在 4×NVIDIA H200 上達到 0.510 images/GPU/s,每步約 250 s。

      下面可以看到,僅 120 步訓練后,生成圖像的文字渲染質量已有顯著提升。



      下面是參考訓練曲線,critic reward 與 validation reward 都收斂穩定。



      完整訓練指標說明見 Training Metrics 文檔。

      • 文檔地址:https://verl-omni.readthedocs.io/en/latest/start/metrics.html

      后續路線圖

      VeRL-Omni 仍處于活躍迭代的預發布階段,擴散 RL 核心棧已經穩定。路線圖聚焦在擴展模型 / 算法支持,并繼續推進高效多模態 RL 訓練的邊界。

      • 模型支持擴展:跟進開源的擴散和全模態模型,覆蓋圖像 / 視頻 / 音頻生成任務以及統一理解 + 生成任務;
      • 算法支持擴展:持續集成穩定、先進的 RL 算法(如 DiffusionNFT);
      • 全異步 RL:在 actor、rollout、reward 之間走端到端異步流水線,超出當前的異步獎勵范圍,進一步提升訓練吞吐和 GPU/NPU 利用率;
      • 與 vLLM-Omni 協同優化:生成 rollout 在訓練時間中占比很大,將通過更緊密的 vLLM-Omni 集成(并行、量化、batching、調度優化等)繼續加速多模態 rollout;
      • 高效全模態 trainer:在 DiffusersFSDPTrainer 之外,計劃放出更多針對全模態與擴散模型的高度優化 trainer 引擎,基于 Megatron-core 與 VeOmni;
      • 更廣的硬件支持:繼續打磨昇騰 NPU 路徑,并通過 hardware plugin 系統歡迎更多硬件后端。

      擴散和全模態 RL 后訓練只是個開始。VeRL-Omni 團隊正在持續支持更多架構與算法,歡迎一起塑造未來。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      上熱搜!一網友被豆包忽悠花了5萬元創業!這是怎么一回事?

      上熱搜!一網友被豆包忽悠花了5萬元創業!這是怎么一回事?

      王爺說圖表
      2026-05-25 17:41:20
      秦爺走了,好人終沒好報

      秦爺走了,好人終沒好報

      難得君
      2026-05-25 15:01:08
      何炅在娛樂圈這么多年不是白混的!庾澄慶被淘汰想走,何炅趕緊攔

      何炅在娛樂圈這么多年不是白混的!庾澄慶被淘汰想走,何炅趕緊攔

      樂悠悠娛樂
      2026-05-25 11:18:58
      元清算不算中國?為何康熙簽《尼布楚條約》,死活不肯用大清名號

      元清算不算中國?為何康熙簽《尼布楚條約》,死活不肯用大清名號

      小豫講故事
      2026-03-30 08:09:44
      印度談中印實力:兩國實力對等,印度空軍優于中國空軍,再戰必勝

      印度談中印實力:兩國實力對等,印度空軍優于中國空軍,再戰必勝

      觀史搜尋著
      2026-05-25 09:42:24
      張嘉譯寧可賠千萬也要換掉她,被半個娛樂圈封殺的李夢,如今怎樣

      張嘉譯寧可賠千萬也要換掉她,被半個娛樂圈封殺的李夢,如今怎樣

      琴琴有氧運動
      2026-05-23 16:24:15
      結婚15年公婆執意占主臥,我沒鬧,在外就餐5個月,丈夫撐不住了

      結婚15年公婆執意占主臥,我沒鬧,在外就餐5個月,丈夫撐不住了

      麥子情感故事
      2026-05-25 16:44:05
      賈冰這一身肌肉藏得太深了....

      賈冰這一身肌肉藏得太深了....

      健身S叔
      2026-05-25 10:59:28
      北京大雨洗出故宮驚人真容,600年歷史躲不過這宿命

      北京大雨洗出故宮驚人真容,600年歷史躲不過這宿命

      小楊歷史
      2026-05-25 14:45:54
      鄭欽文怎么了?法網首輪吞蛋落敗,世界排名將跌出百大

      鄭欽文怎么了?法網首輪吞蛋落敗,世界排名將跌出百大

      體育妞世界
      2026-05-26 03:45:03
      iPhone用戶為什么突然集體裝VPN

      iPhone用戶為什么突然集體裝VPN

      我是一個養蝦人
      2026-05-01 07:00:40
      神舟二十三成功發射不到24小時,又傳3大"好消息",個個振奮人心

      神舟二十三成功發射不到24小時,又傳3大"好消息",個個振奮人心

      阿鳧愛吐槽
      2026-05-25 13:49:49
      市場審慎對待美伊和平協議消息,海峽重開油價難歸原位

      市場審慎對待美伊和平協議消息,海峽重開油價難歸原位

      匯通網
      2026-05-25 13:03:22
      你以為是遺憾,其實是躲過一劫:這段話太通透

      你以為是遺憾,其實是躲過一劫:這段話太通透

      杏花煙雨江南的碧園
      2026-04-01 15:15:03
      春蘭杯柯潔復出首戰:121手屠龍日本七段,中盤戲耍引棋迷狂歡

      春蘭杯柯潔復出首戰:121手屠龍日本七段,中盤戲耍引棋迷狂歡

      王老師聊圍棋
      2026-05-25 22:18:15
      保密期限終到期,中央首長透露:毛岸英真相,可以向外界公開了

      保密期限終到期,中央首長透露:毛岸英真相,可以向外界公開了

      歷史點行
      2026-03-29 13:38:28
      22歲女生廣西一服務區如廁遭偷拍,無奈發聲:事發后頻繁做噩夢,對方直接將手機伸到公廁隔板下方拍攝

      22歲女生廣西一服務區如廁遭偷拍,無奈發聲:事發后頻繁做噩夢,對方直接將手機伸到公廁隔板下方拍攝

      洪觀新聞
      2026-05-25 15:44:11
      重磅信號!國務院定調,老房子又迎大利好!家家戶戶都沾光

      重磅信號!國務院定調,老房子又迎大利好!家家戶戶都沾光

      專業聊房君
      2026-05-25 07:23:03
      卡米爾爆料:卡羅琳當時很享受,這是典型的布蘭迪

      卡米爾爆料:卡羅琳當時很享受,這是典型的布蘭迪

      影視情報室
      2026-05-25 00:48:13
      女人最佳“絕經期”已公布,不是45歲,提醒:越接這個年齡段越健康!

      女人最佳“絕經期”已公布,不是45歲,提醒:越接這個年齡段越健康!

      醫脈圈
      2026-05-14 12:09:36
      2026-05-26 05:24:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13080文章數 142652關注度
      往期回顧 全部

      科技要聞

      華為:沒有先進光刻機也能造出高端芯片

      頭條要聞

      伊朗媒體披露最高領袖就醫情況

      頭條要聞

      伊朗媒體披露最高領袖就醫情況

      體育要聞

      如果不好好守門,他可能早就繼承家業了

      娛樂要聞

      李晨鄭愷跑男停宣:12年元老被邊緣化

      財經要聞

      起底煤礦“暗面”:假整改、假數據

      汽車要聞

      啟境GT7定檔5月29日預售 提供三電機版本

      態度原創

      藝術
      旅游
      健康
      教育
      公開課

      藝術要聞

      于東來計劃建小區,建筑設計用材都公開,地產界震動?

      旅游要聞

      美麗中國行|“無廢細胞”激活綠色基因——三亞探索旅游城市可持續發展新路

      幾百塊一瓶的外泌體精華,涂臉上是“智商稅”嗎?

      教育要聞

      罰抄10遍被投訴,一個電話讓全班沒了作業,孩子就毀這類家長手里

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲伊人久久综合影院| 国产欧美精品另类又又久久| 国产欧美乱码在线看| 久久免费视亚洲无码视频| 手机看片国产日韩| 国产精品视频全国免费观看| 日韩在线视频一区二区三| 超碰色导航| 精品亚洲午夜久久久久| 日本少妇高潮喷水视频| 婷婷五月花| 色噜噜狠狠大色综合| 免费 无码 国产在线观看不卡| 亚洲精品色在线网站| 亚洲欧美综合区自拍另类| 日韩av资源在线观看| 网红刘婷户外野战黑人在线免费观看| 国产精品久久久久aaaa| 亚洲岛国av一区二区| 亚洲人成在线播放网站| 午夜美女裸体福利视频| 国产成人精品无码专区| 亚洲综合国产伊人五月婷| 秋霞鲁丝片成人无码| 九九热在线观看视频免费| 亚洲精品一区久久久久一品av| 午夜日本永久乱码免费播放片| 亚洲欧美日韩国产制服另类| 免费无码久久成人网站入口| 亚洲中文字幕有码视频| 嫩草研究院久久久精品| 黑人变态另类videos| 1206手机在线观看视频| 精品无码久久久久久午夜| 国产在线亚州精品内射| 99精品自拍| 成人国产精品一区二区网站公司| 欧美成人色情视频| 免费无码又爽又刺激高潮的视频免费| 国产清纯在线一区二区| 久久久影院|