網易首頁 > 網易號 > 正文申請入駐

阿里開源：用凍結多模態大模型為文生圖訓練提供高質量Reward

2026-05-06 16:50:57　來源: 機器之心Pro

天津舉報

分享至

本文作者團隊來自阿里巴巴集團，共同第一作者為深度學習研究員劉錦龍和何旺貴，通訊作者為姜浩。

用強化學習（RL）優化文生圖模型的 prompt following 能力，是一條被廣泛驗證的路徑 —— 讓模型根據 prompt 用不同隨機種子生成多張圖片，通過 reward model 計算 reward，再利用相關 RL 算法優化模型。

這里面最核心的問題在于：reward 信號從哪來？

傳統的對齊指標如 CLIP Score 粒度過粗，無法捕捉屬性綁定、空間關系、計數等復雜語義。當前一些開源的 reward 模型（PickScore、ImageReward、HPS v2 等）受限于模型規模和有限的標注數據，難以為最前沿的工業級的文生圖模型提供有效反饋信號。而訓練一個高質量的 reward 模型往往代價不低 —— 需要耗費大量人力和成本進行標注和訓練。

另一方面，開源社區的多模態大模型（VLM）持續發展，這些模型在預訓練中見過海量圖文數據，本身就具備豐富的圖文對齊知識，是天然的圖文一致性 reward 信號來源。問題在于：如何把這些知識從 VLM 中高效地提取出來作為 reward？

為此，來自阿里巴巴的研究團隊提出了PromptEcho—— 一種無需任何標注、無需訓練 reward 模型，僅通過凍結 VLM 的一次前向推理就能獲得高質量 reward 的方法。

論文：https://arxiv.org/abs/2604.12652
開源代碼 & 模型權重：https://github.com/roooobotx/prompt_echo

核心方法：「PromptEcho」

一個直覺：如果圖畫對了，VLM 就能「復述」出 prompt

想象一下：你根據 prompt 畫了一幅畫，然后把畫給一位朋友看，然后問他「請描述這幅畫」。如果畫面忠實地描繪了「一只紅色的貓站在藍色的桌子上」，他大概率能準確復述出這些內容。VLM 也是一樣 —— 如果生成圖像忠實遵循了 prompt，VLM 在看到圖像后就能以很高的概率（似然）逐 token 復述出原始 prompt。或者說把 prompt 的內容「回響」（Echo）了回來，而這個復述的對數似然就是我們要找的 reward。

反過來，如果畫面中貓的顏色搞錯了，或者桌子不見了，VLM 復述出原始 prompt 的概率就會顯著下降，reward 隨之降低。

圖 1：PromptEcho 流程。給定生成圖像和引導 query，凍結 VLM 在 teacher-forcing 模式下計算原始 prompt 的 token 級交叉熵損失，取負值作為 reward。

具體而言，PromptEcho 有三個輸入：

然后，將圖像和 query 輸入凍結的 VLM，在teacher-forcing模式下（即不讓模型自由生成，而是強制輸入 prompt 的每個 token），計算 VLM 對原始 prompt 中每個 token 的預測概率。最終的 reward 就是：

一句話總結：reward = VLM 看到圖像后，能多大概率「復述」出原始 prompt。

這個 reward 與 VLM 預訓練的損失函數完全一致，只是優化對象從 VLM 的模型權重變成了文生圖模型生成的圖片。這種一致性正是 PromptEcho 高效的原因，它復用了 VLM 在預訓練中習得的圖文對齊知識。

為什么不直接讓 VLM 打分？

一個自然的問題是：既然用的是凍結 VLM，為什么不直接輸入 prompt 和圖片讓 VLM 推理圖文一致性評分做 reward？為了回答這個問題，研究團隊設計了一個對比方法「InferScore」—— 使用同一個凍結 VLM，但讓它以自回歸方式生成對圖文一致性的評分，作為 reward 信號。兩者的區別在于：

InferScore：讓 VLM 自回歸生成離散評分 → 受幻覺和采樣隨機性影響，reward 信號不穩定；更關鍵的是，受限于離散打分機制，對于當前最先進的文生圖模型，VLM 經常無法區分同一 prompt 下不同種子生成的多張圖片在 prompt following 程度上的細微差異 —— 很多時候對所有圖片都給出相同分數，導致 reward 信號幾乎失效
PromptEcho：通過預訓練損失函數計算連續的對數似然值 → 確定性、無采樣噪聲，天然具備細粒度區分能力

后續實驗將直接驗證這一點 —— 同樣基于 Qwen3-VL-32B，PromptEcho 全面優于 InferScore。

實驗

PromptEcho 在兩個當前最前沿的開源文生圖模型（Z-Image 和 QwenImage-2512）上進行了實驗，使用 Qwen3-VL-32B 作為 reward VLM。

訓練數據構建。研究團隊收集了約 10 萬張高質量圖片，使用 Qwen3-VL-32B 配合指令 "Describe this image in detail" 為每張圖片生成約 200–400 詞的詳細描述（dense caption），涵蓋對象、屬性、空間關系、顏色、紋理等多維信息。這些 caption 構成了 RL 訓練的 prompt 集合。

DenseAlignBench ：密集描述場景下對前沿模型的大幅改進

研究團隊從同源數據中劃出 2000 條不在訓練集中的 caption，構建了DenseAlignBench測試集。該測試集與訓練數據同源同分布，用于直接驗證 PromptEcho 的有效性。使用 Gemini-3-flash-preview 進行成對指令遵循維度的 GSB 評估：

在密集描述的場景下，PromptEcho 取得了對前沿模型的大幅改進。

公開 Benchmark：指令遵循能力提升的泛化測試

需要強調的是，以下公開 benchmark 的測試 prompt 與訓練數據在分布上存在顯著差異 PromptEcho 沒有針對任何 benchmark 做針對性訓練，以下結果完全反映指令遵循能力的泛化提升：

PromptEcho 在所有公開 benchmark 上均取得了一致的提升，體現了其 reward 信號源自 VLM 海量預訓練數據中的圖文對齊知識，具備跨分布、跨架構的泛化能力。

Reward VLM 越大越好：Scaling 有效

為了驗證 VLM 模型本身的質量對 PromptEcho 效果的影響，研究團隊在 Z-Image 上分別使用 Qwen3-VL-32B 和 Qwen3-VL-8B 作為 reward VLM 進行了對比實驗：

32B 在所有關鍵指標上領先 8B，表明 reward 質量隨 VLM 規模增長。這意味著隨著開源 VLM 持續進化，PromptEcho 的效果上限也會不斷提高。

PromptEcho vs InferScore

同樣使用 Qwen3-VL-32B，PromptEcho 和 InferScore 的對比：

InferScore 在 DenseAlignBench 上甚至不如 baseline。這個驗證了前面的結論：通過預訓練損失函數計算連續對數似然值，遠比讓 VLM 自回歸生成離散評分更可靠。

文字渲染：通用性驗證

PromptEcho 作為通用 Reward 范式

PromptEcho 的核心機制（VLM 交叉熵 reward）并不局限于文生圖模型的指令遵循優化。為了驗證其通用性，研究團隊將其遷移到了一個截然不同的任務：電商海報文字渲染。

遷移過程中，PromptEcho 的核心計算完全不變，僅需適配兩個輸入：

引導 query：從通用描述（「Describe this image in detail」）改為結構化 OCR 識別 prompt—— 要求 VLM 識別圖中所有設計 / 營銷文字，并按語義角色分類為主標題、副標題、賣點文案、其他文字
：從自然語言 caption 改為 JSON 格式的結構化文字標簽（直接從編輯指令中提取）

經過 PromptEcho 強化學習之后，在 5000 條測試樣本上，海報生成模型全圖文字正確率從68% 提升到 75%（+7pp）。這說明 PromptEcho 是一種通用的 reward 構建范式—— 只需調整引導 query 和標簽格式，同一套機制就能適配不同的圖像生成模型和優化目標，無需為每個新任務重新訓練專用 reward 模型。

Case 展示

下圖展示了一些實際的 case： QwenImage-2512（Baseline）與經過 PromptEcho 訓練后的模型在同一 prompt 下的生成對比。QwenImage-2512 作為當前最先進的開源文生圖模型，整體指令遵循能力已經不錯。可以看到，經過 PromptEcho 訓練后，模型在畫面細節、空間關系、對象計數等方面有了進一步的顯著改進。

圖 2：QwenImage-2512 Baseline vs PromptEcho 生成結果對比。

總結與展望

PromptEcho 揭示了一個簡潔而深刻的洞察：VLM 的預訓練損失函數本身就是一個高質量的文圖對齊 reward 信號。不需要標注數據，不需要訓練 reward 模型，直接利用開源 VLM 的一次前向推理，就能提供高質量的指令遵循 reward 信號。

這開辟了一條全新的 reward 構建路徑 —— 未來隨著開源社區 VLM 持續改進，PromptEcho 將獲得更高質量的 reward 信號，帶來更好的優化效果。

為了方便社區的進一步研究，研究團隊已開源代碼、模型權重和 DenseAlignBench 測試集，詳見：https://github.com/roooobotx/prompt_echo。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.