網易首頁 > 網易號 > 正文申請入駐

BIGAI & 中科大團隊提出 MILR: 測試時隱空間推理，讓圖像生成學會「邊想邊改」丨ICLR 2026

2026-05-07 14:20:31　來源: AI科技評論

廣東舉報

分享至

MILR通過在統一圖文潛在空間中進行推理時隱空間推理，在不更新模型參數的情況下同時優化文本和圖像表示，顯著提升復雜圖像生成能力。

圖1 MILR的隱空間推理過程。黑色實線表示提取待優化的文本和圖像的隱層向量，黑色虛線表示從優化后的潛在向量解碼生成結果。

近年來，圖像生成經歷了從 GAN 到 Diffusion，再到統一多模態模型（MUG, Multimodal Understanding and Generation）的快速發展。然而，大多數圖像生成模型仍采用“單次生成”的范式：給定文本指令后直接生成圖像，缺乏像大語言模型那樣在測試時進行反思、修正和推理的能力。相比之下，大語言模型已經通過推理機制在復雜任務上展現出顯著提升。一個自然的問題隨之出現：圖像生成模型是否也可以在生成過程中進行“推理式改進”？

圍繞這一問題，已有工作主要沿著兩個方向展開：

1. 在語言空間進行推理：通過改寫、擴展或反思 prompt，幫助模型更好地理解用戶指令，例如 Reprompt、Reflect-DiT 等方法；

2. 在圖像空間進行搜索與篩選：通過多次生成候選圖像，并借助評價器或反饋機制選擇更優結果，例如 Best-of-N、PARM 或反思式生成方法。

但這些方法通常存在以下局限：

推理發生在單一模態（文本或圖像），難以實現文本理解與視覺生成之間的協同。

依賴額外推理數據或重新訓練模型，開發成本較高。

計算開銷較大，但更多是外部搜索或篩選，并未真正形成模型內部的跨模態推理機制。

為了解決這一問題，來自中國科學技術大學、北京通用人工智能研究院、北京大學、清華大學和 UCLA 的研究團隊提出了MILR（Multimodal Image generation via test-time Latent Reasoning）。這項工作的核心問題是：能否不重新訓練模型，也不依賴額外推理數據，只在生成時讓模型多“想”幾步？MILR 通過在測試階段優化圖文統一隱空間 (Latent Space)，直接調整模型內部的圖文表示，在不更新參數的前提下改進文本理解與圖像結構，從而顯著提升復雜指令下的圖像生成能力。該論文已被ICLR 2026接收。

論文鏈接：https://arxiv.org/abs/2509.22761

論文主頁：https://spatigen.github.io/milr.io/

論文代碼：https://github.com/spatigen/milr

統一隱空間多模態聯合推理

MILR 的核心想法很特別：它不直接在文本上推理，也不直接在像素圖像上推理，而是在模型內部的統一圖文隱空間里推理。可以把圖像生成模型想象成一個從文字到圖像的復雜流水線。用戶輸入一句話后，模型會先把文字轉成內部表示，再逐步生成圖像 token，最后解碼成圖片。傳統方法通常只關注輸入和輸出：要么改輸入 prompt，要么比較輸出圖片。但 MILR 關注的是中間過程，也就是模型內部那些同時承載文字和圖像信息的向量表示。

在統一多模態生成模型(例如Janus-Pro)中，文本 token 和圖像 token 都可以被映射到同一個潛在向量空間。MILR 認為這個空間本身就可以成為“推理發生的地方”。也就是說，模型不必顯式寫出一長串推理過程，也不必盲目生成很多候選圖，而是可以在內部連續表示上進行優化，讓文本理解和圖像結構一起被調整。

論文中將這一過程稱為test-time latent reasoning，也就是測試時隱空間推理。它只在推理階段發生，不改變模型參數。換句話說，MILR 不是重新訓練一個更大的模型，而是在已有模型生成圖片時，對中間潛在表示進行幾輪優化。論文明確指出，梯度只回傳到跨模態隱層表示中，也就是模型最后一層的向量中，而不會更新模型權重，因此它是一種真正的test-time推理方法。MILR的方法如圖2所示。

圖2 MILR框架圖。MILR 在統一隱空間中進行測試時隱空間推理；在獎勵模型的指導下，它使用策略梯度方法迭代優化文本和圖像的潛在表示。獎勵模型會根據給定指令對每次生成的圖像進行評分。

用獎勵信號指導生成，讓模型知道哪里需要變好

那么，模型怎么知道自己應該往哪個方向調整？MILR 使用了一個圖像質量或圖文一致性評價信號作為 reward。簡單理解，就是模型先根據當前潛在表示生成圖像，再由評價器判斷這張圖和原始指令是否匹配。如果獎勵更高，說明當前方向更好；如果獎勵較低，就繼續調整潛在表示。技術上，MILR 使用梯度下降REFORENCE算法來優化圖文 token 的向量表征。它不是在離散 token 空間中暴力搜索，而是在連續隱空間中尋找更好的表示。這樣做有一個直接好處：連續空間更適合梯度優化，也更容易同時調整文本理解和視覺結構。

論文中還特別強調，MILR 不是把所有 token 都一股腦拿來優化。對于文本部分，它只優化一部分前綴 token；對于圖像部分，也只優化少量早期 token。這樣做是因為早期圖像 token 往往決定整體結構，而后續 token 更多影響細節。實驗中，研究團隊發現優化約 20% 的文本 token 和約 2% 的圖像 token，就能取得較好的效果，如圖3所示。這也讓 MILR 更像是在生成前先調整“思路”和“構圖骨架”，而不是事后修修補補。

圖3 不同文本和圖像優化比例下的 GenEval 得分。

測試性能達到 SOTA，復雜推理任務提升明顯

為了驗證 MILR 的效果，研究團隊在三個常用圖像生成基準上進行了測試：GenEval、T2I-CompBench 和 WISE。結果顯示，MILR 在三個基準上都取得了最優表現，在GenEval、T2I-CompBench 和 WISE 上均達到SOTA，如表1，表2所示。

在 GenEval 上，MILR 對 Janus-Pro-7B 的提升尤其明顯。論文結果顯示，Janus-Pro-7B 原始整體分數為 0.78，加入 MILR 后提升到 0.95；其中 Counting 從 0.56 提升到 0.90，Position 從 0.77 提升到 0.98，Attribute Binding 從 0.64 提升到 0.91。這些指標對應的正是圖像生成里最容易出錯的部分：數量、位置和屬性。比如，模型需要知道“三個球”到底是三個，不是兩個或四個；需要知道“物體 A 在物體 B 上方”這樣的空間關系；還需要把顏色、材質、形狀正確綁定到對應對象上。這些能力不是單純提高圖片清晰度就能解決的，而是更接近“理解指令再生成”。在 T2I-CompBench 和 WISE 上，MILR 同樣超過了多種非推理模型、訓練式推理模型和測試時推理方法。特別是在 WISE 中，MILR 對 base Janus-Pro-7B 的提升達到 80%，也超過了強訓練式方法 T2I-R1。研究人員同時做了樣例分析如圖4所示，說明了MILR的有效性。

圖4 MILR定性比較分析。

MILR的Test Time Scaling和獎勵模型分析

MILR 的一個重要特點，是可以通過增加測試時計算來提升生成效果。模型不再只是一次性生成圖片，而是在潛在空間里進行多輪優化，每多走一步，就多一次修正內部表示的機會。

圖5 不同優化步數下，模型在三個基準上的性能表現。

研究團隊分析了最大優化步數的影響，結果如圖5所示。結果顯示，隨著優化步數增加，MILR 在多個基準上的表現持續提升，并在約 16 步后逐漸趨于穩定，說明圖像生成模型確實可以從測試時計算擴展中受益。

另一方面，MILR 還需要 reward model 來判斷生成圖像是否更符合指令。直觀來說，reward model 就像一個評分器，告訴模型當前生成結果是變好了還是變差了。在標準 benchmark 上，研究團隊可以使用 evaluator 作為 OracleReward；但在真實應用中，往往不存在這樣一個完美的“標準答案評分器”。因此，論文進一步測試了多種現成 reward model，包括 SelfReward、GPT-4o、UnifiedReward 和 MixedReward，結果如圖6所示。

圖6 ：使用不同獎勵模型時，模型在 GenEval 上的性能表現。

實驗結果顯示，OracleReward 仍然取得最強表現，這并不意外；但更關鍵的是，即使使用非 oracle reward model，MILR 的整體表現仍然超過 baseline。在非 oracle 設置下，MixedReward 表現最好，說明當沒有完美評價器時，組合多個專用 critic 仍然可以構建出較強的通用獎勵信號。更值得注意的是，在計算量相當的條件下，MILR + MixedReward 仍然優于 Best-of-N + MixedReward。這說明 MILR 的提升并不只是因為“試了更多次”，而是因為它在模型內部的圖文潛在空間中進行了更主動、更結構化的推理式優化。

未來方向：從“生成圖片”走向“推理生成”

當然，MILR 仍然有進一步拓展空間。

1. 當前工作主要基于自回歸式統一多模態生成模型實現，而未來一個自然方向，是將這種測試時潛在推理機制擴展到 diffusion-based 多模態模型中。

2. 與此同時，reward model 仍然是影響 MILR 表現的關鍵因素。在真實應用中很難獲得完美 reward，因此設計更通用、更可靠的獎勵模型，將是未來提升這類方法的重要方向。

3.除此之外，MILR 也為圖像生成模型接入外部知識、世界模型或工具系統提供了新的想象空間。由于它優化的是統一圖文潛在表示，未來有望更自然地融合結構化知識、物理約束、空間關系和文化常識。由此看，MILR 的意義不只是提升 benchmark 分數，更在于提出了一條從“一次性作圖”走向“測試時推理生成”的新路徑。

因此，未來我們不僅要關注模型是否能生成更逼真的圖像、說出更流暢的解釋，還要進一步追問，它是否能夠在圖像空間中完成規劃、維持約束、形成推理。

作者

米亞鵬，論文第一作者，就讀于中國科學技術大學博士一年級。其主要研究方向為多模態理解與生成、智能體，圍繞多模態模型、智能體決策與生成式模型等方向在 ICLR、NeurIPS 等國際頂級會議發表論文。現師從王杰老師攻讀博士學位。

——本篇文章論文作者擁有所有權，轉載請聯系論文作者

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.