<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      BIGAI & 中科大團隊提出 MILR: 測試時隱空間推理,讓圖像生成學會「邊想邊改」丨ICLR 2026

      0
      分享至


      MILR通過在統一圖文潛在空間中進行推理時隱空間推理,在不更新模型參數的情況下同時優化文本和圖像表示,顯著提升復雜圖像生成能力。


      圖1 MILR的隱空間推理過程。黑色實線表示提取待優化的文本和圖像的隱層向量,黑色虛線表示從優化后的潛在向量解碼生成結果。

      近年來,圖像生成經歷了從 GAN 到 Diffusion,再到統一多模態模型(MUG, Multimodal Understanding and Generation)的快速發展。然而,大多數圖像生成模型仍采用“單次生成”的范式:給定文本指令后直接生成圖像,缺乏像大語言模型那樣在測試時進行反思、修正和推理的能力。相比之下,大語言模型已經通過推理機制在復雜任務上展現出顯著提升。一個自然的問題隨之出現:圖像生成模型是否也可以在生成過程中進行“推理式改進”?

      圍繞這一問題,已有工作主要沿著兩個方向展開:

      1. 在語言空間進行推理:通過改寫、擴展或反思 prompt,幫助模型更好地理解用戶指令,例如 Reprompt、Reflect-DiT 等方法;

      2. 在圖像空間進行搜索與篩選:通過多次生成候選圖像,并借助評價器或反饋機制選擇更優結果,例如 Best-of-N、PARM 或反思式生成方法。

      但這些方法通常存在以下局限:

      • 推理發生在單一模態(文本或圖像),難以實現文本理解與視覺生成之間的協同。

      • 依賴額外推理數據或重新訓練模型,開發成本較高。

      • 計算開銷較大,但更多是外部搜索或篩選,并未真正形成模型內部的跨模態推理機制。

      為了解決這一問題,來自中國科學技術大學、北京通用人工智能研究院、北京大學、清華大學和 UCLA 的研究團隊提出了MILR(Multimodal Image generation via test-time Latent Reasoning)。這項工作的核心問題是:能否不重新訓練模型,也不依賴額外推理數據,只在生成時讓模型多“想”幾步?MILR 通過在測試階段優化圖文統一隱空間 (Latent Space),直接調整模型內部的圖文表示,在不更新參數的前提下改進文本理解與圖像結構,從而顯著提升復雜指令下的圖像生成能力。該論文已被ICLR 2026接收。


      論文鏈接:https://arxiv.org/abs/2509.22761

      論文主頁:https://spatigen.github.io/milr.io/

      論文代碼:https://github.com/spatigen/milr

      01

      統一隱空間多模態聯合推理

      MILR 的核心想法很特別:它不直接在文本上推理,也不直接在像素圖像上推理,而是在模型內部的統一圖文隱空間里推理。可以把圖像生成模型想象成一個從文字到圖像的復雜流水線。用戶輸入一句話后,模型會先把文字轉成內部表示,再逐步生成圖像 token,最后解碼成圖片。傳統方法通常只關注輸入和輸出:要么改輸入 prompt,要么比較輸出圖片。但 MILR 關注的是中間過程,也就是模型內部那些同時承載文字和圖像信息的向量表示。

      在統一多模態生成模型(例如Janus-Pro)中,文本 token 和圖像 token 都可以被映射到同一個潛在向量空間。MILR 認為這個空間本身就可以成為“推理發生的地方”。也就是說,模型不必顯式寫出一長串推理過程,也不必盲目生成很多候選圖,而是可以在內部連續表示上進行優化,讓文本理解和圖像結構一起被調整。

      論文中將這一過程稱為test-time latent reasoning,也就是測試時隱空間推理。它只在推理階段發生,不改變模型參數。換句話說,MILR 不是重新訓練一個更大的模型,而是在已有模型生成圖片時,對中間潛在表示進行幾輪優化。論文明確指出,梯度只回傳到跨模態隱層表示中,也就是模型最后一層的向量中,而不會更新模型權重,因此它是一種真正的test-time推理方法。MILR的方法如圖2所示。


      圖2 MILR框架圖。MILR 在統一隱空間中進行測試時隱空間推理;在獎勵模型的指導下,它使用策略梯度方法迭代優化文本和圖像的潛在表示。獎勵模型會根據給定指令對每次生成的圖像進行評分。

      02


      用獎勵信號指導生成,讓模型知道哪里需要變好

      那么,模型怎么知道自己應該往哪個方向調整?MILR 使用了一個圖像質量或圖文一致性評價信號作為 reward。簡單理解,就是模型先根據當前潛在表示生成圖像,再由評價器判斷這張圖和原始指令是否匹配。如果獎勵更高,說明當前方向更好;如果獎勵較低,就繼續調整潛在表示。技術上,MILR 使用梯度下降REFORENCE算法來優化圖文 token 的向量表征。它不是在離散 token 空間中暴力搜索,而是在連續隱空間中尋找更好的表示。這樣做有一個直接好處:連續空間更適合梯度優化,也更容易同時調整文本理解和視覺結構。

      論文中還特別強調,MILR 不是把所有 token 都一股腦拿來優化。對于文本部分,它只優化一部分前綴 token;對于圖像部分,也只優化少量早期 token。這樣做是因為早期圖像 token 往往決定整體結構,而后續 token 更多影響細節。實驗中,研究團隊發現優化約 20% 的文本 token 和約 2% 的圖像 token,就能取得較好的效果,如圖3所示。這也讓 MILR 更像是在生成前先調整“思路”和“構圖骨架”,而不是事后修修補補。


      圖3 不同文本和圖像優化比例下的 GenEval 得分。

      03


      測試性能達到 SOTA,復雜推理任務提升明顯

      為了驗證 MILR 的效果,研究團隊在三個常用圖像生成基準上進行了測試:GenEval、T2I-CompBench 和 WISE。結果顯示,MILR 在三個基準上都取得了最優表現,在GenEval、T2I-CompBench 和 WISE 上均達到SOTA,如表1,表2所示。



      在 GenEval 上,MILR 對 Janus-Pro-7B 的提升尤其明顯。論文結果顯示,Janus-Pro-7B 原始整體分數為 0.78,加入 MILR 后提升到 0.95;其中 Counting 從 0.56 提升到 0.90,Position 從 0.77 提升到 0.98,Attribute Binding 從 0.64 提升到 0.91。這些指標對應的正是圖像生成里最容易出錯的部分:數量、位置和屬性。比如,模型需要知道“三個球”到底是三個,不是兩個或四個;需要知道“物體 A 在物體 B 上方”這樣的空間關系;還需要把顏色、材質、形狀正確綁定到對應對象上。這些能力不是單純提高圖片清晰度就能解決的,而是更接近“理解指令再生成”。 在 T2I-CompBench 和 WISE 上,MILR 同樣超過了多種非推理模型、訓練式推理模型和測試時推理方法。特別是在 WISE 中,MILR 對 base Janus-Pro-7B 的提升達到 80%,也超過了強訓練式方法 T2I-R1。研究人員同時做了樣例分析如圖4所示,說明了MILR的有效性。


      圖4 MILR定性比較分析。

      04


      MILR的Test Time Scaling和獎勵模型分析

      MILR 的一個重要特點,是可以通過增加測試時計算來提升生成效果。模型不再只是一次性生成圖片,而是在潛在空間里進行多輪優化,每多走一步,就多一次修正內部表示的機會。


      圖5 不同優化步數下,模型在三個基準上的性能表現。

      研究團隊分析了最大優化步數的影響,結果如圖5所示。結果顯示,隨著優化步數增加,MILR 在多個基準上的表現持續提升,并在約 16 步后逐漸趨于穩定,說明圖像生成模型確實可以從測試時計算擴展中受益。

      另一方面,MILR 還需要 reward model 來判斷生成圖像是否更符合指令。直觀來說,reward model 就像一個評分器,告訴模型當前生成結果是變好了還是變差了。在標準 benchmark 上,研究團隊可以使用 evaluator 作為 OracleReward;但在真實應用中,往往不存在這樣一個完美的“標準答案評分器”。因此,論文進一步測試了多種現成 reward model,包括 SelfReward、GPT-4o、UnifiedReward 和 MixedReward,結果如圖6所示。


      圖6 :使用不同獎勵模型時,模型在 GenEval 上的性能表現。

      實驗結果顯示,OracleReward 仍然取得最強表現,這并不意外;但更關鍵的是,即使使用非 oracle reward model,MILR 的整體表現仍然超過 baseline。在非 oracle 設置下,MixedReward 表現最好,說明當沒有完美評價器時,組合多個專用 critic 仍然可以構建出較強的通用獎勵信號。更值得注意的是,在計算量相當的條件下,MILR + MixedReward 仍然優于 Best-of-N + MixedReward。這說明 MILR 的提升并不只是因為“試了更多次”,而是因為它在模型內部的圖文潛在空間中進行了更主動、更結構化的推理式優化。

      05


      未來方向:從“生成圖片”走向“推理生成”

      當然,MILR 仍然有進一步拓展空間。

      1. 當前工作主要基于自回歸式統一多模態生成模型實現,而未來一個自然方向,是將這種測試時潛在推理機制擴展到 diffusion-based 多模態模型中。

      2. 與此同時,reward model 仍然是影響 MILR 表現的關鍵因素。在真實應用中很難獲得完美 reward,因此設計更通用、更可靠的獎勵模型,將是未來提升這類方法的重要方向。

      3.除此之外,MILR 也為圖像生成模型接入外部知識、世界模型或工具系統提供了新的想象空間。由于它優化的是統一圖文潛在表示,未來有望更自然地融合結構化知識、物理約束、空間關系和文化常識。由此看,MILR 的意義不只是提升 benchmark 分數,更在于提出了一條從“一次性作圖”走向“測試時推理生成”的新路徑。

      因此,未來我們不僅要關注模型是否能生成更逼真的圖像、說出更流暢的解釋,還要進一步追問,它是否能夠在圖像空間中完成規劃、維持約束、形成推理。

      06


      作者


      米亞鵬,論文第一作者,就讀于中國科學技術大學博士一年級。其主要研究方向為多模態理解與生成、智能體,圍繞多模態模型、智能體決策與生成式模型等方向在 ICLR、NeurIPS 等國際頂級會議發表論文。現師從王杰老師攻讀博士學位。

      ——本篇文章論文作者擁有所有權,轉載請聯系論文作者

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      特朗普結束訪華,專機離開北京,已當面發出邀請,回國后準備迎客

      特朗普結束訪華,專機離開北京,已當面發出邀請,回國后準備迎客

      魔神主的仇恨
      2026-05-15 19:31:45
       著名皮膚性病學家王仁林逝世,享年101歲

      著名皮膚性病學家王仁林逝世,享年101歲

      澎湃新聞
      2026-05-15 18:48:26
      618蘋果手機大跳水iPhone17跌至4000元檔抄底良機

      618蘋果手機大跳水iPhone17跌至4000元檔抄底良機

      時尚的弄潮
      2026-05-16 01:01:04
      大喜之日,伴娘在婚床上被強奸,且看當年這樁丑陋的大案始末

      大喜之日,伴娘在婚床上被強奸,且看當年這樁丑陋的大案始末

      長安一孤客
      2026-05-15 19:26:59
      急診室手記丨24歲小伙一頓油燜大蝦“吃”進ICU,關鍵指標超標36倍!

      急診室手記丨24歲小伙一頓油燜大蝦“吃”進ICU,關鍵指標超標36倍!

      鬼菜生活
      2026-05-15 01:07:15
      基本盤被指用來嘲諷有愛國情懷的人

      基本盤被指用來嘲諷有愛國情懷的人

      映射生活的身影
      2026-05-13 21:13:11
      廣州人均GDP,從全國平均值的3.7倍到1.7倍

      廣州人均GDP,從全國平均值的3.7倍到1.7倍

      安安小小姐姐說城市
      2026-05-12 06:40:08
      《主角》和《雨霖鈴》各看4集,一部昏昏欲睡,一部看上癮

      《主角》和《雨霖鈴》各看4集,一部昏昏欲睡,一部看上癮

      喜歡歷史的阿繁
      2026-05-15 17:23:19
      中美算力代差顯現:10家大廠分食75萬塊H200 Blackwell仍是禁區

      中美算力代差顯現:10家大廠分食75萬塊H200 Blackwell仍是禁區

      快科技
      2026-05-15 09:53:11
      蘇提達王后地位超穩,背后有軍方保駕護航,3大妾室只是綠葉

      蘇提達王后地位超穩,背后有軍方保駕護航,3大妾室只是綠葉

      紅袖說事
      2026-05-13 11:26:23
      《主角》張嘉益又帶著“兒子”演新劇,15歲的他長得越來越帥氣

      《主角》張嘉益又帶著“兒子”演新劇,15歲的他長得越來越帥氣

      琴琴有氧運動
      2026-05-15 22:43:02
      極狐S3官圖發布,將于北京車展開啟預售

      極狐S3官圖發布,將于北京車展開啟預售

      小唐不超速
      2026-04-15 11:57:27
      別只吃雞蛋!高蛋白食物新排名:豆腐第4,牛奶第3,第1名想不到

      別只吃雞蛋!高蛋白食物新排名:豆腐第4,牛奶第3,第1名想不到

      全球軍事記
      2026-05-08 21:21:30
      “男人的勁再大,再強壯,女人也不怕你。你征服不了她,別不信”

      “男人的勁再大,再強壯,女人也不怕你。你征服不了她,別不信”

      皓皓情感說
      2026-05-10 15:12:11
      《主角》大結局:黃正經爬上小白鞋的床被抹官職,胡三元鋃鐺入獄

      《主角》大結局:黃正經爬上小白鞋的床被抹官職,胡三元鋃鐺入獄

      情感大頭說說
      2026-05-14 18:19:23
      “宇宙級”武器?只需一片可毀滅整個太陽系,二向箔到底是什么?

      “宇宙級”武器?只需一片可毀滅整個太陽系,二向箔到底是什么?

      半解智士
      2026-05-14 12:18:52
      3天讓一眾美國高官開了眼界,魯比奧感嘆:中國軍力不愧世界第二

      3天讓一眾美國高官開了眼界,魯比奧感嘆:中國軍力不愧世界第二

      李健政觀察
      2026-05-15 18:16:45
      這場霧咋來的,持續到哪天?大連市氣象部門發布最新預報

      這場霧咋來的,持續到哪天?大連市氣象部門發布最新預報

      半島晨報
      2026-05-15 15:47:47
      定了!央視宣布拿下兩屆世界杯版權

      定了!央視宣布拿下兩屆世界杯版權

      界面新聞
      2026-05-15 18:36:59
      丁海峰夫婦凌晨1點機場接娃,兒子身高超190,長相隨媽比爸爸還帥

      丁海峰夫婦凌晨1點機場接娃,兒子身高超190,長相隨媽比爸爸還帥

      八怪娛
      2026-05-14 11:08:39
      2026-05-16 04:11:00
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7280文章數 20751關注度
      往期回顧 全部

      科技要聞

      直降千元起步!蘋果華為率先開啟618讓利

      頭條要聞

      黃仁勛在北京喝豆汁痛苦皺眉 問“這是什么東西”

      頭條要聞

      黃仁勛在北京喝豆汁痛苦皺眉 問“這是什么東西”

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      藝術
      健康
      游戲
      教育
      房產

      藝術要聞

      1008米!沙特“世界第一高樓”項目,為何極有可能建成?

      專家揭秘干細胞回輸的安全風險

      《街霸6》春麗新品來了!招牌肉腿完美還原

      教育要聞

      兒子不讓用水刷鞋,無知家長被嘲:非要孩子考不上大學,你才高興

      房產要聞

      老黃埔熱銷之下,珠江春,為何去化僅3成?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 永久免费精品性爱网站| 九九re线精品视频在线观看视频| 欧洲熟妇色xxxx欧美老妇多毛| 欧美人与zoxxxx另类| 无码少妇一区二区性色av | 久久精品99国产国产精| 国产AV无码专区亚洲AV中文| 国产精品中文字幕免费| 日本道精品一区二区三区| 五月婷久久麻豆国产| 亚洲精品久久久久久久观看| 亚洲五月综合缴情在线观看| 粉嫩av国产一区二区三区| 中国少妇内射xxxhd| 国产精品久久久久久福利漫画| 久久精品66免费99精品| 中文字幕一区在线观看视频| 久久国产免费观看精品3| 国内精品久久人妻无码不卡| 精品国产一区二区三区四区色| 色欲色香天天天综合vvv| 亚洲精品成人a在线观看| 亚洲中文无码av永久伊人| 亚洲秘无码一区二区三区欧美| 国产原创自拍三级在线观看| 日韩乱码人妻无码中文字幕视频| 美国特级A毛片免费网站| 国产免费福利网站| 中文字幕人妻无码系列第三区| 久久精品www人人爽人人| 亚洲日韩AV一区二区三区四区 | 黄色一级片免费观看| 夜夜高潮夜夜爽国产伦精品| 国产精品爱久久久久久久电影蜜臀| 国产精品xxx大片免费观看| 国产精品视频公开费视频| 91免费精品国偷自产在线在线| 日韩av最新| 国产精品欧美亚洲韩国日本久久| 国产aⅴ一区二区三区| 女m羞辱调教视频网站|