網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

CVPR 2026 多模態(tài)視覺智能全景梳理：從感知到推理的范式重寫

2026-04-30 12:43:35　來源: 雷峰網(wǎng)

北京舉報(bào)

分享至

如果回看過去十年的計(jì)算機(jī)視覺發(fā)展，其主線其實(shí)非常清晰：從早期以 ImageNet classification 為代表的“識(shí)別范式”，到以檢測(cè)、分割為核心的“結(jié)構(gòu)理解”，再到擴(kuò)散模型推動(dòng)的“生成范式”，視覺研究始終圍繞一個(gè)核心目標(biāo)展開——讓機(jī)器更準(zhǔn)確地“看見世界”。

然而，這一路徑在近兩年開始出現(xiàn)明顯的邊界：當(dāng)模型已經(jīng)可以在靜態(tài)圖像上達(dá)到接近甚至超過人類的感知水平時(shí)，“看得更準(zhǔn)”本身，正在變成一個(gè)邊際收益遞減的問題。

在這樣的背景下，在 CVPR 2026 中的一些相關(guān)工作所呈現(xiàn)出的，不再只是性能曲線的繼續(xù)上揚(yáng)，而是一種更深層的范式轉(zhuǎn)向：視覺不再被視為終點(diǎn)，而被重新定位為一種中介能力，它服務(wù)于更高層的目標(biāo)，例如推理、決策與交互。

這種變化直接體現(xiàn)在多個(gè)層面：一方面，越來越多工作開始質(zhì)疑以語言為中心的推理路徑，嘗試讓模型在視覺或潛在空間中直接完成結(jié)構(gòu)推理；另一方面，研究者也在反思現(xiàn)有評(píng)測(cè)體系與數(shù)據(jù)構(gòu)建方式，因?yàn)槿绻u(píng)價(jià)標(biāo)準(zhǔn)本身存在偏差，那么所謂的“進(jìn)步”很可能只是對(duì) benchmark 的過擬合。

更重要的是，這一屆論文并不是在單一方向上推進(jìn)，而是呈現(xiàn)出一種系統(tǒng)性重構(gòu)的跡象：推理機(jī)制上，從“始終推理”走向“按需推理”，從顯式鏈?zhǔn)酵评碜呦螂[式表示推理。

評(píng)測(cè)層面，從選擇題式的便捷評(píng)估走向更接近真實(shí)能力的開放式驗(yàn)證；模型形態(tài)上，從單一任務(wù)模型演進(jìn)為支持圖像、視頻與定位的一體化多模態(tài)系統(tǒng)；而在數(shù)據(jù)層面，則從零散數(shù)據(jù)集走向規(guī)?；?、結(jié)構(gòu)化且任務(wù)驅(qū)動(dòng)的數(shù)據(jù)基礎(chǔ)設(shè)施。

這些變化背后隱含著一個(gè)更深的共識(shí)正在形成：視覺智能的瓶頸，已經(jīng)不再只是模型能力本身，而是“推理方式、評(píng)測(cè)范式、系統(tǒng)形態(tài)與數(shù)據(jù)供給”之間的協(xié)同問題。

基于這樣的整體趨勢(shì)，AI 科技評(píng)論對(duì)本屆具有代表性的工作進(jìn)行了系統(tǒng)梳理，從推理機(jī)制的重構(gòu)、評(píng)測(cè)范式的反思、模型系統(tǒng)的演進(jìn)以及數(shù)據(jù)基礎(chǔ)設(shè)施的升級(jí)四個(gè)關(guān)鍵維度出發(fā)，選取了一系列具有標(biāo)志性意義的論文，試圖還原這一輪視覺智能范式轉(zhuǎn)變的核心脈絡(luò)。

推理，可能一直用錯(cuò)了

如果說過去的多模態(tài)研究默認(rèn)一種路徑——無論任務(wù)難易，模型都應(yīng)該通過 Chain-of-Thought 展開逐步推理，那么由 Meta AI、KAUST 以及普林斯頓大學(xué)共同提出的《 VideoAutoThink: Video Auto Reasoning via Thinking Once, Answering Twice》實(shí)際上是在動(dòng)搖這個(gè)前提本身。

在視頻理解任務(wù)中，主流方法往往依賴顯式推理來提升性能，但作者通過實(shí)驗(yàn)觀察到一個(gè)并不直觀的現(xiàn)象：對(duì)于經(jīng)過強(qiáng)化學(xué)習(xí)優(yōu)化的視頻模型，直接回答在不少情況下已經(jīng)可以達(dá)到，甚至超過帶推理的結(jié)果。這意味著問題并不在于模型缺乏推理能力，而在于“每一次都推理”本身可能是低效甚至冗余的。

基于這一點(diǎn)，論文提出了 VideoAuto-R1 框架，與其說是在增強(qiáng)推理，不如說是在重新調(diào)度推理。模型在訓(xùn)練階段采用一種“Thinking Once, Answering Twice”的機(jī)制：先生成一個(gè)初始答案，再進(jìn)行推理得到修正后的答案，并同時(shí)對(duì)這兩個(gè)輸出進(jìn)行監(jiān)督學(xué)習(xí)，使模型既具備快速響應(yīng)能力，又具備在必要時(shí)進(jìn)行深入推理的能力。

而在推理階段，模型不會(huì)固定執(zhí)行推理流程，而是根據(jù)初始答案的置信度動(dòng)態(tài)決策——如果問題簡單，則直接輸出結(jié)果；如果問題復(fù)雜，才觸發(fā)后續(xù)推理。

這種設(shè)計(jì)把“是否推理”從一個(gè)人為設(shè)定的流程，轉(zhuǎn)變?yōu)槟Ｐ妥陨砜梢詫W(xué)習(xí)的決策變量。實(shí)驗(yàn)結(jié)果進(jìn)一步說明，這種按需推理的方式不僅沒有損失性能，反而在保持當(dāng)前最優(yōu)水平的同時(shí)，將平均輸出長度減少約 3.3 倍。

同時(shí)也揭示出一個(gè)更細(xì)粒度的規(guī)律：在感知類任務(wù)中，推理的作用相對(duì)有限，而在真正需要復(fù)雜邏輯的任務(wù)中，推理才顯得關(guān)鍵。

這篇論文的亮點(diǎn)主要體現(xiàn)在三個(gè)方面。首先，它提出了一種“按需推理”的新范式，使模型不再固定執(zhí)行復(fù)雜推理流程，從而顯著提高效率。

其次，通過“雙答案訓(xùn)練機(jī)制”，模型在保持高性能的同時(shí)減少不必要的推理開銷，在實(shí)驗(yàn)中將平均輸出長度減少約 3.3 倍，同時(shí)仍達(dá)到當(dāng)前最優(yōu)水平。

最后，論文揭示了一個(gè)重要現(xiàn)象，即推理并不是在所有任務(wù)中都必要，在感知類任務(wù)中使用較少，而在復(fù)雜推理任務(wù)中才更有價(jià)值，這為后續(xù)多模態(tài)模型設(shè)計(jì)提供了重要啟發(fā) 。

總體來看，這篇論文的核心貢獻(xiàn)是提出了一種“按需觸發(fā)推理”的視頻理解框架，使多模態(tài)模型在保證性能的同時(shí)顯著提升效率，從而推動(dòng)視頻理解從“始終推理”向“自適應(yīng)推理”轉(zhuǎn)變。

如果說 VideoAuto-R1 是在回答“推理是否必須發(fā)生”，那么由加州大學(xué)伯克利分校、Xero 以及 MIT-IBM Watson AI Lab 共同提出的《Latent Visual Reasoning》則是在追問另一個(gè)更隱蔽的問題——即便發(fā)生了推理，它是否一定要以語言為中介。

當(dāng)前多模態(tài)模型雖然能夠處理視覺輸入，但其內(nèi)部推理過程依然高度依賴語言表示，這在處理拼圖、空間對(duì)應(yīng)關(guān)系、幾何結(jié)構(gòu)等任務(wù)時(shí)會(huì)遇到表達(dá)瓶頸，因?yàn)檫@些結(jié)構(gòu)本身很難被線性的文本步驟充分刻畫。

同時(shí)，已有方法往往依賴人工設(shè)計(jì)的中間監(jiān)督信號(hào)（例如邊界框或裁剪區(qū)域），不僅標(biāo)注成本高，也限制了模型學(xué)習(xí)更靈活的視覺表示能力。

在這種背景下，LIVR（Latent Implicit Visual Reasoning）提出了一種不同路徑：與其顯式構(gòu)造推理步驟，不如讓模型在潛在空間中自行形成推理結(jié)構(gòu)。

具體來說，方法在輸入中引入一組 latent visual tokens，并通過一種“視覺瓶頸機(jī)制”強(qiáng)制模型在預(yù)測(cè)答案時(shí)只能通過這些 token 獲取視覺信息，而不能直接訪問原始圖像特征。這種限制實(shí)際上迫使模型將關(guān)鍵信息壓縮并編碼進(jìn)這些潛在表示中，從而在 latent 空間中完成信息組織與推理。

訓(xùn)練過程分為兩個(gè)階段：首先學(xué)習(xí) latent token 如何承載視覺信息，其次恢復(fù)完整結(jié)構(gòu)進(jìn)行聯(lián)合優(yōu)化。最終得到的不是一條可讀的推理鏈，而是一種隱式的、內(nèi)嵌在表示中的推理過程。這種方式不依賴顯式中間監(jiān)督，卻在多個(gè)視覺任務(wù)和不同模型架構(gòu)上都帶來了穩(wěn)定性能提升，說明這種“去語言化”的推理機(jī)制具備較強(qiáng)的泛化能力。

這篇論文的亮點(diǎn)主要體現(xiàn)在三個(gè)方面。首先，它提出了一種不依賴顯式監(jiān)督的視覺推理方式，模型可以自動(dòng)學(xué)習(xí)中間表示，而不需要人工設(shè)計(jì)推理步驟。

其次，它將推理從“文本鏈?zhǔn)酵评怼睌U(kuò)展到“潛在空間推理”，使模型能夠更自然地表達(dá)復(fù)雜視覺結(jié)構(gòu)。最后，該方法具有很強(qiáng)的通用性，在多個(gè)視覺任務(wù)和多模型上都能穩(wěn)定提升性能，說明這種隱式視覺推理機(jī)制具有良好的泛化能力。

總體來看，這篇論文的核心貢獻(xiàn)是提出了一種基于潛在 token 的隱式視覺推理框架，使多模態(tài)模型從依賴語言進(jìn)行推理，轉(zhuǎn)向在內(nèi)部表示中進(jìn)行更高效、更靈活的視覺推理。

而麻省理工學(xué)院（MIT）的研究論文《ARC Is a Vision Problem!》則更進(jìn)一步，直接打破了問題本身的建模方式。ARC（抽象推理基準(zhǔn)）長期以來被視為語言推理任務(wù)，大量方法依賴大語言模型進(jìn)行規(guī)則歸納與解釋，但這篇論文指出，這種處理方式可能從一開始就偏離了問題本質(zhì)。

與其說 ARC 是一個(gè)需要語言推理的問題，不如說它是一個(gè)典型的視覺結(jié)構(gòu)變換問題，其核心在于空間關(guān)系、對(duì)稱性以及幾何規(guī)律，而非語言邏輯。

基于這一重新定義，研究將 ARC 建模為一個(gè)圖像到圖像的映射任務(wù)：首先將原始網(wǎng)格嵌入到一個(gè)“畫布（canvas）”中，使其可以像自然圖像一樣被處理；隨后直接使用標(biāo)準(zhǔn)視覺模型（例如 Vision Transformer）學(xué)習(xí)從輸入到輸出的空間變換規(guī)則。

在推理階段，方法進(jìn)一步引入測(cè)試時(shí)訓(xùn)練（test-time training），使模型能夠在看到少量示例后進(jìn)行快速適應(yīng)，從而實(shí)現(xiàn)跨任務(wù)泛化。

值得注意的是，這種方法并不依賴大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)，但依然能夠在 ARC 上取得接近人類水平的性能，同時(shí)顯著縮小與大型語言模型之間的差距。其背后依賴的是視覺模型天然具備的歸納偏置，例如空間局部性、平移不變性和尺度不變性，這些特性使模型能夠更自然地學(xué)習(xí)抽象規(guī)則，并在少樣本場(chǎng)景中展現(xiàn)出更強(qiáng)的泛化能力。

總體來看，這篇論文的核心貢獻(xiàn)是將 ARC 問題從“語言推理”重新定義為“視覺建模問題”，并證明基于視覺的方法可以有效學(xué)習(xí)抽象規(guī)則，從而為通用推理模型提供了一種新的方向。

把這幾項(xiàng)工作放在一起看，會(huì)發(fā)現(xiàn)它們并不是簡單地提升模型能力，而是在逐步拆解“推理”這一概念本身：如果說過去的路徑是默認(rèn)所有問題都需要通過語言展開推理，那么現(xiàn)在的趨勢(shì)更像是在重新分工，有些問題本質(zhì)上是感知問題，可以直接回答。

有些推理可以在潛在表示中完成，而不需要顯式展開；還有一些任務(wù)甚至需要先被重新定義，才能找到更合適的建模方式。也正是在這種不斷打破既有假設(shè)、并建立新范式的過程中，多模態(tài)模型開始從“始終推理”的范式，轉(zhuǎn)向一種更具適應(yīng)性的“按需與多形態(tài)推理”。

評(píng)測(cè)，正在誤導(dǎo)一切

如果說現(xiàn)有視覺語言模型的評(píng)測(cè)大多還停留在“看懂了什么”這一層，那么由清華大學(xué)電機(jī)工程系、清華大學(xué)深圳國際研究生院、清華大學(xué)交叉信息研究院與理想汽車共同提出的《VS-Bench: Evaluating VLMs for Strategic Abilities in Multi-Agent Environments》，則把問題推進(jìn)到了更接近真實(shí)世界的一步：模型不僅要看懂環(huán)境，還要在多個(gè)智能體共同參與的場(chǎng)景中理解合作、競(jìng)爭與策略選擇。

現(xiàn)實(shí)任務(wù)往往不是單一主體面對(duì)靜態(tài)圖像，而是多個(gè)智能體在同一環(huán)境中相互影響，既可能合作，也可能競(jìng)爭，還可能處在混合動(dòng)機(jī)之下；但已有基準(zhǔn)大多局限于單智能體或純文本環(huán)境，很難真正衡量 VLM 在復(fù)雜交互場(chǎng)景中的策略能力。

基于這個(gè)缺口，論文提出了 VS-Bench（Visual Strategic Benchmark），構(gòu)建了一個(gè)多模態(tài)、多智能體的統(tǒng)一評(píng)測(cè)環(huán)境，其中包含 10 個(gè)視覺驅(qū)動(dòng)的交互場(chǎng)景，覆蓋合作、競(jìng)爭以及混合動(dòng)機(jī)等任務(wù)類型。

更重要的是，它沒有只看最終答對(duì)與否，而是把模型能力拆成三個(gè)層次來評(píng)估：首先是感知能力，也就是能否識(shí)別環(huán)境元素；其次是策略推理能力，即能否預(yù)測(cè)下一步行動(dòng)；最后是決策能力，也就是模型在整體任務(wù)中的實(shí)際表現(xiàn)。

這樣的拆分讓評(píng)測(cè)結(jié)果不再只是一個(gè)分?jǐn)?shù)，而能進(jìn)一步看出模型到底是“沒看懂”，還是“看懂了但不會(huì)推理”，又或者是“能推理但決策不穩(wěn)”。

實(shí)驗(yàn)中，作者測(cè)試了多個(gè)主流視覺語言模型，結(jié)果顯示這些模型雖然在感知層面已經(jīng)表現(xiàn)較強(qiáng)，但在策略推理和決策上仍然存在明顯差距。也就是說，它們很多時(shí)候是“看得懂環(huán)境”，卻還沒有真正具備在復(fù)雜交互中做出好決策的能力。

這篇工作的價(jià)值也正在這里：它首次建立了一個(gè)面向多智能體與多模態(tài)場(chǎng)景的統(tǒng)一評(píng)測(cè)框架，彌補(bǔ)了現(xiàn)有基準(zhǔn)在復(fù)雜交互任務(wù)上的空缺；同時(shí)又通過感知、推理、決策三層拆解，讓 VLM 的能力分析更細(xì)致、更可解釋。

與其說它只是增加了一個(gè)新 benchmark，不如說它把視覺語言模型的評(píng)估范圍，從單一圖像理解擴(kuò)展到了策略推理與交互決策，從而為后續(xù)研究明確指出了一個(gè)關(guān)鍵短板：當(dāng)前模型已經(jīng)越來越會(huì)“看”，但還遠(yuǎn)沒有真正學(xué)會(huì)在多智能體環(huán)境中“謀”。

相比之下中國科學(xué)院自動(dòng)化研究所、中國科學(xué)院大學(xué)人工智能學(xué)院、智源 FlagEval 團(tuán)隊(duì)、北京航空航天大學(xué)、北京大學(xué)、浙江大學(xué)共同提出的《Beyond Multiple Choice: Verifiable OpenQA for Robust Vision-Language RFT》，則把目光轉(zhuǎn)向了另一個(gè)更基礎(chǔ)、卻同樣影響深遠(yuǎn)的問題：我們現(xiàn)在用來訓(xùn)練和評(píng)估多模態(tài)模型的題目形式，本身是否可靠。

當(dāng)前大量視覺問答基準(zhǔn)采用多項(xiàng)選擇問答（MCQA），這種形式確實(shí)方便自動(dòng)評(píng)測(cè)，但論文指出，選項(xiàng)本身常常會(huì)泄露額外信息，使模型即使沒有真正理解圖像和問題，也能通過排除法、選項(xiàng)偏差或猜測(cè)模式拿到較高分?jǐn)?shù)。換句話說，模型分?jǐn)?shù)看起來變高了，但真實(shí)能力可能被系統(tǒng)性高估。

為了解決這個(gè)問題，論文提出了 ReVeL（Rewrite and Verify by LLM）框架，試圖打破對(duì)選擇題形式的依賴，建立一種“可驗(yàn)證開放問答”的新范式。雷峰網(wǎng)

它的核心做法并不是簡單刪除選項(xiàng)，而是根據(jù)不同問題類型設(shè)計(jì)對(duì)應(yīng)的重寫策略和驗(yàn)證機(jī)制，把原本依賴選項(xiàng)的信息重新組織成開放式問答形式，同時(shí)保留自動(dòng)驗(yàn)證答案的能力。這樣一來，模型在回答時(shí)不能再借助選項(xiàng)進(jìn)行投機(jī)性推理，而必須真正基于視覺內(nèi)容和問題語義生成答案。

在訓(xùn)練階段，作者進(jìn)一步利用這些轉(zhuǎn)換后的數(shù)據(jù)對(duì)視覺語言模型進(jìn)行強(qiáng)化微調(diào)，使訓(xùn)練信號(hào)更加接近真實(shí)開放場(chǎng)景，也降低了 MCQA 選項(xiàng)偏差帶來的干擾。

這篇論文最關(guān)鍵的貢獻(xiàn)，是把一個(gè)長期被默認(rèn)接受的評(píng)測(cè)形式重新問題化了。作者不僅指出 MCQA 存在“虛高”風(fēng)險(xiǎn)，還通過實(shí)驗(yàn)量化了這種偏差，發(fā)現(xiàn)分?jǐn)?shù)可能被高估多達(dá)約 20 個(gè)百分點(diǎn)。

在此基礎(chǔ)上，ReVeL 又提供了一條從“選擇題評(píng)測(cè)”走向“可驗(yàn)證開放問答”的路徑。它既保留了自動(dòng)評(píng)測(cè)的可操作性，又迫使模型擺脫對(duì)選項(xiàng)線索的依賴，從而提升開放問答能力、數(shù)據(jù)效率和訓(xùn)練穩(wěn)健性。

與其說這項(xiàng)工作只是換了一種題型，不如說它在打破多模態(tài)評(píng)測(cè)中“方便評(píng)估等于有效評(píng)估”的慣性，并建立起一種更接近真實(shí)應(yīng)用的訓(xùn)練與評(píng)估方式。

把這兩篇放在一起看，會(huì)發(fā)現(xiàn)它們都在推動(dòng)視覺語言模型評(píng)測(cè)從“表面正確”走向“能力真實(shí)”。VS-Bench 追問的是：模型能否在多智能體環(huán)境中完成策略推理與決策；ReVeL 追問的是：模型看似答對(duì)時(shí)，是否真的理解了問題，而不是被選項(xiàng)提示帶著走。

前者把評(píng)估場(chǎng)景從單一理解擴(kuò)展到復(fù)雜交互，后者把評(píng)估形式從多項(xiàng)選擇推進(jìn)到可驗(yàn)證開放問答。它們共同指向的是同一個(gè)趨勢(shì)：未來的多模態(tài)模型不能只在靜態(tài)、封閉、容易打分的任務(wù)上取得高分，而必須在更開放、更動(dòng)態(tài)、更接近真實(shí)世界的任務(wù)中證明自己的理解、推理和決策能力。

不是小修小補(bǔ)，而是整體重建

與不少已經(jīng)具備圖像理解能力的開源視覺語言模型相比，由 Allen Institute for AI 和華盛頓大學(xué)共同提出的《Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding》則把關(guān)注點(diǎn)進(jìn)一步延伸到了兩個(gè)更關(guān)鍵的方向：一是視頻理解能力，二是語言與視覺之間的精細(xì)對(duì)齊。

當(dāng)前主流開源 VLM 雖然在單張圖像理解上已經(jīng)取得不錯(cuò)效果，但在處理視頻這種時(shí)序信息更復(fù)雜的輸入時(shí)仍然能力有限，同時(shí)在將語言描述精確對(duì)應(yīng)到具體視覺區(qū)域方面也存在明顯不足。

更深一層的問題在于“開源”的不徹底：不少模型僅開放部分權(quán)重，訓(xùn)練數(shù)據(jù)、數(shù)據(jù)來源或訓(xùn)練流程并不透明，甚至依賴閉源模型蒸餾，這使得結(jié)果難以復(fù)現(xiàn)，也限制了后續(xù)研究的可持續(xù)發(fā)展。

Molmo2 的切入點(diǎn)正是同時(shí)回應(yīng)這兩個(gè)問題。它不僅擴(kuò)展了輸入形式，從單圖、多圖進(jìn)一步覆蓋到視頻，還在模型中引入了 grounding 能力，使模型能夠?qū)⒄Z言中的描述精確映射到圖像或視頻中的具體區(qū)域。

這樣一來，模型不再只是回答“看到了什么”，而是能夠進(jìn)一步回答“具體在哪里”，在理解與定位之間建立更緊密的聯(lián)系。雷峰網(wǎng)

在方法之外，這篇論文的亮點(diǎn)同樣矚目。首先，它提供了一個(gè)完全開源的視覺語言模型體系，不僅開放模型，還開放數(shù)據(jù)和訓(xùn)練流程，這在當(dāng)前多模態(tài)領(lǐng)域中較為少見。

其次，它將能力從圖像擴(kuò)展到視頻，并且加入了精細(xì)的定位能力，使模型不僅能“看懂”，還可以“指出具體位置”。最后，該工作在開放性和性能之間取得了平衡，為后續(xù)研究提供了一個(gè)可直接使用和擴(kuò)展的基礎(chǔ)模型框架。

總體來看，這篇論文的核心貢獻(xiàn)是構(gòu)建了一套完全開放、支持視頻理解與定位能力的視覺語言模型體系，使多模態(tài)模型從“只理解圖像”進(jìn)一步發(fā)展為“能夠理解視頻并進(jìn)行精細(xì)對(duì)齊”的統(tǒng)一框架。

不是缺模型，而是缺數(shù)據(jù)

而由蘋果公司提出的《Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing》，則是把焦點(diǎn)放在文本驅(qū)動(dòng)圖像編輯里一個(gè)基礎(chǔ)但長期缺口明顯的問題上：模型想要根據(jù)自然語言指令修改圖像，離不開大規(guī)模、高質(zhì)量、開放且貼近真實(shí)場(chǎng)景的數(shù)據(jù)，但現(xiàn)有數(shù)據(jù)集往往要么規(guī)模有限，要么主要依賴合成圖像，難以覆蓋真實(shí)圖像中的復(fù)雜內(nèi)容、多樣物體關(guān)系和開放場(chǎng)景變化。

Pico-Banana-400K 正是圍繞這一數(shù)據(jù)瓶頸構(gòu)建的。論文基于來自 OpenImages 的真實(shí)圖像，利用多模態(tài)模型自動(dòng)生成編輯指令和對(duì)應(yīng)編輯結(jié)果，從而形成大規(guī)模的“圖像 - 指令 - 編輯結(jié)果”三元組數(shù)據(jù)集。

它并不只是簡單堆數(shù)據(jù)，而是在構(gòu)建過程中引入細(xì)粒度編輯分類體系和多模態(tài)模型評(píng)分機(jī)制，用來同時(shí)保證兩件事：編輯結(jié)果要符合指令，修改后又要盡可能保持原始圖像內(nèi)容的一致性。

更進(jìn)一步，這個(gè)數(shù)據(jù)集的設(shè)計(jì)也沒有停留在單步編輯。除了基礎(chǔ)的單輪“給一張圖、按一句話編輯”之外，它還包含多輪編輯數(shù)據(jù)、偏好數(shù)據(jù)以及長短指令對(duì)，因而可以支持更復(fù)雜的推理、規(guī)劃和對(duì)齊研究。

也就是說，Pico-Banana-400K 不只是為圖像編輯模型補(bǔ)充訓(xùn)練樣本，而是在嘗試把文本驅(qū)動(dòng)圖像編輯從一次性操作，推進(jìn)到更接近真實(shí)使用場(chǎng)景的連續(xù)編輯、偏好對(duì)齊和指令理解。

這篇工作的價(jià)值主要在于，它以 40 萬級(jí)別的高質(zhì)量真實(shí)圖像編輯數(shù)據(jù)，填補(bǔ)了 instruction-based image editing 領(lǐng)域長期缺少開放大規(guī)模數(shù)據(jù)的空白，同時(shí)又通過系統(tǒng)化的數(shù)據(jù)構(gòu)建流程，在規(guī)模、質(zhì)量和多樣性之間取得平衡。

它打破了以往圖像編輯數(shù)據(jù)過小、過合成、任務(wù)形式單一的限制，建立起一個(gè)更標(biāo)準(zhǔn)化的基礎(chǔ)設(shè)施，為后續(xù)文本驅(qū)動(dòng)圖像編輯模型的訓(xùn)練、評(píng)測(cè)和對(duì)齊提供了更扎實(shí)的起點(diǎn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.