<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      CVPR 2026 多模態(tài)視覺智能全景梳理:從感知到推理的范式重寫

      0
      分享至

      如果回看過去十年的計(jì)算機(jī)視覺發(fā)展,其主線其實(shí)非常清晰:從早期以 ImageNet classification 為代表的“識(shí)別范式”,到以檢測(cè)、分割為核心的“結(jié)構(gòu)理解”,再到擴(kuò)散模型推動(dòng)的“生成范式”,視覺研究始終圍繞一個(gè)核心目標(biāo)展開——讓機(jī)器更準(zhǔn)確地“看見世界”。

      然而,這一路徑在近兩年開始出現(xiàn)明顯的邊界:當(dāng)模型已經(jīng)可以在靜態(tài)圖像上達(dá)到接近甚至超過人類的感知水平時(shí),“看得更準(zhǔn)”本身,正在變成一個(gè)邊際收益遞減的問題。

      在這樣的背景下,在 CVPR 2026 中的一些相關(guān)工作所呈現(xiàn)出的,不再只是性能曲線的繼續(xù)上揚(yáng),而是一種更深層的范式轉(zhuǎn)向:視覺不再被視為終點(diǎn),而被重新定位為一種中介能力,它服務(wù)于更高層的目標(biāo),例如推理、決策與交互。

      這種變化直接體現(xiàn)在多個(gè)層面:一方面,越來越多工作開始質(zhì)疑以語言為中心的推理路徑,嘗試讓模型在視覺或潛在空間中直接完成結(jié)構(gòu)推理;另一方面,研究者也在反思現(xiàn)有評(píng)測(cè)體系與數(shù)據(jù)構(gòu)建方式,因?yàn)槿绻u(píng)價(jià)標(biāo)準(zhǔn)本身存在偏差,那么所謂的“進(jìn)步”很可能只是對(duì) benchmark 的過擬合。

      更重要的是,這一屆論文并不是在單一方向上推進(jìn),而是呈現(xiàn)出一種系統(tǒng)性重構(gòu)的跡象:推理機(jī)制上,從“始終推理”走向“按需推理”,從顯式鏈?zhǔn)酵评碜呦螂[式表示推理。

      評(píng)測(cè)層面,從選擇題式的便捷評(píng)估走向更接近真實(shí)能力的開放式驗(yàn)證;模型形態(tài)上,從單一任務(wù)模型演進(jìn)為支持圖像、視頻與定位的一體化多模態(tài)系統(tǒng);而在數(shù)據(jù)層面,則從零散數(shù)據(jù)集走向規(guī)?;?、結(jié)構(gòu)化且任務(wù)驅(qū)動(dòng)的數(shù)據(jù)基礎(chǔ)設(shè)施。

      這些變化背后隱含著一個(gè)更深的共識(shí)正在形成:視覺智能的瓶頸,已經(jīng)不再只是模型能力本身,而是“推理方式、評(píng)測(cè)范式、系統(tǒng)形態(tài)與數(shù)據(jù)供給”之間的協(xié)同問題。

      基于這樣的整體趨勢(shì),AI 科技評(píng)論對(duì)本屆具有代表性的工作進(jìn)行了系統(tǒng)梳理,從推理機(jī)制的重構(gòu)、評(píng)測(cè)范式的反思、模型系統(tǒng)的演進(jìn)以及數(shù)據(jù)基礎(chǔ)設(shè)施的升級(jí)四個(gè)關(guān)鍵維度出發(fā),選取了一系列具有標(biāo)志性意義的論文,試圖還原這一輪視覺智能范式轉(zhuǎn)變的核心脈絡(luò)。

      推理,可能一直用錯(cuò)了

      如果說過去的多模態(tài)研究默認(rèn)一種路徑——無論任務(wù)難易,模型都應(yīng)該通過 Chain-of-Thought 展開逐步推理,那么由 Meta AI、KAUST 以及普林斯頓大學(xué)共同提出的《 VideoAutoThink: Video Auto Reasoning via Thinking Once, Answering Twice》實(shí)際上是在動(dòng)搖這個(gè)前提本身。

      在視頻理解任務(wù)中,主流方法往往依賴顯式推理來提升性能,但作者通過實(shí)驗(yàn)觀察到一個(gè)并不直觀的現(xiàn)象:對(duì)于經(jīng)過強(qiáng)化學(xué)習(xí)優(yōu)化的視頻模型,直接回答在不少情況下已經(jīng)可以達(dá)到,甚至超過帶推理的結(jié)果。這意味著問題并不在于模型缺乏推理能力,而在于“每一次都推理”本身可能是低效甚至冗余的。

      基于這一點(diǎn),論文提出了 VideoAuto-R1 框架,與其說是在增強(qiáng)推理,不如說是在重新調(diào)度推理。模型在訓(xùn)練階段采用一種“Thinking Once, Answering Twice”的機(jī)制:先生成一個(gè)初始答案,再進(jìn)行推理得到修正后的答案,并同時(shí)對(duì)這兩個(gè)輸出進(jìn)行監(jiān)督學(xué)習(xí),使模型既具備快速響應(yīng)能力,又具備在必要時(shí)進(jìn)行深入推理的能力。

      而在推理階段,模型不會(huì)固定執(zhí)行推理流程,而是根據(jù)初始答案的置信度動(dòng)態(tài)決策——如果問題簡單,則直接輸出結(jié)果;如果問題復(fù)雜,才觸發(fā)后續(xù)推理。

      這種設(shè)計(jì)把“是否推理”從一個(gè)人為設(shè)定的流程,轉(zhuǎn)變?yōu)槟P妥陨砜梢詫W(xué)習(xí)的決策變量。實(shí)驗(yàn)結(jié)果進(jìn)一步說明,這種按需推理的方式不僅沒有損失性能,反而在保持當(dāng)前最優(yōu)水平的同時(shí),將平均輸出長度減少約 3.3 倍。

      同時(shí)也揭示出一個(gè)更細(xì)粒度的規(guī)律:在感知類任務(wù)中,推理的作用相對(duì)有限,而在真正需要復(fù)雜邏輯的任務(wù)中,推理才顯得關(guān)鍵。

      這篇論文的亮點(diǎn)主要體現(xiàn)在三個(gè)方面。首先,它提出了一種“按需推理”的新范式,使模型不再固定執(zhí)行復(fù)雜推理流程,從而顯著提高效率。

      其次,通過“雙答案訓(xùn)練機(jī)制”,模型在保持高性能的同時(shí)減少不必要的推理開銷,在實(shí)驗(yàn)中將平均輸出長度減少約 3.3 倍,同時(shí)仍達(dá)到當(dāng)前最優(yōu)水平。

      最后,論文揭示了一個(gè)重要現(xiàn)象,即推理并不是在所有任務(wù)中都必要,在感知類任務(wù)中使用較少,而在復(fù)雜推理任務(wù)中才更有價(jià)值,這為后續(xù)多模態(tài)模型設(shè)計(jì)提供了重要啟發(fā) 。

      總體來看,這篇論文的核心貢獻(xiàn)是提出了一種“按需觸發(fā)推理”的視頻理解框架,使多模態(tài)模型在保證性能的同時(shí)顯著提升效率,從而推動(dòng)視頻理解從“始終推理”向“自適應(yīng)推理”轉(zhuǎn)變。


      如果說 VideoAuto-R1 是在回答“推理是否必須發(fā)生”,那么由加州大學(xué)伯克利分校、Xero 以及 MIT-IBM Watson AI Lab 共同提出的《Latent Visual Reasoning》則是在追問另一個(gè)更隱蔽的問題——即便發(fā)生了推理,它是否一定要以語言為中介。

      當(dāng)前多模態(tài)模型雖然能夠處理視覺輸入,但其內(nèi)部推理過程依然高度依賴語言表示,這在處理拼圖、空間對(duì)應(yīng)關(guān)系、幾何結(jié)構(gòu)等任務(wù)時(shí)會(huì)遇到表達(dá)瓶頸,因?yàn)檫@些結(jié)構(gòu)本身很難被線性的文本步驟充分刻畫。

      同時(shí),已有方法往往依賴人工設(shè)計(jì)的中間監(jiān)督信號(hào)(例如邊界框或裁剪區(qū)域),不僅標(biāo)注成本高,也限制了模型學(xué)習(xí)更靈活的視覺表示能力。

      在這種背景下,LIVR(Latent Implicit Visual Reasoning)提出了一種不同路徑:與其顯式構(gòu)造推理步驟,不如讓模型在潛在空間中自行形成推理結(jié)構(gòu)。

      具體來說,方法在輸入中引入一組 latent visual tokens,并通過一種“視覺瓶頸機(jī)制”強(qiáng)制模型在預(yù)測(cè)答案時(shí)只能通過這些 token 獲取視覺信息,而不能直接訪問原始圖像特征。這種限制實(shí)際上迫使模型將關(guān)鍵信息壓縮并編碼進(jìn)這些潛在表示中,從而在 latent 空間中完成信息組織與推理。

      訓(xùn)練過程分為兩個(gè)階段:首先學(xué)習(xí) latent token 如何承載視覺信息,其次恢復(fù)完整結(jié)構(gòu)進(jìn)行聯(lián)合優(yōu)化。最終得到的不是一條可讀的推理鏈,而是一種隱式的、內(nèi)嵌在表示中的推理過程。這種方式不依賴顯式中間監(jiān)督,卻在多個(gè)視覺任務(wù)和不同模型架構(gòu)上都帶來了穩(wěn)定性能提升,說明這種“去語言化”的推理機(jī)制具備較強(qiáng)的泛化能力。

      這篇論文的亮點(diǎn)主要體現(xiàn)在三個(gè)方面。首先,它提出了一種不依賴顯式監(jiān)督的視覺推理方式,模型可以自動(dòng)學(xué)習(xí)中間表示,而不需要人工設(shè)計(jì)推理步驟。

      其次,它將推理從“文本鏈?zhǔn)酵评怼睌U(kuò)展到“潛在空間推理”,使模型能夠更自然地表達(dá)復(fù)雜視覺結(jié)構(gòu)。最后,該方法具有很強(qiáng)的通用性,在多個(gè)視覺任務(wù)和多模型上都能穩(wěn)定提升性能,說明這種隱式視覺推理機(jī)制具有良好的泛化能力 。

      總體來看,這篇論文的核心貢獻(xiàn)是提出了一種基于潛在 token 的隱式視覺推理框架,使多模態(tài)模型從依賴語言進(jìn)行推理,轉(zhuǎn)向在內(nèi)部表示中進(jìn)行更高效、更靈活的視覺推理。


      而麻省理工學(xué)院(MIT)的研究論文《ARC Is a Vision Problem!》則更進(jìn)一步,直接打破了問題本身的建模方式。ARC(抽象推理基準(zhǔn))長期以來被視為語言推理任務(wù),大量方法依賴大語言模型進(jìn)行規(guī)則歸納與解釋,但這篇論文指出,這種處理方式可能從一開始就偏離了問題本質(zhì)。

      與其說 ARC 是一個(gè)需要語言推理的問題,不如說它是一個(gè)典型的視覺結(jié)構(gòu)變換問題,其核心在于空間關(guān)系、對(duì)稱性以及幾何規(guī)律,而非語言邏輯。

      基于這一重新定義,研究將 ARC 建模為一個(gè)圖像到圖像的映射任務(wù):首先將原始網(wǎng)格嵌入到一個(gè)“畫布(canvas)”中,使其可以像自然圖像一樣被處理;隨后直接使用標(biāo)準(zhǔn)視覺模型(例如 Vision Transformer)學(xué)習(xí)從輸入到輸出的空間變換規(guī)則。

      在推理階段,方法進(jìn)一步引入測(cè)試時(shí)訓(xùn)練(test-time training),使模型能夠在看到少量示例后進(jìn)行快速適應(yīng),從而實(shí)現(xiàn)跨任務(wù)泛化。

      值得注意的是,這種方法并不依賴大規(guī)模預(yù)訓(xùn)練數(shù)據(jù),但依然能夠在 ARC 上取得接近人類水平的性能,同時(shí)顯著縮小與大型語言模型之間的差距。其背后依賴的是視覺模型天然具備的歸納偏置,例如空間局部性、平移不變性和尺度不變性,這些特性使模型能夠更自然地學(xué)習(xí)抽象規(guī)則,并在少樣本場(chǎng)景中展現(xiàn)出更強(qiáng)的泛化能力。

      總體來看,這篇論文的核心貢獻(xiàn)是將 ARC 問題從“語言推理”重新定義為“視覺建模問題”,并證明基于視覺的方法可以有效學(xué)習(xí)抽象規(guī)則,從而為通用推理模型提供了一種新的方向。


      把這幾項(xiàng)工作放在一起看,會(huì)發(fā)現(xiàn)它們并不是簡單地提升模型能力,而是在逐步拆解“推理”這一概念本身:如果說過去的路徑是默認(rèn)所有問題都需要通過語言展開推理,那么現(xiàn)在的趨勢(shì)更像是在重新分工,有些問題本質(zhì)上是感知問題,可以直接回答。

      有些推理可以在潛在表示中完成,而不需要顯式展開;還有一些任務(wù)甚至需要先被重新定義,才能找到更合適的建模方式。也正是在這種不斷打破既有假設(shè)、并建立新范式的過程中,多模態(tài)模型開始從“始終推理”的范式,轉(zhuǎn)向一種更具適應(yīng)性的“按需與多形態(tài)推理”。

      評(píng)測(cè),正在誤導(dǎo)一切

      如果說現(xiàn)有視覺語言模型的評(píng)測(cè)大多還停留在“看懂了什么”這一層,那么由清華大學(xué)電機(jī)工程系、清華大學(xué)深圳國際研究生院、清華大學(xué)交叉信息研究院與理想汽車共同提出的 《VS-Bench: Evaluating VLMs for Strategic Abilities in Multi-Agent Environments》,則把問題推進(jìn)到了更接近真實(shí)世界的一步:模型不僅要看懂環(huán)境,還要在多個(gè)智能體共同參與的場(chǎng)景中理解合作、競(jìng)爭與策略選擇。

      現(xiàn)實(shí)任務(wù)往往不是單一主體面對(duì)靜態(tài)圖像,而是多個(gè)智能體在同一環(huán)境中相互影響,既可能合作,也可能競(jìng)爭,還可能處在混合動(dòng)機(jī)之下;但已有基準(zhǔn)大多局限于單智能體或純文本環(huán)境,很難真正衡量 VLM 在復(fù)雜交互場(chǎng)景中的策略能力。

      基于這個(gè)缺口,論文提出了 VS-Bench(Visual Strategic Benchmark),構(gòu)建了一個(gè)多模態(tài)、多智能體的統(tǒng)一評(píng)測(cè)環(huán)境,其中包含 10 個(gè)視覺驅(qū)動(dòng)的交互場(chǎng)景,覆蓋合作、競(jìng)爭以及混合動(dòng)機(jī)等任務(wù)類型。

      更重要的是,它沒有只看最終答對(duì)與否,而是把模型能力拆成三個(gè)層次來評(píng)估:首先是感知能力,也就是能否識(shí)別環(huán)境元素;其次是策略推理能力,即能否預(yù)測(cè)下一步行動(dòng);最后是決策能力,也就是模型在整體任務(wù)中的實(shí)際表現(xiàn)。

      這樣的拆分讓評(píng)測(cè)結(jié)果不再只是一個(gè)分?jǐn)?shù),而能進(jìn)一步看出模型到底是“沒看懂”,還是“看懂了但不會(huì)推理”,又或者是“能推理但決策不穩(wěn)”。

      實(shí)驗(yàn)中,作者測(cè)試了多個(gè)主流視覺語言模型,結(jié)果顯示這些模型雖然在感知層面已經(jīng)表現(xiàn)較強(qiáng),但在策略推理和決策上仍然存在明顯差距。也就是說,它們很多時(shí)候是“看得懂環(huán)境”,卻還沒有真正具備在復(fù)雜交互中做出好決策的能力。

      這篇工作的價(jià)值也正在這里:它首次建立了一個(gè)面向多智能體與多模態(tài)場(chǎng)景的統(tǒng)一評(píng)測(cè)框架,彌補(bǔ)了現(xiàn)有基準(zhǔn)在復(fù)雜交互任務(wù)上的空缺;同時(shí)又通過感知、推理、決策三層拆解,讓 VLM 的能力分析更細(xì)致、更可解釋。

      與其說它只是增加了一個(gè)新 benchmark,不如說它把視覺語言模型的評(píng)估范圍,從單一圖像理解擴(kuò)展到了策略推理與交互決策,從而為后續(xù)研究明確指出了一個(gè)關(guān)鍵短板:當(dāng)前模型已經(jīng)越來越會(huì)“看”,但還遠(yuǎn)沒有真正學(xué)會(huì)在多智能體環(huán)境中“謀”。


      相比之下中國科學(xué)院自動(dòng)化研究所、中國科學(xué)院大學(xué)人工智能學(xué)院、智源 FlagEval 團(tuán)隊(duì)、北京航空航天大學(xué)、北京大學(xué)、浙江大學(xué)共同提出的 《Beyond Multiple Choice: Verifiable OpenQA for Robust Vision-Language RFT》,則把目光轉(zhuǎn)向了另一個(gè)更基礎(chǔ)、卻同樣影響深遠(yuǎn)的問題:我們現(xiàn)在用來訓(xùn)練和評(píng)估多模態(tài)模型的題目形式,本身是否可靠。

      當(dāng)前大量視覺問答基準(zhǔn)采用多項(xiàng)選擇問答(MCQA),這種形式確實(shí)方便自動(dòng)評(píng)測(cè),但論文指出,選項(xiàng)本身常常會(huì)泄露額外信息,使模型即使沒有真正理解圖像和問題,也能通過排除法、選項(xiàng)偏差或猜測(cè)模式拿到較高分?jǐn)?shù)。換句話說,模型分?jǐn)?shù)看起來變高了,但真實(shí)能力可能被系統(tǒng)性高估。

      為了解決這個(gè)問題,論文提出了 ReVeL(Rewrite and Verify by LLM) 框架,試圖打破對(duì)選擇題形式的依賴,建立一種“可驗(yàn)證開放問答”的新范式。雷峰網(wǎng)

      它的核心做法并不是簡單刪除選項(xiàng),而是根據(jù)不同問題類型設(shè)計(jì)對(duì)應(yīng)的重寫策略和驗(yàn)證機(jī)制,把原本依賴選項(xiàng)的信息重新組織成開放式問答形式,同時(shí)保留自動(dòng)驗(yàn)證答案的能力。這樣一來,模型在回答時(shí)不能再借助選項(xiàng)進(jìn)行投機(jī)性推理,而必須真正基于視覺內(nèi)容和問題語義生成答案。

      在訓(xùn)練階段,作者進(jìn)一步利用這些轉(zhuǎn)換后的數(shù)據(jù)對(duì)視覺語言模型進(jìn)行強(qiáng)化微調(diào),使訓(xùn)練信號(hào)更加接近真實(shí)開放場(chǎng)景,也降低了 MCQA 選項(xiàng)偏差帶來的干擾。

      這篇論文最關(guān)鍵的貢獻(xiàn),是把一個(gè)長期被默認(rèn)接受的評(píng)測(cè)形式重新問題化了。作者不僅指出 MCQA 存在“虛高”風(fēng)險(xiǎn),還通過實(shí)驗(yàn)量化了這種偏差,發(fā)現(xiàn)分?jǐn)?shù)可能被高估多達(dá)約 20 個(gè)百分點(diǎn)。

      在此基礎(chǔ)上,ReVeL 又提供了一條從“選擇題評(píng)測(cè)”走向“可驗(yàn)證開放問答”的路徑。它既保留了自動(dòng)評(píng)測(cè)的可操作性,又迫使模型擺脫對(duì)選項(xiàng)線索的依賴,從而提升開放問答能力、數(shù)據(jù)效率和訓(xùn)練穩(wěn)健性。

      與其說這項(xiàng)工作只是換了一種題型,不如說它在打破多模態(tài)評(píng)測(cè)中“方便評(píng)估等于有效評(píng)估”的慣性,并建立起一種更接近真實(shí)應(yīng)用的訓(xùn)練與評(píng)估方式。


      把這兩篇放在一起看,會(huì)發(fā)現(xiàn)它們都在推動(dòng)視覺語言模型評(píng)測(cè)從“表面正確”走向“能力真實(shí)”。VS-Bench 追問的是:模型能否在多智能體環(huán)境中完成策略推理與決策;ReVeL 追問的是:模型看似答對(duì)時(shí),是否真的理解了問題,而不是被選項(xiàng)提示帶著走。

      前者把評(píng)估場(chǎng)景從單一理解擴(kuò)展到復(fù)雜交互,后者把評(píng)估形式從多項(xiàng)選擇推進(jìn)到可驗(yàn)證開放問答。它們共同指向的是同一個(gè)趨勢(shì):未來的多模態(tài)模型不能只在靜態(tài)、封閉、容易打分的任務(wù)上取得高分,而必須在更開放、更動(dòng)態(tài)、更接近真實(shí)世界的任務(wù)中證明自己的理解、推理和決策能力。

      不是小修小補(bǔ),而是整體重建

      與不少已經(jīng)具備圖像理解能力的開源視覺語言模型相比,由 Allen Institute for AI 和 華盛頓大學(xué)共同提出的《Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding》則把關(guān)注點(diǎn)進(jìn)一步延伸到了兩個(gè)更關(guān)鍵的方向:一是視頻理解能力,二是語言與視覺之間的精細(xì)對(duì)齊。

      當(dāng)前主流開源 VLM 雖然在單張圖像理解上已經(jīng)取得不錯(cuò)效果,但在處理視頻這種時(shí)序信息更復(fù)雜的輸入時(shí)仍然能力有限,同時(shí)在將語言描述精確對(duì)應(yīng)到具體視覺區(qū)域方面也存在明顯不足。

      更深一層的問題在于“開源”的不徹底:不少模型僅開放部分權(quán)重,訓(xùn)練數(shù)據(jù)、數(shù)據(jù)來源或訓(xùn)練流程并不透明,甚至依賴閉源模型蒸餾,這使得結(jié)果難以復(fù)現(xiàn),也限制了后續(xù)研究的可持續(xù)發(fā)展。

      Molmo2 的切入點(diǎn)正是同時(shí)回應(yīng)這兩個(gè)問題。它不僅擴(kuò)展了輸入形式,從單圖、多圖進(jìn)一步覆蓋到視頻,還在模型中引入了 grounding 能力,使模型能夠?qū)⒄Z言中的描述精確映射到圖像或視頻中的具體區(qū)域。

      這樣一來,模型不再只是回答“看到了什么”,而是能夠進(jìn)一步回答“具體在哪里”,在理解與定位之間建立更緊密的聯(lián)系。雷峰網(wǎng)

      在方法之外,這篇論文的亮點(diǎn)同樣矚目。首先,它提供了一個(gè)完全開源的視覺語言模型體系,不僅開放模型,還開放數(shù)據(jù)和訓(xùn)練流程,這在當(dāng)前多模態(tài)領(lǐng)域中較為少見。

      其次,它將能力從圖像擴(kuò)展到視頻,并且加入了精細(xì)的定位能力,使模型不僅能“看懂”,還可以“指出具體位置”。最后,該工作在開放性和性能之間取得了平衡,為后續(xù)研究提供了一個(gè)可直接使用和擴(kuò)展的基礎(chǔ)模型框架。

      總體來看,這篇論文的核心貢獻(xiàn)是構(gòu)建了一套完全開放、支持視頻理解與定位能力的視覺語言模型體系,使多模態(tài)模型從“只理解圖像”進(jìn)一步發(fā)展為“能夠理解視頻并進(jìn)行精細(xì)對(duì)齊”的統(tǒng)一框架。


      不是缺模型,而是缺數(shù)據(jù)

      而由蘋果公司提出的 《Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing》,則是把焦點(diǎn)放在文本驅(qū)動(dòng)圖像編輯里一個(gè)基礎(chǔ)但長期缺口明顯的問題上:模型想要根據(jù)自然語言指令修改圖像,離不開大規(guī)模、高質(zhì)量、開放且貼近真實(shí)場(chǎng)景的數(shù)據(jù),但現(xiàn)有數(shù)據(jù)集往往要么規(guī)模有限,要么主要依賴合成圖像,難以覆蓋真實(shí)圖像中的復(fù)雜內(nèi)容、多樣物體關(guān)系和開放場(chǎng)景變化。

      Pico-Banana-400K 正是圍繞這一數(shù)據(jù)瓶頸構(gòu)建的。論文基于來自 OpenImages 的真實(shí)圖像,利用多模態(tài)模型自動(dòng)生成編輯指令和對(duì)應(yīng)編輯結(jié)果,從而形成大規(guī)模的“圖像 - 指令 - 編輯結(jié)果”三元組數(shù)據(jù)集。

      它并不只是簡單堆數(shù)據(jù),而是在構(gòu)建過程中引入細(xì)粒度編輯分類體系和多模態(tài)模型評(píng)分機(jī)制,用來同時(shí)保證兩件事:編輯結(jié)果要符合指令,修改后又要盡可能保持原始圖像內(nèi)容的一致性。

      更進(jìn)一步,這個(gè)數(shù)據(jù)集的設(shè)計(jì)也沒有停留在單步編輯。除了基礎(chǔ)的單輪“給一張圖、按一句話編輯”之外,它還包含多輪編輯數(shù)據(jù)、偏好數(shù)據(jù)以及長短指令對(duì),因而可以支持更復(fù)雜的推理、規(guī)劃和對(duì)齊研究。

      也就是說,Pico-Banana-400K 不只是為圖像編輯模型補(bǔ)充訓(xùn)練樣本,而是在嘗試把文本驅(qū)動(dòng)圖像編輯從一次性操作,推進(jìn)到更接近真實(shí)使用場(chǎng)景的連續(xù)編輯、偏好對(duì)齊和指令理解。

      這篇工作的價(jià)值主要在于,它以 40 萬級(jí)別的高質(zhì)量真實(shí)圖像編輯數(shù)據(jù),填補(bǔ)了 instruction-based image editing 領(lǐng)域長期缺少開放大規(guī)模數(shù)據(jù)的空白,同時(shí)又通過系統(tǒng)化的數(shù)據(jù)構(gòu)建流程,在規(guī)模、質(zhì)量和多樣性之間取得平衡。

      它打破了以往圖像編輯數(shù)據(jù)過小、過合成、任務(wù)形式單一的限制,建立起一個(gè)更標(biāo)準(zhǔn)化的基礎(chǔ)設(shè)施,為后續(xù)文本驅(qū)動(dòng)圖像編輯模型的訓(xùn)練、評(píng)測(cè)和對(duì)齊提供了更扎實(shí)的起點(diǎn)。


      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      新疆政協(xié)原副主席金之鎮(zhèn)被“雙開”:接受私營企業(yè)主提供的“管家式”服務(wù)

      新疆政協(xié)原副主席金之鎮(zhèn)被“雙開”:接受私營企業(yè)主提供的“管家式”服務(wù)

      界面新聞
      2026-05-07 10:38:49
      白人女性與黑人女性的體味差異,網(wǎng)友真實(shí)分享引發(fā)熱議

      白人女性與黑人女性的體味差異,網(wǎng)友真實(shí)分享引發(fā)熱議

      特約前排觀眾
      2025-12-22 00:20:06
      6個(gè)男人托起一座冠軍!吳宜澤背后,站著奧沙利文塞爾比丁俊暉等

      6個(gè)男人托起一座冠軍!吳宜澤背后,站著奧沙利文塞爾比丁俊暉等

      曹老師評(píng)球
      2026-05-07 16:34:26
      全靠內(nèi)鬼,105噸假黃金騙了253億

      全靠內(nèi)鬼,105噸假黃金騙了253億

      大貓財(cái)經(jīng)Pro
      2026-05-06 18:44:18
      新加坡總理哭了,無人同情!當(dāng)初對(duì)中國有多狂妄,現(xiàn)在就多狼狽!

      新加坡總理哭了,無人同情!當(dāng)初對(duì)中國有多狂妄,現(xiàn)在就多狼狽!

      混沌錄
      2026-05-06 23:33:12
      越南少將的坦白:中國軍隊(duì)在諒山再停留五天,越軍將無一幸免

      越南少將的坦白:中國軍隊(duì)在諒山再停留五天,越軍將無一幸免

      正觀歷史
      2026-04-29 14:04:21
      高校畢業(yè)生創(chuàng)新高 上海打出組合拳護(hù)航就業(yè)

      高校畢業(yè)生創(chuàng)新高 上海打出組合拳護(hù)航就業(yè)

      看看新聞Knews
      2026-05-06 19:32:02
      “自由計(jì)劃”僅一天就暫停!6日0點(diǎn)后,俄軍仍在大規(guī)模轟炸烏克蘭

      “自由計(jì)劃”僅一天就暫停!6日0點(diǎn)后,俄軍仍在大規(guī)模轟炸烏克蘭

      鷹眼Defence
      2026-05-06 16:42:01
      華潤燃?xì)庠笨偛美钛┧杀徊?>
    </a>
        <h3>
      <a href=新京報(bào)
      2026-05-07 15:20:44
      41.6 萬鎊周薪!曼聯(lián)鎖定世界第一中鋒,拉特克利夫欽點(diǎn)!

      41.6 萬鎊周薪!曼聯(lián)鎖定世界第一中鋒,拉特克利夫欽點(diǎn)!

      奶蓋熊本熊
      2026-05-07 06:20:34
      娶到小時(shí)候的女神是一種怎樣體驗(yàn)?三天沒出門,后來想想不過如此

      娶到小時(shí)候的女神是一種怎樣體驗(yàn)?三天沒出門,后來想想不過如此

      另子維愛讀史
      2026-04-04 21:35:59
      前國乒美女名將正式退役!錢天一獲72萬元安置費(fèi) 年初與王昶結(jié)婚

      前國乒美女名將正式退役!錢天一獲72萬元安置費(fèi) 年初與王昶結(jié)婚

      全言作品
      2026-05-07 17:01:56
      謝文能在克雷桑收藏球上簽“牛X”,克雷桑:我知道這啥意思

      謝文能在克雷桑收藏球上簽“牛X”,克雷桑:我知道這啥意思

      懂球帝
      2026-05-07 11:16:09
      為什么不建議買網(wǎng)上十幾塊的衣服?看完感到后怕,可別貪便宜

      為什么不建議買網(wǎng)上十幾塊的衣服?看完感到后怕,可別貪便宜

      家居設(shè)計(jì)師蘇哥
      2026-05-04 11:39:03
      《陳翔六點(diǎn)半》四大元老集體出走,帶貨首秀百萬人只看不買!

      《陳翔六點(diǎn)半》四大元老集體出走,帶貨首秀百萬人只看不買!

      陳意小可愛
      2026-05-06 14:50:57
      日經(jīng)225指數(shù)首次突破63000點(diǎn),日內(nèi)漲超6%

      日經(jīng)225指數(shù)首次突破63000點(diǎn),日內(nèi)漲超6%

      每日經(jīng)濟(jì)新聞
      2026-05-07 13:07:04
      張雪太大方!奪冠后就發(fā)全年獎(jiǎng)金 德比斯:不用擔(dān)心銀行催款電話

      張雪太大方!奪冠后就發(fā)全年獎(jiǎng)金 德比斯:不用擔(dān)心銀行催款電話

      念洲
      2026-05-07 11:05:25
      確認(rèn)了!今天傍晚 抵達(dá)無錫!

      確認(rèn)了!今天傍晚 抵達(dá)無錫!

      無錫eTV全媒體
      2026-05-07 13:38:50
      合同到期!CBA昔日王牌后衛(wèi)與主教練鬧翻,或離開老東家

      合同到期!CBA昔日王牌后衛(wèi)與主教練鬧翻,或離開老東家

      國籃會(huì)自強(qiáng)
      2026-05-06 19:41:11
      96年,張萬年得知有一名戰(zhàn)士當(dāng)了和尚,問他道:誰把你逼上山的

      96年,張萬年得知有一名戰(zhàn)士當(dāng)了和尚,問他道:誰把你逼上山的

      鍋鍋愛歷史
      2026-04-04 14:29:00
      2026-05-07 18:44:49
      雷峰網(wǎng) incentive-icons
      雷峰網(wǎng)
      關(guān)注智能與未來!
      69257文章數(shù) 656123關(guān)注度
      往期回顧 全部

      科技要聞

      月之暗面完成20億美元融資,估值突破200億

      頭條要聞

      媒體:不是中國離不開世界杯 是世界杯更需要中國

      頭條要聞

      媒體:不是中國離不開世界杯 是世界杯更需要中國

      體育要聞

      巴黎再進(jìn)歐冠決賽,最尷尬的情況還是發(fā)生了

      娛樂要聞

      孫楊強(qiáng)迫拉張豆豆手那一幕,我看笑了,也看怒了

      財(cái)經(jīng)要聞

      金融“風(fēng)暴”,AI制造

      汽車要聞

      雷克薩斯全新純電三排SUV 全新TZ全球首發(fā)

      態(tài)度原創(chuàng)

      藝術(shù)
      房產(chǎn)
      手機(jī)
      教育
      軍事航空

      藝術(shù)要聞

      這位老教授筆下的青年,活力滿滿

      房產(chǎn)要聞

      負(fù)債23億,抵押482畝地!海南這家巨頭,慘遭拍賣!

      手機(jī)要聞

      消息稱某子系迭代旗艦工程機(jī)配備6.6英寸中屏+8500mAh電池

      教育要聞

      【教研幫扶】廣東省教育研究院走進(jìn)肇慶教研幫扶活動(dòng)中學(xué)歷史專場(chǎng)舉行

      軍事要聞

      特朗普:美伊"很可能"達(dá)成協(xié)議

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 三级做爰高清视频| 国产在线精品区| 黄色在线网| 3P免费视频| 孕妇怀孕高潮潮喷视频孕妇| 尤物视频免费看| 天天色天天综合网| 亚洲一区二区自拍偷拍| 精品人妻中文无码| 激情宗合| 国产黄在线免费观看| 在线视频 亚太 国产 欧美 一区二区 | 亚洲av二区三区在线| 99色区| 人妻无码久久中文字幕专区| 亚洲国产成人av国产自| 少妇太爽了在线观看| 99自拍视频| 婷婷精品国产一区二区三区日韩| 国产aⅴ爽av久久久久久| 日韩精品亚洲专区在线观看| 亚洲成a∨人片在线观看无码| 美女一区二区三区亚洲麻豆| JIZZ亚洲| 日韩人妻精品中文字幕专区| 456亚洲人成高清在线| 日本高清在线观看WWW色| jizz麻豆| 亚洲AV永久| 国产精品爽爽va在线观看无码| 26uuu另类亚洲欧美日本 | 中文字幕在线精品视频入口一区| 精品视频在线免费看| 老熟妇乱子伦牲交视频| 午夜成人影片av| 国产亚洲精品成人av一区| WWW.黄色| 婷婷五月激情综合| 亚洲AV日韩AV永久无码久久| 青青草一区在线观看视频| 成人久久免费网站|