網易首頁 > 網易號 > 正文申請入駐

CVPR 2026 動態視覺智能觀察梳理：Benchmark 之外的新考題已經出現

2026-04-30 23:47:15　來源: 雷峰網

北京舉報

分享至

如果把近幾年計算機視覺的發展放在一個更長的時間尺度上去看，會發現整個領域其實一直在沿著一條非常明確但也非常受限的路徑前進：

研究者不斷把模型做得更大，把訓練數據堆得更多，把單項 benchmark 指標推得更高，于是無論是分割、重建還是生成，模型在標準任務上的表現都在持續逼近“看起來已經足夠強”的狀態。

但如果把視角拉回到 CVPR 2026 前后這一批最新工作，會發現一個更值得警惕的變化正在發生：研究的重心，正在悄悄從“把答案做對”，轉向“在不完美條件下依然能夠持續理解世界”。

也就是說，這一輪進展不再只是精度層面的線性推進，而更像是對視覺系統基本工作方式的一次系統性松動。

問題在于，這種“強”，往往建立在一個并不真實的假設之上——默認輸入信息是充分的、任務定義是清晰的、交互過程是單輪的、場景變化是可預期的。換句話說，過去的大多數視覺模型雖然在實驗環境中越來越像一個“高精度求解器”，卻依然很難成為一個真正能夠在開放環境中持續理解、持續修正、持續適應的視覺智能體。

而 CVPR 2026 這一波工作最值得關注的地方，恰恰不在于它們分別把某個子任務的數字提高了多少，而在于它們幾乎不約而同地開始挑戰這個舊時代視覺系統最根本的四個默認前提：模型是否必須凍結、目標是否必須預定義、信息是否必須充分、輸入是否必須結構化。

整個變化，是從交互式視頻分割這里率先被撕開口子的。

從「用戶修錯」到「模型自學」

長期以來，交互式視頻分割給人的印象似乎已經相當成熟：用戶點擊一下，模型修正一下；用戶框選一下，模型繼續傳播掩碼。看起來人機協同已經建立起來了。但康奈爾大學在《Live Interactive Training for Video Segmentation》中指出，這其實是一種很容易讓人忽略的“偽交互”。因為在現有范式下，所謂交互只發生在輸出層，模型的內部知識卻是完全靜止的。

這意味著什么？意味著當視頻里出現遮擋、光照突變、主體分裂或者背景偽裝時，模型第一次犯錯，用戶點擊修正；下一次遇到同樣的視覺模式，它大概率還會再犯同樣的錯。用戶似乎一直在參與，但參與的只是重復勞動——用戶并沒有真的把自己的判斷傳遞進模型的內部表征。

所以這篇論文真正想打破的，并不是“如何讓點擊提示更有效”這種局部工程問題，而是更底層地在追問：為什么我們默認推理階段的模型必須是凍結的？為什么用戶反饋只能被當成 prompt，而不能被當成即時學習信號？

LIT 的提出，本質上就是把交互式視覺系統從“提示—響應”結構，推進到了“反饋—吸收—再預測”的動態閉環。用戶一次糾錯之后，輕量級 LIT-LoRA 模塊立刻完成局部在線更新，模型隨即對當前視頻的運動模式、遮擋關系和外觀變化形成短時適應。于是，用戶的點擊不再只是修補當前這一幀，而是開始改變模型之后的判斷邏輯。

這看起來像是一點點在線訓練的加入，但它實際打破的是視覺推理幾十年來非常頑固的一條邊界：推理不再只是參數凍結下的被動執行，而開始擁有任務內自我更新能力。換句話說，視覺模型第一次開始在使用過程中“成長”。

而一旦“模型可以在任務中成長”這件事被打開，研究自然會往前追問另一層問題：如果模型擁有足夠強的內部表征，它是不是甚至不需要顯式訓練，也能根據極少的上下文快速理解用戶想要的目標？

這就引出了 INSID3 的價值。Politecnico di Torino、TU Darmstadt 與 TU Munich 聯合完成的《INSID3: Training-Free In-Context Segmentation with DINOv3》，表面看是在做一個“免訓練上下文示例分割”，但它真正挑戰的是過去視覺分割領域對“任務泛化”的理解方式。

傳統分割系統的泛化能力通常來自類別預訓練、任務微調，或者額外訓練一個 support-query 適配頭。也就是說，研究界始終默認：想讓模型理解一個新目標，就必須通過參數層面的新學習去注入任務知識。

INSID3 的反向論證則非常激進——作者認為，自監督基礎模型 DINOv3 內部其實已經潛藏了大量跨像素、跨區域、跨語義層級的對應知識，這些知識不是不存在，而是過去的任務設計沒有把它有效調動出來。

因此他們不再訓練任何分割頭，而是直接讓參考圖與查詢圖在凍結特征空間里建立密集語義映射，讓“這一塊是什么”的定義通過特征相似性自然傳遞。這意味著模型并不是通過新訓練獲得理解，而是在已有表征中被上下文示例即時喚醒。

這背后非常關鍵：LIT 證明模型可以從即時反饋里學習；INSID3 則進一步證明，模型甚至可能在不學習的情況下，僅憑上下文就完成任務臨場重定義。前者是在打破“推理凍結”，后者是在打破“目標預定義”。

也就是說，視覺系統正在逐漸擺脫那種“訓練時決定一切，測試時只能執行”的舊工業流程。

離開理想輸入，進入真實場景

但當模型開始擁有這種臨場適應與臨場理解能力后，更尖銳的問題隨之出現：現實世界提供給模型的信息，往往根本不像 benchmark 那樣完整。這里，《Long-Tail Internet Photo Reconstruction》的出現就顯得極其重要。

Cornell University 和 Kempner Institute 的研究者指出，今天幾乎所有互聯網三維重建方法之所以在論文中表現穩定，是因為它們長期依賴熱門地標數據訓練：照片多、重疊強、視角密、幾何對應關系天然充足。

然而真實互聯網世界的絕大多數地點并不滿足這個條件。更多時候，用戶上傳的是幾張零散的手機拍攝圖，角度不統一，清晰度參差不齊，甚至主體只在少量區域出現。換句話說，模型面對的不是“信息充分的重建任務”，而是“信息極度稀缺下的結構猜測任務”。

這篇論文的深刻之處在于，它沒有像以往那樣繼續在重建算法局部模塊上縫縫補補，而是直接指出：問題根本不在推理器，而在訓練分布。模型之所以不會處理長尾場景，不是因為它不會重建，而是因為它從未在“少照片、弱重疊、低覆蓋”的真實互聯網分布上形成過幾何推理習慣。

于是 MegaDepth-X 的意義，是人為制造一種長期被 benchmark 回避掉的稀疏現實，讓 3D Foundation Model 學會在缺信息、弱對應、低冗余條件下仍然建立結構認知。

到這里，視覺系統的第三個舊前提也被擊穿了：模型不再被允許只在信息充足時工作，它必須開始具備從碎片線索中補全世界的能力。而這種“從局部線索恢復整體邏輯”的趨勢，很快又被延伸到了三維資產理解與生成一致性問題上。

比如《Material Magic Wand: Material-Aware Grouping of 3D Parts in Untextured Meshes》看似只是一個三維材質分組工具，但它真正挑戰的是視覺模型長期以來“只理解幾何相似性，卻不理解設計語義”的局限。

多倫多大學與 Adobe 研究院關注的是無紋理三維網格中的材質感知部件分組問題：在真實三維資產中，窗框、欄桿、瓦片、鱗片、果殼這類局部結構經常重復出現，卻并不一定在幾何上完全相同；但在后續材質編輯中，它們往往又需要被賦予同一種木材、金屬或石材紋理。

這正是傳統方法的短板。過去模型通常依據幾何相似性來檢索部件，因此更容易找到“長得像”的結構，卻很難識別那些“形狀不同但材質邏輯一致”的對象。雷峰網

對于設計師來說，真正重要的并不是兩個部件是否足夠相似，而是它們在整體模型的功能、位置和視覺組織中，是否應該被一起處理。如果模型只能回答“像不像”，它仍然停留在視覺表面；只有當它開始判斷“這些部件是否應該共享同一種材質”，才算接近真實三維創作中的語義理解。

Material Magic Wand 的思路，是把二維圖像里“魔棒工具”的交互邏輯遷移到三維網格中：用戶只需點擊一個部件，系統就自動找出模型中所有可能共享相同材質屬性的其他部件。

為此，作者設計了 material-aware embedding，在編碼三維部件時，不只看局部幾何形狀，也結合它在整體模型中的上下文結構信息，并通過監督式對比學習，讓相同材質的部件在特征空間中更接近、不同材質的部件彼此區分。

這說明視覺模型正在從“識別物體是什么”，向“理解人類為什么這樣使用這些物體”過渡。同樣的邏輯，在由魏茨曼科學研究所（Weizmann Institute of Science）提出的《Match-and-Fuse: Consistent Generation from Unstructured Image Sets》中被推到了生成端。

這項研究關注的是非結構化圖像集合的一致性生成：輸入不再是一張單圖，也不是連續視頻幀，而是一組共享某個主體、但在視角、時間、姿態和背景上差異很大的圖像，比如商品展示圖、人物相冊或故事板參考圖。

這類任務的難點在于，這些圖像沒有視頻那樣天然連續的時序約束，卻又要求生成結果在主體身份、外觀紋理和細節結構上保持一致。傳統生成模型往往習慣逐張處理，因此很容易出現身份漂移、紋理變化或細節錯亂，本質上是因為模型沒有把“這一組圖屬于同一個整體語義系統”真正建模進去。

Match-and-Fuse 的做法，是把整組輸入圖像建模成圖結構：每張圖像作為一個節點，相關圖像之間建立邊連接，并在邊上執行聯合雙圖生成。這樣模型能夠先捕捉任意兩張圖之間的共享信息，再把局部一致性約束融合成全局一致輸出。

同時，論文還利用稠密像素匹配，在擴散模型內部進行跨圖特征融合，讓不同視角下屬于同一對象的區域共享潛在表示，從而無需額外訓練或人工掩碼，也能維持服飾紋理、商品細節、文字標識等細粒度一致性。

雷峰網

把這些工作放在一起看，會發現它們雖然分屬視頻分割、上下文分割、三維重建、三維編輯和一致性生成等不同方向，但真正共同推動的，其實是同一件事：視覺模型正在被迫離開那個過去被 benchmark 精心整理好的理想環境。

在那里，輸入是完整的，目標是清楚的，圖像關系是預設的，用戶反饋也只是有限的補充；模型要做的，只是在一次推理里盡可能給出正確答案。但現實世界顯然不是這樣。它的信息往往是殘缺的，目標會臨時變化，用戶會不斷介入，不同視角和不同圖片之間還隱藏著大量需要被主動整合的關系。

也正因為如此，這一批工作最值得關注的地方，并不是它們分別把某個任務做得更強，而是它們開始集體拆掉視覺系統過去賴以成立的那些默認前提：模型不再必須凍結，目標不再必須預定義，輸入不再必須充分，圖像也不再必須被單獨處理。雷峰網

如果說過去的計算機視覺更擅長的是“看懂一張圖、答對一道題”，那么現在的新一輪研究正在讓模型學會的是另一種能力——在一個持續變化、信息不完整、關系高度交織的視覺環境里，邊接收反饋，邊補全認知，邊重新組織自己對整個場景的理解。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.