![]()
當(dāng)機(jī)器從識別圖像走向介入現(xiàn)實,視覺研究的邊界也被重新劃定。
作者丨鄭佳美
編輯丨馬曉寧
如果您漫步在 CVPR 2026 的會場,會產(chǎn)生一種強(qiáng)烈的錯覺:自己是不是跑錯了場館,誤入了 ICRA 或者 IROS 的現(xiàn)場?滿屏的機(jī)械臂抓取、足式機(jī)器人的越野導(dǎo)航、以及在虛擬沙盒中進(jìn)行千億次迭代的物理模擬。
具身智能(Embodied AI)已經(jīng)不再是視覺領(lǐng)域的一個“邊緣分支”,而是以一種占據(jù)主舞臺的姿態(tài),成為視覺頂會最難被忽視的敘事之一。
這種范式的易位,讓人們不禁回想起 2017 年機(jī)器人學(xué)界的頂級盛會 IROS。當(dāng)時,機(jī)器人專家們打破了固守多年的運(yùn)動學(xué)控制圈層,邀請計算機(jī)視覺泰斗、ImageNet 奠基人李飛飛做主題演講。
在那個時刻,視覺對于機(jī)器人而言,更像是一個“尊貴的外部插件”:機(jī)器人學(xué)是主,計算機(jī)視覺是客。機(jī)器人真正的知識核心,仍然是運(yùn)動學(xué)、動力學(xué)、控制、規(guī)劃、執(zhí)行器和系統(tǒng)工程;視覺負(fù)責(zé)把外部世界翻譯成機(jī)器人能夠使用的狀態(tài)信息,卻并不真正決定機(jī)器人學(xué)的問題邊界。
九年之后,機(jī)器人和計算機(jī)視覺的融合已進(jìn)入新的里程碑。在計算機(jī)視覺領(lǐng)域,我們甚至可以看到具身智能“反客為主”的表現(xiàn)。
這種“反客為主”,并不是說機(jī)器人論文在視覺頂會中數(shù)量變多了,也不是說 CVPR 正在變成另一個 ICRA 或 IROS。真正重要的是,具身智能正在改變計算機(jī)視覺判斷自身價值的方式。
過去,視覺研究的中心問題是:機(jī)器如何從圖像中提取語義,從視頻中理解事件,從多視角中還原三維結(jié)構(gòu)。今天,具身智能把問題推進(jìn)到了另一層:視覺系統(tǒng)不僅要看懂世界,還要支持一個智能體進(jìn)入世界、改變世界,并在行動反饋中重新校正自己對世界的理解。
這才是所謂“范式奪權(quán)”的本質(zhì)。一個方向真正完成“奪權(quán)”,從來不是靠論文數(shù)量取勝,而是靠重新定義整個領(lǐng)域的問題入口、評價標(biāo)準(zhǔn)和技術(shù)路線。
如果說過去的計算機(jī)視覺是在屏幕中理解世界,那么具身智能正在迫使它走出屏幕,在真實空間、真實物體和真實動作中重新證明自己。
01
Ted Xiao「三大時代」里的具身智能拐點(diǎn)
要理解具身智能為什么會在 CVPR 2026 中形成如此強(qiáng)的存在感,不能只從這一屆會議本身看起。更準(zhǔn)確的切口,是 Ted Xiao 對機(jī)器人學(xué)習(xí)過去十年發(fā)展的三階段復(fù)盤:存在性證明時代、基礎(chǔ)模型時代和 Scaling 時代。
這個框架之所以重要,是因為它解釋了一個關(guān)鍵問題:具身智能并不是突然進(jìn)入計算機(jī)視覺中心的,而是在機(jī)器人學(xué)習(xí)自身演進(jìn)到某個階段之后,必然開始向視覺研究索取更深層的能力。
換句話說,CVPR 2026 所呈現(xiàn)出的變化,不是一個會議熱點(diǎn)的偶然輪換,而是機(jī)器人學(xué)習(xí)從控制問題、數(shù)據(jù)問題,進(jìn)一步演變成世界理解問題后的自然結(jié)果。
第一個階段是存在性證明時代。這個階段的核心問題是:端到端的數(shù)據(jù)驅(qū)動方法到底能不能在真實機(jī)器人上工作?強(qiáng)化學(xué)習(xí)能不能控制機(jī)械臂?模仿學(xué)習(xí)能不能完成抓取?真實硬件采集的數(shù)據(jù)能不能訓(xùn)練出穩(wěn)定策略?
這一時期的機(jī)器人學(xué)習(xí)還帶有很強(qiáng)的“實驗室證明”色彩。研究者需要先證明,深度學(xué)習(xí)不只是能在 Atari、圍棋和圖像分類中奏效,也能面對真實世界中連續(xù)、高維、噪聲極強(qiáng)的物理系統(tǒng)。
在這個階段,視覺當(dāng)然重要,但它更多是機(jī)器人系統(tǒng)中的輸入模塊。機(jī)器人需要視覺來感知物體位置、場景狀態(tài)和外部環(huán)境,但機(jī)器人學(xué)習(xí)的主要壓力仍然來自控制穩(wěn)定性、硬件誤差、樣本效率、數(shù)據(jù)采集成本和真實環(huán)境不確定性。視覺是必要條件,卻還不是范式重組的中心。
第二個階段是基礎(chǔ)模型時代。隨著大語言模型、視覺語言模型和多模態(tài)大模型的發(fā)展,機(jī)器人學(xué)習(xí)開始發(fā)生第一次重要轉(zhuǎn)向。機(jī)器人不再只是學(xué)習(xí)某個單一技能,而是開始吸收互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)中形成的語義理解能力。
它不僅要知道機(jī)械臂如何移動,還要理解“把紅色杯子放到盤子旁邊”這樣的自然語言指令;不僅要識別物體,還要理解開放詞匯、空間關(guān)系、任務(wù)意圖和人類常識。
SayCan、RT-1、RT-2 這類路線的意義正在于此。它們并不只是讓機(jī)器人“聽懂更多話”,而是讓視覺、語言和動作第一次被壓進(jìn)同一個建模框架中:語言給出目標(biāo),視覺理解狀態(tài),模型生成動作,動作改變世界,世界反饋又回到視覺輸入之中。
到了這個階段,計算機(jī)視覺和機(jī)器人學(xué)習(xí)的關(guān)系已經(jīng)開始變化。機(jī)器人對視覺的需求,不再只是“幫我看見物體在哪里”,而是“幫我理解一個開放世界,并把這種理解轉(zhuǎn)化為行動”。這已經(jīng)不是傳統(tǒng)意義上的視覺模塊調(diào)用,而是對視覺研究提出了更高層的要求。
第三個階段是 Scaling 時代。也正是在這個階段,CVPR 的位置變得不可替代。因為一旦機(jī)器人學(xué)習(xí)進(jìn)入規(guī)模化,它需要的基礎(chǔ)設(shè)施幾乎全部與計算機(jī)視覺深度綁定:
它需要從海量視頻中學(xué)習(xí)人類動作和物體交互,需要用 3D 場景理解支撐空間推理,需要用世界模型預(yù)測動作后果,需要通過仿真和合成數(shù)據(jù)彌補(bǔ)真實機(jī)器人數(shù)據(jù)的稀缺,需要把語言目標(biāo)映射到視覺狀態(tài)和動作序列,也需要在長程任務(wù)中維持對場景、記憶和目標(biāo)的持續(xù)理解。
這就是為什么具身智能會在 CVPR 2026 中顯得像一次集中爆發(fā)。機(jī)器人學(xué)習(xí)早期更像是在解決“能不能讓機(jī)器人動起來”;基礎(chǔ)模型時代開始解決“能不能讓機(jī)器人理解指令和場景”;而到了 Scaling 時代,真正的問題變成了“能不能讓機(jī)器人在開放世界中規(guī)模化地學(xué)習(xí)、泛化和行動”。
這個問題已經(jīng)不再是機(jī)器人學(xué)單獨(dú)能夠完成的,它必須借助計算機(jī)視覺在視覺表征、視頻理解、三維重建、多模態(tài)對齊、生成建模和世界建模上的長期積累。因此,Ted Xiao 的三大時代復(fù)盤實際上揭示了這場“范式奪權(quán)”的歷史條件:只有當(dāng)機(jī)器人學(xué)習(xí)進(jìn)入 Scaling 階段,視覺才會從機(jī)器人系統(tǒng)中的外部插件,變成物理智能的底層基礎(chǔ)設(shè)施。
02
三重「奪權(quán)」:
問題、標(biāo)準(zhǔn)與路線的重寫
有了 Ted Xiao 的時間線,再回到 CVPR 2026,很多現(xiàn)象就不再顯得孤立。
VLA、機(jī)器人操作、移動導(dǎo)航、人形機(jī)器人、世界模型、Sim2Real、物理仿真、3D 空間智能和自動駕駛等主題集中出現(xiàn),并不是多個熱點(diǎn)并排爆發(fā),而是同一條范式遷移鏈路在視覺頂會中的集中顯影。
過去,CVPR 的很多核心任務(wù)可以被理解為從視覺輸入到視覺表征的映射:圖像到類別,圖像到框,圖像到 mask,圖像到 depth,圖像到 3D,視頻到事件,文本到圖像。
具身智能則要求建立一條更長的鏈路:視覺輸入進(jìn)入語言理解,語言目標(biāo)進(jìn)入任務(wù)規(guī)劃,任務(wù)規(guī)劃進(jìn)入動作生成,動作結(jié)果回到視覺反饋,反饋再更新模型對世界的判斷。
這條鏈路一旦成為主流,計算機(jī)視覺的研究對象就會發(fā)生變化。圖像不再只是被理解的對象,而是行動決策的起點(diǎn);視頻不再只是時間序列,而是動作、變化和因果后果的載體;三維重建不再只是幾何恢復(fù),而是智能體導(dǎo)航、操作和交互的空間底座;生成模型不再只是為了生成逼真的內(nèi)容,而是要生成可用于訓(xùn)練、預(yù)測和評估行動策略的世界。
這就是 CVPR 2026 的標(biāo)志性意義。它不是具身智能第一次出現(xiàn)在視覺頂會中,卻可能是具身智能第一次如此清晰地改變視覺頂會的敘事重心。過去,機(jī)器人是視覺技術(shù)的應(yīng)用場景;現(xiàn)在,機(jī)器人問題開始成為視覺研究重新定義自身的一面鏡子。
而所謂具身智能的“范式奪權(quán)”,正是從這里開始的:它首先改變了計算機(jī)視覺的問題定義。
傳統(tǒng)計算機(jī)視覺最常問的是:這是什么?它在哪里?這個場景如何重建?這段視頻發(fā)生了什么?這些問題共同指向一個目標(biāo):讓機(jī)器更好地表征世界。
具身智能把問題改寫了。一個機(jī)器人看見桌上的杯子,任務(wù)并不會停在“識別這是杯子”。它還要判斷杯子的重心、材質(zhì)、杯柄朝向、可抓取區(qū)域、周圍障礙物、機(jī)械臂運(yùn)動路徑,以及拿起之后世界狀態(tài)會如何改變。也就是說,具身智能真正問的是:我能對它做什么?
這一步改變了視覺研究的底層對象。物體不再只是類別標(biāo)簽,而是可抓取、可推動、可打開、可阻擋、可支撐的實體;空間不再只是幾何結(jié)構(gòu),而是可導(dǎo)航、可探索、可交互的任務(wù)場;視頻不再只是時間序列,而是動作、變化和因果后果的線索。
問題一旦被改寫,評價標(biāo)準(zhǔn)也會隨之變化。傳統(tǒng)視覺的成功大多建立在離線數(shù)據(jù)集上:分類看準(zhǔn)確率,檢測看 mAP,分割看 IoU,重建看誤差,生成看保真度和語義一致性。具身智能帶來的標(biāo)準(zhǔn)更苛刻:模型“看對了”并不等于任務(wù)成功。
機(jī)器人識別出了杯子,但抓取失敗,視覺理解仍然不夠;模型重建出了房間,但機(jī)器人無法安全導(dǎo)航,空間表征仍然不夠;視頻生成看起來逼真,但不能預(yù)測動作后果,世界模型仍然不夠。
所以,具身智能把評價標(biāo)準(zhǔn)從“輸出是否正確”,推向“行動是否有效”。計算機(jī)視覺過去可以在視覺空間內(nèi)部自洽,現(xiàn)在則必須接受物理世界的檢驗。
當(dāng)問題定義和評價標(biāo)準(zhǔn)都發(fā)生變化,方法路線也會被重寫。VLA 模型之所以重要,并不是因為它把 Vision、Language、Action 三個詞放在一起,而是因為它重建了智能系統(tǒng)的基本接口:人類用語言表達(dá)目標(biāo),機(jī)器人通過視覺理解當(dāng)前世界,再把語言目標(biāo)和視覺狀態(tài)轉(zhuǎn)化為動作序列。
世界模型和物理仿真解決的,則是行動之前的后果預(yù)測。機(jī)器人拿起杯子,桌面狀態(tài)會改變;推開箱子,路徑可達(dá)性會改變;打開抽屜,新的物體會出現(xiàn)。如果視覺模型不能推演這些變化,它就很難支撐規(guī)劃。
3D 空間智能也因此被重新賦予意義。過去,三維重建關(guān)注幾何是否準(zhǔn)確、紋理是否真實;現(xiàn)在,具身智能要求三維世界是可行動的:哪里能走,哪里能抓,哪里會撞,哪里需要探索。
這就是具身智能對計算機(jī)視覺方法路線的重寫。它把視覺模型從“感知器”推向“行動系統(tǒng)的一部分”,把 3D 從幾何恢復(fù)推向空間決策,把視頻生成從內(nèi)容合成推向物理預(yù)測,把多模態(tài)模型從視覺問答推向任務(wù)執(zhí)行。
而學(xué)術(shù)范式的變化,最終還需要產(chǎn)業(yè)現(xiàn)實來確認(rèn)。過去,計算機(jī)視覺的產(chǎn)業(yè)化多發(fā)生在相對可控的感知和內(nèi)容場景中。安防識別、工業(yè)檢測、自動駕駛感知、手機(jī)影像和 AIGC,都可以在一定程度上把視覺輸出作為獨(dú)立結(jié)果來使用。
但機(jī)器人不同。機(jī)器人要求視覺結(jié)果直接進(jìn)入行動鏈條。模型不能只是“看起來理解了”,它必須把貨箱搬起來,把零件放到位,把路線走通,把門打開,把錯誤恢復(fù)過來。
這使得視覺模型的錯誤成本發(fā)生了變化。一次識別錯誤可能導(dǎo)致抓取失敗,一次空間誤判可能導(dǎo)致碰撞,一次物理預(yù)測錯誤可能讓策略失效。
因此,產(chǎn)業(yè)需要的不是單點(diǎn)視覺能力,而是一整套面向物理世界的視覺基礎(chǔ)設(shè)施:穩(wěn)定的 3D 世界表征、低延遲動作生成、高質(zhì)量機(jī)器人數(shù)據(jù)、可交互仿真環(huán)境、可靠的 Sim2Real 遷移,以及失敗后的恢復(fù)機(jī)制。
只要 AI 繼續(xù)從屏幕走向物理世界,計算機(jī)視覺就必然從“感知模型”走向“行動基礎(chǔ)設(shè)施”。這也是具身智能奪取范式解釋權(quán)的現(xiàn)實基礎(chǔ)。
03
從開放世界之橋,到物理智能底座
回到 2017 年 IROS 的歷史現(xiàn)場,李飛飛的出現(xiàn)象征著機(jī)器人學(xué)界對視覺智能的主動擁抱。那時,機(jī)器人如果要進(jìn)入開放世界,就必須借助視覺理解對象、場景和人類意圖。視覺是機(jī)器人通往開放世界的一座橋。
而現(xiàn)在 CVPR 2026 的具身智能熱潮構(gòu)成了另一個歷史鏡像:機(jī)器人問題開始反過來迫使計算機(jī)視覺重新理解自身。沒有視覺,機(jī)器人無法理解開放世界;但沒有行動,視覺智能也很容易停留在描述世界的層面,無法證明自己是否真正理解世界。
這就是“從座上賓到主戰(zhàn)場”的真正含義。
它不是機(jī)器人取代計算機(jī)視覺,也不是 CVPR 變成機(jī)器人會議,而是具身智能奪取了計算機(jī)視覺的范式解釋權(quán)。它重新定義了什么是重要問題,什么是有效方法,什么是成功結(jié)果,也重新定義了視覺智能必須面對的世界。
過去,計算機(jī)視覺的核心是讓機(jī)器看見世界;后來,它變成讓機(jī)器理解世界;現(xiàn)在,具身智能正在要求機(jī)器進(jìn)入世界。看見是感知,理解是表征,行動才是對理解的最終檢驗。
這次去 CVPR 現(xiàn)場,一定不要錯過
【認(rèn)識大牛+賺外快】的機(jī)會
需要你做什么:把你最關(guān)注的10個大會報告,每頁P(yáng)PT都拍下來
你能獲得什么?
認(rèn)識大牛:你將可以進(jìn)入CVPR名師博士社群;
錢多活少:提供豐厚獎金,任務(wù)量精簡;
聽會自由:你的行程你做主,順手就把外快賺。拍下你最感興趣的10個報告PPT即可。
如果你即將前往CVPR,想邊聽會邊賺錢,還能順便為AI學(xué)術(shù)社區(qū)做貢獻(xiàn)、認(rèn)識更多大牛,歡迎聯(lián)系我們:[添加微信號:MS_Yahei]
【限額5位,先到先得】
未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.