CVPR 2026 | 1000萬段駕駛視頻，教會模型如何估計相機位姿

2026-05-27 10:58:04　來源: 機器之心Pro

天津舉報

分享至

不用百萬級 3D 標注，模型也能從普通駕駛視頻中學會「自己是怎么動的」。Wayve 的 LA-Pose 試圖把未標注視頻里的運動信號，轉化為自動駕駛系統(tǒng)所需的相機位姿估計能力。

一輛車駛過一段路，它該如何知道自己剛才在三維空間中怎樣移動？

對人來說，答案似乎很自然：看一段行車視頻，道路、車輛、路燈和建筑如何在畫面中移動，幾乎就能判斷相機是在直行、轉彎、減速，還是停下。但對自動駕駛系統(tǒng)來說，這是一項核心幾何感知能力。系統(tǒng)不僅要看見場景，還要知道相機在連續(xù)幀之間發(fā)生了怎樣的平移和旋轉。

過去，訓練這類模型往往依賴高質量 3D 真值標注。為了得到這些標注，通常需要 LiDAR、精密標定、重建管線或仿真系統(tǒng)。數(shù)據(jù)越準，成本越高；成本越高，覆蓋的城市、天氣和道路類型就越有限。模型最后也容易繼承這些數(shù)據(jù)集本身的邊界。

Wayve 的最新研究 LA-Pose 換了一個切入點：先不要求模型直接學習精確 3D 位姿，而是讓它從海量未標注駕駛視頻里理解「運動長什么樣」。這篇論文已被 CVPR 2026 接收，完整題目是 LA-Pose: Latent Action Pretraining Meets Pose Estimation。

論文標題：LA-Pose: Latent Action Pretraining Meets Pose Estimation

項目地址：https://la-pose.github.io/
論文地址：https://arxiv.org/abs/2604.27448
Wayve 博客：https://wayve.ai/thinking/la-pose/
作者：Zhengqing Wang, Saurabh Nair, Prajwal Chidananda, Pujith Kachana, Samuel Li, Matthew Brown, Yasutaka Furukawa
機構：Wayve、Simon Fraser University
會議：CVPR 2026

一句話概括這篇論文

LA-Pose 先從約 1000 萬段未標注駕駛視頻中自監(jiān)督學習「潛在動作」表示，再用少量 3D 標注訓練一個輕量級位姿預測頭，把視頻里的運動規(guī)律轉化為準確、高效、可泛化的相機位姿估計能力。

為什么這件事難

相機位姿估計要回答的是：相機從上一幀到下一幀，到底移動了多遠、轉了多少角度？這聽起來像一個幾何問題，但在真實道路上，情況遠比干凈數(shù)據(jù)集復雜。夜間、雨天、隧道、擁擠城市道路、山路和鄉(xiāng)村道路都會出現(xiàn)，視覺外觀變化很大，傳統(tǒng)監(jiān)督訓練很難靠有限標注覆蓋所有情況。

LA-Pose 的出發(fā)點是，真實駕駛視頻本身已經(jīng)包含了大量運動線索。車輛向前開、轉彎、減速、駛入隧道，畫面都會隨時間發(fā)生規(guī)律變化。問題不一定是「怎樣標更多 3D 數(shù)據(jù)」，也可以是「怎樣讓模型先從普通視頻里學會運動」。

核心方法：先學運動，再學位姿

圖：LA-Pose 的兩階段方法。

LA-Pose 分成兩個階段。

第一階段是 Latent Action Pretraining。研究團隊用約 1000 萬段未標注駕駛視頻片段進行自監(jiān)督預訓練，讓模型學習一種「潛在動作」表示。可以把它理解為相鄰畫面之間運動變化的緊湊編碼：車輛是否在左轉、右轉、直行、減速，畫面結構如何隨時間變化，這些信息不需要人工寫成標簽，而是天然藏在視頻序列里。

具體來說，LA-Pose 訓練了一個逆向 - 正向動力學系統(tǒng)。模型看到連續(xù)視頻幀后，需要捕捉「當前畫面如何變化到下一幀」的規(guī)律。它不知道車輛的精確速度、航向角或 3D 位姿，也沒有被提供位姿標簽；它只是通過觀看大量駕駛視頻，逐漸學會哪些視覺變化對應哪些運動模式。

第二階段再把這種運動表示用于位姿估計。研究者凍結預訓練得到的運動編碼器，只在其上接一個輕量級位姿預測頭，并用少量高質量 3D 標注微調。這個預測頭會把潛在動作轉換為相機位姿，包括相對平移、旋轉、視場角和尺度。整個推理過程仍然是前饋式的，因此更接近實際部署對效率的要求。

沒有位姿標簽，也能長出運動結構

圖：潛在動作空間中自然浮現(xiàn)的運動結構。

這篇論文里最直觀的結果之一，是潛在動作空間自己長出了結構。

當研究者把學到的潛在動作可視化到二維空間后，相似動作會自然聚在一起，不同區(qū)域對應直行、左轉、右轉、停止等駕駛行為。這說明模型并不只是記住畫面外觀，而是在沒有 3D 標注的情況下，學到了具有幾何意義的運動先驗。

另一個有意思的發(fā)現(xiàn)是：表示并不是越大越好。LA-Pose 的實驗顯示，一個 50 維的潛在空間瓶頸，雖然不一定最擅長重建畫面細節(jié)，卻比更高維的表示更適合后續(xù)位姿估計。壓縮迫使模型丟掉一部分外觀信息，留下更關鍵的運動結構。

結果：更少標注，更高精度

實驗結果顯示，LA-Pose 在 Waymo 和 PandaSet 等自動駕駛基準上，相比近期前饋式方法取得超過 10% 的位姿精度提升，同時所需標注數(shù)據(jù)少了多個數(shù)量級。

更重要的是，在沒有參與訓練的 PandaSet 上，LA-Pose 依然超過基線方法，展示出較強的跨數(shù)據(jù)集泛化能力。對于自動駕駛來說，這一點很關鍵：系統(tǒng)不能只在熟悉數(shù)據(jù)集里表現(xiàn)穩(wěn)定，也要能面對新的城市、道路形態(tài)和天氣條件。

意義：把未標注視頻變成幾何能力

為了更直觀看到這種泛化能力，Wayve 還展示了 LA-Pose 與 VGGT 在不同真實道路場景中的對比：雨天高速出口與環(huán)島、德國鄉(xiāng)村窄路。 LA-Pose 的價值在于，它把「未標注視頻規(guī)模」轉化成了幾何視覺能力。車輛每天在真實世界中產(chǎn)生的視頻，本身就包含豐富的運動信息。只要模型能從中學到緊湊、可遷移的運動表示，再用少量標注把這種表示落到真實尺度上，就有可能改變幾何感知系統(tǒng)的訓練成本和擴展路徑。

當然，LA-Pose 還不是終點。Wayve 在博客中提到，模型目前在倒車運動上仍會出現(xiàn)退化，一個原因是倒車在后訓練數(shù)據(jù)中相對少見。團隊認為，下一步需要繼續(xù)擴大預訓練和后訓練數(shù)據(jù)，并把這種逆向動力學預訓練拓展到機器人采集視頻、手持視頻等更廣泛的動態(tài)視覺場景。

但這篇工作的信號已經(jīng)很清楚：幾何視覺不一定只能從昂貴標注開始。運動本身就是監(jiān)督信號，而真實世界的視頻中到處都有運動。

結語：運動本身就是信號

如果 LA-Pose 的方向繼續(xù)成立，未來的自動駕駛系統(tǒng)也許可以更少依賴為每個城市、每類場景重新構建昂貴 3D 標注集，而是從不斷增長的真實駕駛視頻中學習更通用的幾何先驗。

這也是「Latent Action Pretraining Meets Pose Estimation」這個題目的意義：潛在動作不再只是世界模型或策略網(wǎng)絡里的動作條件，它也可以成為連接視頻規(guī)模與 3D 幾何理解的一座橋。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.