網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

5秒完成3D場(chǎng)景編輯，北大&港中文&上海AI Lab搞出VGGT-Edit

2026-05-27 17:03:21　來(lái)源: 量子位

北京舉報(bào)

分享至

VGGT-Edit團(tuán)隊(duì) 投稿量子位 | 公眾號(hào) QbitAI

3D世界“會(huì)看”了，但還不會(huì)“改”。

從NeRF到83D Gaussian Splatting，再到VGGT、π3這類前饋式3D重建模型，整個(gè)行業(yè)的進(jìn)展速度明顯加快——只需幾張圖片，就能在幾秒內(nèi)重建完整3D場(chǎng)景。

但問(wèn)題也恰恰出在這里。這些模型雖然已經(jīng)能理解三維世界，卻還不會(huì)修改三維世界。你可以讓它重建一個(gè)房間，卻很難真正告訴它：

把椅子移到窗邊，刪除中間那張椅子，把灰色皮沙發(fā)改成白色長(zhǎng)毛沙發(fā)。

更麻煩的是，一旦涉及復(fù)雜編輯，現(xiàn)有方法往往迌速崩採(cǎi)——某些角度里椅子消失了，換個(gè)視角椅子又重新出現(xiàn)；明明沒(méi)改的背景，卻跟著一起變形。

為應(yīng)對(duì)這一挑戰(zhàn)，來(lái)自北京大學(xué)香港中文大學(xué)上海AI LabNTU等機(jī)構(gòu)的研究團(tuán)隊(duì)，提出了一套原生3D編輯框架：VGGT-Edit

核心思路只有一句話——

不再繞回2D，而是直接在3D空間里完成編輯。

在DeltaScene測(cè)試集上，VGGT-Edit在語(yǔ)義一致性、多視角穩(wěn)定性、推理速度三個(gè)維度均超過(guò)現(xiàn)有方法，單次編輯僅需約5秒，最高實(shí)現(xiàn)120倍加速。

問(wèn)題其實(shí)一直出在在2D

目前大多數(shù)編3D的方法，本質(zhì)上仍然是“2D思維”——先把場(chǎng)景拆成多弤2D圖片，逐張編輯，再重新拼回3D。

但由于每個(gè)視角都是獨(dú)立處理的，所以很容易出現(xiàn)：

一個(gè)視角里椅子已經(jīng)刪掉了；
換個(gè)角度椅子又重新出現(xiàn)；
背景區(qū)域跟著一起漂移；
物體邊緣出現(xiàn)重影和閃爍。

3D編輯方法的比較

很多結(jié)果看起來(lái)更像“在不同角度硬P出來(lái)的圖”，而不是真正穩(wěn)定的3D空間。

對(duì)于機(jī)器人、AR/VR、空間智能這些方向來(lái)說(shuō)，這幾乎是致命問(wèn)題——這些場(chǎng)景真正需要的，不是“某一個(gè)角度看起來(lái)對(duì)”，而是整個(gè)3D世界始終穩(wěn)定一致。

原生3D編輯，開(kāi)始從概念走向可用

VGGT-Edit的核心思路非常直接：既然問(wèn)題來(lái)自2D，那就不要再繞回2D。

整個(gè)框架建立在VGGT-Like前饋式重建模型之上，繼承了其快速、高效的3D表示能力。但有意思的是，團(tuán)隊(duì)并沒(méi)有選擇重新生成整個(gè)場(chǎng)景，而是提出了一種非常巧妙的機(jī)制：

殘差場(chǎng)預(yù)測(cè)（Residual Field Prediction）。

簡(jiǎn)單理解就是：模型先保留原始場(chǎng)景穩(wěn)定的3D結(jié)構(gòu)，然后只學(xué)習(xí)“哪里需要變化”，例如：

椅子往右移動(dòng)；
沙發(fā)材質(zhì)發(fā)生變化；
刪除某個(gè)物體；
新增一個(gè)家具。

這些變化，都被表示成了：新場(chǎng)景 = 原場(chǎng)景 + 局部殘差變化

這個(gè)設(shè)計(jì)有個(gè)非常重要的好處——因?yàn)榇蟛糠謪^(qū)域本來(lái)就不需要變化，所以模型不用重新“生成整個(gè)世界”，只需修改局部，結(jié)果就是沒(méi)改動(dòng)的背景區(qū)域會(huì)非常穩(wěn)定。

這也是VGGT-Edit和很多現(xiàn)有方法最明顯的區(qū)別之一。

文本語(yǔ)義，第一次真正開(kāi)始“對(duì)齊”3D空間

研究團(tuán)隊(duì)發(fā)現(xiàn)，如果只是簡(jiǎn)單把一句文本輸入模型，很容易出現(xiàn)一種情況——模型知道“你想改什么”，但不知道“該改哪里”。

為了解決這個(gè)問(wèn)題，VGGT-Edit設(shè)計(jì)了一套關(guān)鍵機(jī)制：

深度同步文本注入（Depth-Synchronized Text Injection）

本質(zhì)上可以理解成讓文本語(yǔ)義和3D空間特征，在同一個(gè)深度層級(jí)里持續(xù)同步。

傳統(tǒng)方法通常只在前面注入一次文本信息，但VGGT-Edit會(huì)在多個(gè)關(guān)鍵層持續(xù)融合文本語(yǔ)義，這樣模型在整個(gè)3D生成過(guò)程中，始終知道：

當(dāng)前應(yīng)該修改哪個(gè)區(qū)域；
修改目標(biāo)是什么；
空間位置在哪里。

與此同時(shí)，團(tuán)隊(duì)還專門設(shè)計(jì)了一套“視角重要性加權(quán)”——因?yàn)椴⒉皇撬幸暯嵌纪瑯涌煽浚行┙嵌瓤赡鼙欢輷酰行┮暯侵荒芸吹桨雮€(gè)物體。

VGGT-Edit會(huì)自動(dòng)判斷哪個(gè)視角更值得信任，最終讓多視角編輯結(jié)果更加穩(wěn)定。

一個(gè)真正面向“3D編輯”的編輯頭

除了整體框架之外，VGGT-Edit還有一個(gè)非常關(guān)鍵的部分——專門面向3D編輯任務(wù)設(shè)計(jì)的編輯頭

研究團(tuán)隊(duì)發(fā)現(xiàn)，對(duì)于VGGT-Like模型來(lái)說(shuō)，原本的重建Head更關(guān)注“如何恢復(fù)場(chǎng)景”，但3D編輯真正需要解決的問(wèn)題是：如何在保持整體穩(wěn)定的情況下，只修改局部區(qū)域。

因此，VGGT-Edit額外設(shè)計(jì)了一套編輯分支，專門預(yù)測(cè)場(chǎng)景中的局部變化。

這個(gè)編輯Head會(huì)直接作用于3D表示空間，并輸出對(duì)應(yīng)的殘差場(chǎng)變化。本質(zhì)上，它學(xué)習(xí)的是：

哪些區(qū)域應(yīng)該保持不變；
哪些區(qū)域需要發(fā)生編輯；
編輯后如何保持多視角一致。

相比直接重新生成整個(gè)場(chǎng)景，這種方式更加穩(wěn)定，也更加高效——這也是讓VGGT-Like前饋重建模型具有編輯能力的關(guān)鍵一步。

一個(gè)10萬(wàn)規(guī)模的數(shù)據(jù)集，專門訓(xùn)練“3D編輯”

為了訓(xùn)練VGGT-Edit，團(tuán)隊(duì)專門構(gòu)建了一個(gè)新3D編輯數(shù)據(jù)集DeltaScene，規(guī)模接近10萬(wàn)組，覆蓋客廳、辦公室、住宅、商業(yè)空間等多種場(chǎng)景。

DeltaScene數(shù)據(jù)集概述

更重要的是，整個(gè)數(shù)據(jù)生成流程高度自動(dòng)化。

團(tuán)隊(duì)通過(guò)利用Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max，自動(dòng)完成編輯指令生成、目標(biāo)識(shí)別、多視角編輯、3D一致性過(guò)濾，最終得到真正滿足“多視角幾何一致”的訓(xùn)練數(shù)據(jù)。

DeltaScene數(shù)據(jù)構(gòu)造流程

對(duì)于原生3D編輯來(lái)說(shuō)，這一步非常關(guān)鍵——模型真正需要學(xué)習(xí)的，不只是“圖像變化”，而是同一個(gè)編輯，在不同視角下如何始終保持空間一致。

3D編輯，第一次開(kāi)始接近實(shí)時(shí)交互

從結(jié)果來(lái)看，這條路線確實(shí)有效。

在DeltaScene測(cè)試集上，VGGT-Edit在語(yǔ)義一致性、多視角穩(wěn)定性、推理速度三個(gè)維度都超過(guò)了現(xiàn)有方法。

尤其是在添加家具、調(diào)整位置、修改材質(zhì)這些復(fù)雜任務(wù)中，很多傳統(tǒng)方法仍然會(huì)出現(xiàn)明顯的“貼圖感”和幾何漂移，但VGGT-Edit生成的結(jié)果，會(huì)明顯更像一個(gè)真實(shí)穩(wěn)定的3D空間。

不同3D編輯任務(wù)的定性比較

更關(guān)鍵的是速度——論文中，VGGT-Edit單次編輯只需約5秒，相比很多需要長(zhǎng)時(shí)間優(yōu)化的傳統(tǒng)方法，最高可實(shí)現(xiàn)120倍加速。

這意味著編3D第一次真正開(kāi)始接近實(shí)時(shí)交互。

對(duì)于機(jī)器人、數(shù)字孿生、AR/VR等方向來(lái)說(shuō)，這種變化非常重要——只有當(dāng)編輯速度足夠快，3D世界才真正可能變成“可交互”的世界。

在DeltaScene數(shù)據(jù)集上的定量結(jié)果

模型開(kāi)始真正理解“空間變化”

論文里還有一個(gè)非常有意思的實(shí)驗(yàn)。研究人員輸入了一條訓(xùn)練中從未出現(xiàn)過(guò)的指令——“將中間椅子順時(shí)針旋轉(zhuǎn)90度。”

結(jié)果模型依然成功完成了編輯。

對(duì)未見(jiàn)過(guò)的指令進(jìn)行泛化

這說(shuō)明VGGT-Edit學(xué)到的，并不只是固定模板，它真正開(kāi)始理解文本語(yǔ)義如何映射到3D空間變化。

而這件事，可能比“會(huì)生成3D”本身更重要。因?yàn)閷?duì)于空間智能來(lái)說(shuō)，未來(lái)真正關(guān)鍵的能力，也許不是“生成一個(gè)世界”，而是能否像人一樣，自由、穩(wěn)定、實(shí)時(shí)地修改這個(gè)世界。

VGGT-Edit，正在把這件事往前推進(jìn)一步。

論文鏈接：https://arxiv.org/abs/2605.15186

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.