VGGT-Edit團(tuán)隊(duì) 投稿量子位 | 公眾號(hào) QbitAI
3D世界“會(huì)看”了,但還不會(huì)“改”。
從NeRF到83D Gaussian Splatting,再到VGGT、π3這類前饋式3D重建模型,整個(gè)行業(yè)的進(jìn)展速度明顯加快——只需幾張圖片,就能在幾秒內(nèi)重建完整3D場(chǎng)景。
但問(wèn)題也恰恰出在這里。這些模型雖然已經(jīng)能理解三維世界,卻還不會(huì)修改三維世界。你可以讓它重建一個(gè)房間,卻很難真正告訴它:
把椅子移到窗邊,刪除中間那張椅子,把灰色皮沙發(fā)改成白色長(zhǎng)毛沙發(fā)。
更麻煩的是,一旦涉及復(fù)雜編輯,現(xiàn)有方法往往迌速崩採(cǎi)——某些角度里椅子消失了,換個(gè)視角椅子又重新出現(xiàn);明明沒(méi)改的背景,卻跟著一起變形。
為應(yīng)對(duì)這一挑戰(zhàn),來(lái)自北京大學(xué)香港中文大學(xué)上海AI LabNTU等機(jī)構(gòu)的研究團(tuán)隊(duì),提出了一套原生3D編輯框架:VGGT-Edit
核心思路只有一句話——
不再繞回2D,而是直接在3D空間里完成編輯。
在DeltaScene測(cè)試集上,VGGT-Edit在語(yǔ)義一致性、多視角穩(wěn)定性、推理速度三個(gè)維度均超過(guò)現(xiàn)有方法,單次編輯僅需約5秒,最高實(shí)現(xiàn)120倍加速。
問(wèn)題其實(shí)一直出在在2D
目前大多數(shù)編3D的方法,本質(zhì)上仍然是“2D思維”——先把場(chǎng)景拆成多弤2D圖片,逐張編輯,再重新拼回3D。
但由于每個(gè)視角都是獨(dú)立處理的,所以很容易出現(xiàn):
- 一個(gè)視角里椅子已經(jīng)刪掉了;
- 換個(gè)角度椅子又重新出現(xiàn);
- 背景區(qū)域跟著一起漂移;
- 物體邊緣出現(xiàn)重影和閃爍。
3D編輯方法的比較
![]()
很多結(jié)果看起來(lái)更像“在不同角度硬P出來(lái)的圖”,而不是真正穩(wěn)定的3D空間。
對(duì)于機(jī)器人、AR/VR、空間智能這些方向來(lái)說(shuō),這幾乎是致命問(wèn)題——這些場(chǎng)景真正需要的,不是“某一個(gè)角度看起來(lái)對(duì)”,而是整個(gè)3D世界始終穩(wěn)定一致。
原生3D編輯,開(kāi)始從概念走向可用
VGGT-Edit的核心思路非常直接:既然問(wèn)題來(lái)自2D,那就不要再繞回2D。
整個(gè)框架建立在VGGT-Like前饋式重建模型之上,繼承了其快速、高效的3D表示能力。但有意思的是,團(tuán)隊(duì)并沒(méi)有選擇重新生成整個(gè)場(chǎng)景,而是提出了一種非常巧妙的機(jī)制:
殘差場(chǎng)預(yù)測(cè)(Residual Field Prediction)。
![]()
簡(jiǎn)單理解就是:模型先保留原始場(chǎng)景穩(wěn)定的3D結(jié)構(gòu),然后只學(xué)習(xí)“哪里需要變化”,例如:
- 椅子往右移動(dòng);
- 沙發(fā)材質(zhì)發(fā)生變化;
- 刪除某個(gè)物體;
- 新增一個(gè)家具。
這些變化,都被表示成了:新場(chǎng)景 = 原場(chǎng)景 + 局部殘差變化
這個(gè)設(shè)計(jì)有個(gè)非常重要的好處——因?yàn)榇蟛糠謪^(qū)域本來(lái)就不需要變化,所以模型不用重新“生成整個(gè)世界”,只需修改局部,結(jié)果就是沒(méi)改動(dòng)的背景區(qū)域會(huì)非常穩(wěn)定。
這也是VGGT-Edit和很多現(xiàn)有方法最明顯的區(qū)別之一。
文本語(yǔ)義,第一次真正開(kāi)始“對(duì)齊”3D空間
研究團(tuán)隊(duì)發(fā)現(xiàn),如果只是簡(jiǎn)單把一句文本輸入模型,很容易出現(xiàn)一種情況——模型知道“你想改什么”,但不知道“該改哪里”。
為了解決這個(gè)問(wèn)題,VGGT-Edit設(shè)計(jì)了一套關(guān)鍵機(jī)制:
深度同步文本注入(Depth-Synchronized Text Injection)
本質(zhì)上可以理解成讓文本語(yǔ)義和3D空間特征,在同一個(gè)深度層級(jí)里持續(xù)同步。
傳統(tǒng)方法通常只在前面注入一次文本信息,但VGGT-Edit會(huì)在多個(gè)關(guān)鍵層持續(xù)融合文本語(yǔ)義,這樣模型在整個(gè)3D生成過(guò)程中,始終知道:
- 當(dāng)前應(yīng)該修改哪個(gè)區(qū)域;
- 修改目標(biāo)是什么;
- 空間位置在哪里。
與此同時(shí),團(tuán)隊(duì)還專門設(shè)計(jì)了一套“視角重要性加權(quán)”——因?yàn)椴⒉皇撬幸暯嵌纪瑯涌煽浚行┙嵌瓤赡鼙欢輷酰行┮暯侵荒芸吹桨雮€(gè)物體。
VGGT-Edit會(huì)自動(dòng)判斷哪個(gè)視角更值得信任,最終讓多視角編輯結(jié)果更加穩(wěn)定。
一個(gè)真正面向“3D編輯”的編輯頭
除了整體框架之外,VGGT-Edit還有一個(gè)非常關(guān)鍵的部分——專門面向3D編輯任務(wù)設(shè)計(jì)的編輯頭
研究團(tuán)隊(duì)發(fā)現(xiàn),對(duì)于VGGT-Like模型來(lái)說(shuō),原本的重建Head更關(guān)注“如何恢復(fù)場(chǎng)景”,但3D編輯真正需要解決的問(wèn)題是:如何在保持整體穩(wěn)定的情況下,只修改局部區(qū)域。
因此,VGGT-Edit額外設(shè)計(jì)了一套編輯分支,專門預(yù)測(cè)場(chǎng)景中的局部變化。
這個(gè)編輯Head會(huì)直接作用于3D表示空間,并輸出對(duì)應(yīng)的殘差場(chǎng)變化。本質(zhì)上,它學(xué)習(xí)的是:
- 哪些區(qū)域應(yīng)該保持不變;
- 哪些區(qū)域需要發(fā)生編輯;
- 編輯后如何保持多視角一致。
相比直接重新生成整個(gè)場(chǎng)景,這種方式更加穩(wěn)定,也更加高效——這也是讓VGGT-Like前饋重建模型具有編輯能力的關(guān)鍵一步。
一個(gè)10萬(wàn)規(guī)模的數(shù)據(jù)集,專門訓(xùn)練“3D編輯”
為了訓(xùn)練VGGT-Edit,團(tuán)隊(duì)專門構(gòu)建了一個(gè)新3D編輯數(shù)據(jù)集DeltaScene,規(guī)模接近10萬(wàn)組,覆蓋客廳、辦公室、住宅、商業(yè)空間等多種場(chǎng)景。
DeltaScene數(shù)據(jù)集概述
![]()
更重要的是,整個(gè)數(shù)據(jù)生成流程高度自動(dòng)化。
團(tuán)隊(duì)通過(guò)利用Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max,自動(dòng)完成編輯指令生成、目標(biāo)識(shí)別、多視角編輯、3D一致性過(guò)濾,最終得到真正滿足“多視角幾何一致”的訓(xùn)練數(shù)據(jù)。
DeltaScene數(shù)據(jù)構(gòu)造流程
![]()
對(duì)于原生3D編輯來(lái)說(shuō),這一步非常關(guān)鍵——模型真正需要學(xué)習(xí)的,不只是“圖像變化”,而是同一個(gè)編輯,在不同視角下如何始終保持空間一致。
3D編輯,第一次開(kāi)始接近實(shí)時(shí)交互
從結(jié)果來(lái)看,這條路線確實(shí)有效。
在DeltaScene測(cè)試集上,VGGT-Edit在語(yǔ)義一致性、多視角穩(wěn)定性、推理速度三個(gè)維度都超過(guò)了現(xiàn)有方法。
尤其是在添加家具、調(diào)整位置、修改材質(zhì)這些復(fù)雜任務(wù)中,很多傳統(tǒng)方法仍然會(huì)出現(xiàn)明顯的“貼圖感”和幾何漂移,但VGGT-Edit生成的結(jié)果,會(huì)明顯更像一個(gè)真實(shí)穩(wěn)定的3D空間。
不同3D編輯任務(wù)的定性比較
![]()
更關(guān)鍵的是速度——論文中,VGGT-Edit單次編輯只需約5秒,相比很多需要長(zhǎng)時(shí)間優(yōu)化的傳統(tǒng)方法,最高可實(shí)現(xiàn)120倍加速。
這意味著編3D第一次真正開(kāi)始接近實(shí)時(shí)交互。
對(duì)于機(jī)器人、數(shù)字孿生、AR/VR等方向來(lái)說(shuō),這種變化非常重要——只有當(dāng)編輯速度足夠快,3D世界才真正可能變成“可交互”的世界。
在DeltaScene數(shù)據(jù)集上的定量結(jié)果
![]()
模型開(kāi)始真正理解“空間變化”
論文里還有一個(gè)非常有意思的實(shí)驗(yàn)。研究人員輸入了一條訓(xùn)練中從未出現(xiàn)過(guò)的指令——“將中間椅子順時(shí)針旋轉(zhuǎn)90度。”
結(jié)果模型依然成功完成了編輯。
對(duì)未見(jiàn)過(guò)的指令進(jìn)行泛化
![]()
這說(shuō)明VGGT-Edit學(xué)到的,并不只是固定模板,它真正開(kāi)始理解文本語(yǔ)義如何映射到3D空間變化。
而這件事,可能比“會(huì)生成3D”本身更重要。因?yàn)閷?duì)于空間智能來(lái)說(shuō),未來(lái)真正關(guān)鍵的能力,也許不是“生成一個(gè)世界”,而是能否像人一樣,自由、穩(wěn)定、實(shí)時(shí)地修改這個(gè)世界。
VGGT-Edit,正在把這件事往前推進(jìn)一步。
論文鏈接:https://arxiv.org/abs/2605.15186
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.