![]()
論文已被 ICLR 2026 接收,第一作者為 CMU 博士生林谷穎,師從 CMU 的李旻辰教授。研究團(tuán)隊(duì)中還包括 CMU 的 Jun-Yan Zhu 教授、Michael Liu、高睿晗、陳瀚可、陳律豪、盧貝嘉、HKU 的 Taku Komura 教授、黃可蒙,以及 HKUST 的劉緣教授。
現(xiàn)在的 3D AIGC 已經(jīng)可以很快生成場(chǎng)景,但離真正落地還有一段距離。很多場(chǎng)景看起來(lái)還行,一進(jìn)物理模擬就會(huì)暴露問(wèn)題,比如物體懸空、互相穿插,甚至還沒(méi)碰就散。這些問(wèn)題讓它們很難直接用于游戲、XR 或機(jī)器人等實(shí)際場(chǎng)景。
問(wèn)題的根源在于,過(guò)去的大多數(shù)文生 3D 方法主要優(yōu)化的是視覺(jué)效果:只要渲染出來(lái)看起來(lái)合理就可以。但這種做法忽略了一個(gè)關(guān)鍵點(diǎn)——場(chǎng)景是否在物理上成立。一旦進(jìn)入模擬環(huán)境,物體之間的接觸、支撐關(guān)系以及整體穩(wěn)定性都會(huì)成為問(wèn)題,而這些恰恰是實(shí)際應(yīng)用中最關(guān)鍵的部分。
來(lái)自卡耐基梅隆大學(xué)(CMU)、香港大學(xué)(HKU)和香港科技大學(xué)(HKUST)的研究團(tuán)隊(duì)提出了 PAT3D(Physics-Augmented Text-to-3D Scene Generation),嘗試解決這個(gè)問(wèn)題。他們的目標(biāo)很直接:讓生成的 3D 場(chǎng)景不只是視覺(jué)上合理,而是在物理上也站得住,可以直接用于編輯、交互和仿真。
![]()
圖 1:PAT3D 關(guān)注的不只是視覺(jué)效果,而是讓場(chǎng)景在模擬中也能成立。
![]()
- 論文標(biāo)題:PAT3D: Physics-Augmented Text-to-3D Scene Generation
- 論文地址:https://openreview.net/pdf?id=iIRxFkeCuY
- 論文作者:Guying Lin, Kemeng Huang, Michael Liu, Ruihan Gao, Hanke Chen, Lyuhao Chen, Beijia Lu, Taku Komura, Yuan Liu, Jun-Yan Zhu, Minchen Li
- 作者單位:卡耐基梅隆大學(xué)、香港大學(xué)、香港科技大學(xué)
- 項(xiàng)目主頁(yè):https://simulation-intelligence.github.io/PAT3D/
- 代碼鏈接:https://github.com/Simulation-Intelligence/PAT3D
PAT3D 是怎么做的?
PAT3D 的思路可以概括成三步。
第一階段是3D 物體與空間關(guān)系抽取。系統(tǒng)先根據(jù)文本提示生成一張參考圖,再借助視覺(jué)語(yǔ)言模型識(shí)別場(chǎng)景中的物體類別、材質(zhì)和相對(duì)位置,并把圖像分割成多個(gè)對(duì)象區(qū)域。隨后,系統(tǒng)為每個(gè)對(duì)象分別生成 3D 資產(chǎn),而不是把整個(gè)場(chǎng)景直接做成一個(gè)整體網(wǎng)格。這樣做的關(guān)鍵意義在于:后續(xù)每個(gè)物體都能作為獨(dú)立剛體參與接觸、碰撞和支撐關(guān)系計(jì)算。
第二階段是布局初始化。PAT3D 會(huì)先利用單目深度估計(jì),把 2D 參考圖回投成粗略的 3D 布局,再根據(jù)視覺(jué)語(yǔ)言模型抽取出的物體依賴關(guān)系,構(gòu)建一個(gè)層級(jí)化的「場(chǎng)景樹(shù)」。這個(gè)「場(chǎng)景樹(shù)」描述的不是普通語(yǔ)義標(biāo)簽,而是沿重力方向的物理依賴,例如「支撐」「包含」等。在此基礎(chǔ)上,PAT3D 會(huì)對(duì)初始布局做兩類修正:
一類是同層物體之間的水平去重疊,避免兄弟節(jié)點(diǎn)互相擠壓;另一類是父子節(jié)點(diǎn)之間沿重力方向的垂直分離,例如讓「杯子里的筆」先處在合理的容器范圍內(nèi)、讓「桌上的書(shū)」先位于桌面的支撐區(qū)域之上。這樣得到的初始化場(chǎng)景,不一定已經(jīng)完全穩(wěn)定,但至少是無(wú)穿插、適合進(jìn)入物理模擬的。
第三階段是布局優(yōu)化。PAT3D 引入了 libuipc 的可微剛體仿真,讓物體在重力和接觸力作用下朝靜力平衡狀態(tài)演化。這里更關(guān)鍵的一點(diǎn)是,它并不滿足于「只要物理上站得住就行」。因?yàn)閱慰课锢矸抡妫芏鄨?chǎng)景雖然穩(wěn)定,卻可能偏離文本語(yǔ)義,比如本應(yīng)放在桌上的物體滑落到地面,依然可能是一個(gè)物理上成立的終態(tài)。
為了解決這個(gè)問(wèn)題,PAT3D 引入了基于物理模擬的閉環(huán)優(yōu)化:它根據(jù)最終模擬狀態(tài)是否滿足「場(chǎng)景樹(shù)」中的包含與支撐關(guān)系,定義語(yǔ)義損失,再把這個(gè)損失反向傳回初始布局,持續(xù)調(diào)整初始位置。這樣,最終得到的不是單純「不會(huì)倒」的場(chǎng)景,而是「既穩(wěn)定、又盡量保留文本語(yǔ)義」的場(chǎng)景。
![]()
圖 2:PAT3D 將物體生成、關(guān)系理解、布局初始化和物理優(yōu)化串聯(lián)成一個(gè)完整流程。
下面的視頻展示了一個(gè)具體示例的生成過(guò)程。
實(shí)驗(yàn)結(jié)果說(shuō)明了什么?
從結(jié)果看,PAT3D 的優(yōu)勢(shì)并不只是「更穩(wěn)定一點(diǎn)」,而是把場(chǎng)景生成從「能展示」推到了「能落地」。在包含 18 個(gè)復(fù)雜提示詞的測(cè)試中,PAT3D 與 GraphDreamer、Blender-MCP、MIDI 等方法進(jìn)行了比較。結(jié)果顯示,PAT3D 在關(guān)鍵物理指標(biāo)上非常突出:繼續(xù)模擬位移為 0,物體穿插比例為 0,物理合理性評(píng)分高達(dá) 88.5。
![]()
圖 3:PAT3D 與現(xiàn)有方法在場(chǎng)景質(zhì)量和物理合理性上的定量對(duì)比。
更直觀地看,在書(shū)本、杯子、餐具、積木、水果籃這些接觸關(guān)系比較復(fù)雜的場(chǎng)景里,PAT3D 能避免物體懸空和模擬后坍塌,并且明顯減少擺放錯(cuò)位。以積木堆疊為例,普通方法生成的布局往往要么不符合物理規(guī)律,要么一進(jìn)入模擬就容易倒掉;而 PAT3D 會(huì)進(jìn)一步調(diào)整初始擺放,使最終穩(wěn)定下來(lái)的結(jié)果仍然盡量貼近文本描述。
![]()
圖 4:與已有方法相比,PAT3D 在復(fù)雜接觸場(chǎng)景里更容易得到物理合理的結(jié)果。
為什么這項(xiàng)工作值得關(guān)注?
更重要的是,PAT3D 的結(jié)果不是停留在論文圖里的靜態(tài)展示,而是可以直接拿去做后續(xù)任務(wù)。論文里展示了三個(gè)很有代表性的應(yīng)用方向。
第一個(gè)是場(chǎng)景編輯。當(dāng)用戶刪除一個(gè)筆筒、抽走一本書(shū),或在原有布局上再加一個(gè)物體時(shí),場(chǎng)景不會(huì)立刻變成一團(tuán)穿插或懸空的模型,而是能在模擬中重新達(dá)到平衡。這意味著未來(lái)的 3D 內(nèi)容創(chuàng)作可以更像「搭積木」。
![]()
圖 5:PAT3D 支持增刪物體后的物理一致場(chǎng)景編輯。注:此處仿真為準(zhǔn)靜態(tài)。
第二個(gè)是動(dòng)畫(huà)制作。PAT3D 生成的場(chǎng)景本身就滿足基本的物理約束,因此不需要再花很多時(shí)間手動(dòng)修正和調(diào)整初始布局,就可以直接用于后續(xù)動(dòng)畫(huà)制作。換句話說(shuō),它生成的不只是一個(gè)靜態(tài)場(chǎng)景,而是一個(gè)已經(jīng)為運(yùn)動(dòng)和模擬做好準(zhǔn)備的場(chǎng)景。在傳統(tǒng)的物理仿真動(dòng)畫(huà)制作中,場(chǎng)景建模上往往需要花費(fèi)大量時(shí)間,PAT3D 無(wú)疑將大大提高其效率。
![]()
圖 6:PAT3D 生成的場(chǎng)景可直接用于后續(xù)動(dòng)畫(huà)制作。
第三個(gè)是機(jī)器人仿真。機(jī)器人通常需要靠模擬環(huán)境檢驗(yàn)學(xué)習(xí)到的抓取、搬運(yùn)和交互策略。如果場(chǎng)景本身存在漂浮、重疊或碰撞不合理等問(wèn)題,那么訓(xùn)練出來(lái)的結(jié)果往往也不可靠。PAT3D 生成的場(chǎng)景可以直接導(dǎo)入模擬器,用來(lái)測(cè)試抓取是否成功、操作過(guò)程中物體會(huì)不會(huì)傾倒,從而為機(jī)器人訓(xùn)練和評(píng)估提供大量更可信的環(huán)境。
![]()
圖 7:當(dāng)生成的場(chǎng)景能夠直接進(jìn)入機(jī)器人模擬流程,文本到場(chǎng)景的價(jià)值就不再只是展示。左圖展示了成功抓取的例子,右圖展示了失敗抓取的例子。
PAT3D 的意義,不只是讓生成結(jié)果更好看,而是讓 3D 生成更接近真正可用。隨著生成系統(tǒng)開(kāi)始同時(shí)理解和處理語(yǔ)義、結(jié)構(gòu)與物理,它面向的也不再只是展示層面的效果,而是更完整的數(shù)字內(nèi)容生產(chǎn)流程,以及機(jī)器人、仿真等更真實(shí)的應(yīng)用場(chǎng)景。
同時(shí),PAT3D 的成功也讓我們看到將物理仿真用于 3D 生成任務(wù)的巨大潛力。更可貴的是,其源代碼已在 Apache-2.0 許可下開(kāi)源,這不僅降低了研究復(fù)現(xiàn)與二次開(kāi)發(fā)的門(mén)檻,也為社區(qū)進(jìn)一步驗(yàn)證、擴(kuò)展和落地這一路線提供了堅(jiān)實(shí)基礎(chǔ)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.