網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

CMU等團(tuán)隊(duì)：PAT3D把文生3D從能看推進(jìn)到能模擬、能交互

2026-05-05 15:03:22　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

論文已被 ICLR 2026 接收，第一作者為 CMU 博士生林谷穎，師從 CMU 的李旻辰教授。研究團(tuán)隊(duì)中還包括 CMU 的 Jun-Yan Zhu 教授、Michael Liu、高睿晗、陳瀚可、陳律豪、盧貝嘉、HKU 的 Taku Komura 教授、黃可蒙，以及 HKUST 的劉緣教授。

現(xiàn)在的 3D AIGC 已經(jīng)可以很快生成場(chǎng)景，但離真正落地還有一段距離。很多場(chǎng)景看起來(lái)還行，一進(jìn)物理模擬就會(huì)暴露問(wèn)題，比如物體懸空、互相穿插，甚至還沒(méi)碰就散。這些問(wèn)題讓它們很難直接用于游戲、XR 或機(jī)器人等實(shí)際場(chǎng)景。

問(wèn)題的根源在于，過(guò)去的大多數(shù)文生 3D 方法主要優(yōu)化的是視覺(jué)效果：只要渲染出來(lái)看起來(lái)合理就可以。但這種做法忽略了一個(gè)關(guān)鍵點(diǎn)——場(chǎng)景是否在物理上成立。一旦進(jìn)入模擬環(huán)境，物體之間的接觸、支撐關(guān)系以及整體穩(wěn)定性都會(huì)成為問(wèn)題，而這些恰恰是實(shí)際應(yīng)用中最關(guān)鍵的部分。

來(lái)自卡耐基梅隆大學(xué)（CMU）、香港大學(xué)（HKU）和香港科技大學(xué)（HKUST）的研究團(tuán)隊(duì)提出了 PAT3D（Physics-Augmented Text-to-3D Scene Generation），嘗試解決這個(gè)問(wèn)題。他們的目標(biāo)很直接：讓生成的 3D 場(chǎng)景不只是視覺(jué)上合理，而是在物理上也站得住，可以直接用于編輯、交互和仿真。

圖 1：PAT3D 關(guān)注的不只是視覺(jué)效果，而是讓場(chǎng)景在模擬中也能成立。

論文標(biāo)題：PAT3D: Physics-Augmented Text-to-3D Scene Generation
論文地址：https://openreview.net/pdf?id=iIRxFkeCuY
論文作者：Guying Lin, Kemeng Huang, Michael Liu, Ruihan Gao, Hanke Chen, Lyuhao Chen, Beijia Lu, Taku Komura, Yuan Liu, Jun-Yan Zhu, Minchen Li
作者單位：卡耐基梅隆大學(xué)、香港大學(xué)、香港科技大學(xué)
項(xiàng)目主頁(yè)：https://simulation-intelligence.github.io/PAT3D/
代碼鏈接：https://github.com/Simulation-Intelligence/PAT3D

PAT3D 是怎么做的？

PAT3D 的思路可以概括成三步。

第一階段是3D 物體與空間關(guān)系抽取。系統(tǒng)先根據(jù)文本提示生成一張參考圖，再借助視覺(jué)語(yǔ)言模型識(shí)別場(chǎng)景中的物體類別、材質(zhì)和相對(duì)位置，并把圖像分割成多個(gè)對(duì)象區(qū)域。隨后，系統(tǒng)為每個(gè)對(duì)象分別生成 3D 資產(chǎn)，而不是把整個(gè)場(chǎng)景直接做成一個(gè)整體網(wǎng)格。這樣做的關(guān)鍵意義在于：后續(xù)每個(gè)物體都能作為獨(dú)立剛體參與接觸、碰撞和支撐關(guān)系計(jì)算。

第二階段是布局初始化。PAT3D 會(huì)先利用單目深度估計(jì)，把 2D 參考圖回投成粗略的 3D 布局，再根據(jù)視覺(jué)語(yǔ)言模型抽取出的物體依賴關(guān)系，構(gòu)建一個(gè)層級(jí)化的「場(chǎng)景樹(shù)」。這個(gè)「場(chǎng)景樹(shù)」描述的不是普通語(yǔ)義標(biāo)簽，而是沿重力方向的物理依賴，例如「支撐」「包含」等。在此基礎(chǔ)上，PAT3D 會(huì)對(duì)初始布局做兩類修正：

一類是同層物體之間的水平去重疊，避免兄弟節(jié)點(diǎn)互相擠壓；另一類是父子節(jié)點(diǎn)之間沿重力方向的垂直分離，例如讓「杯子里的筆」先處在合理的容器范圍內(nèi)、讓「桌上的書(shū)」先位于桌面的支撐區(qū)域之上。這樣得到的初始化場(chǎng)景，不一定已經(jīng)完全穩(wěn)定，但至少是無(wú)穿插、適合進(jìn)入物理模擬的。

第三階段是布局優(yōu)化。PAT3D 引入了 libuipc 的可微剛體仿真，讓物體在重力和接觸力作用下朝靜力平衡狀態(tài)演化。這里更關(guān)鍵的一點(diǎn)是，它并不滿足于「只要物理上站得住就行」。因?yàn)閱慰课锢矸抡妫芏鄨?chǎng)景雖然穩(wěn)定，卻可能偏離文本語(yǔ)義，比如本應(yīng)放在桌上的物體滑落到地面，依然可能是一個(gè)物理上成立的終態(tài)。

為了解決這個(gè)問(wèn)題，PAT3D 引入了基于物理模擬的閉環(huán)優(yōu)化：它根據(jù)最終模擬狀態(tài)是否滿足「場(chǎng)景樹(shù)」中的包含與支撐關(guān)系，定義語(yǔ)義損失，再把這個(gè)損失反向傳回初始布局，持續(xù)調(diào)整初始位置。這樣，最終得到的不是單純「不會(huì)倒」的場(chǎng)景，而是「既穩(wěn)定、又盡量保留文本語(yǔ)義」的場(chǎng)景。

圖 2：PAT3D 將物體生成、關(guān)系理解、布局初始化和物理優(yōu)化串聯(lián)成一個(gè)完整流程。

下面的視頻展示了一個(gè)具體示例的生成過(guò)程。

實(shí)驗(yàn)結(jié)果說(shuō)明了什么？

從結(jié)果看，PAT3D 的優(yōu)勢(shì)并不只是「更穩(wěn)定一點(diǎn)」，而是把場(chǎng)景生成從「能展示」推到了「能落地」。在包含 18 個(gè)復(fù)雜提示詞的測(cè)試中，PAT3D 與 GraphDreamer、Blender-MCP、MIDI 等方法進(jìn)行了比較。結(jié)果顯示，PAT3D 在關(guān)鍵物理指標(biāo)上非常突出：繼續(xù)模擬位移為 0，物體穿插比例為 0，物理合理性評(píng)分高達(dá) 88.5。

圖 3：PAT3D 與現(xiàn)有方法在場(chǎng)景質(zhì)量和物理合理性上的定量對(duì)比。

更直觀地看，在書(shū)本、杯子、餐具、積木、水果籃這些接觸關(guān)系比較復(fù)雜的場(chǎng)景里，PAT3D 能避免物體懸空和模擬后坍塌，并且明顯減少擺放錯(cuò)位。以積木堆疊為例，普通方法生成的布局往往要么不符合物理規(guī)律，要么一進(jìn)入模擬就容易倒掉；而 PAT3D 會(huì)進(jìn)一步調(diào)整初始擺放，使最終穩(wěn)定下來(lái)的結(jié)果仍然盡量貼近文本描述。

圖 4：與已有方法相比，PAT3D 在復(fù)雜接觸場(chǎng)景里更容易得到物理合理的結(jié)果。

為什么這項(xiàng)工作值得關(guān)注？

更重要的是，PAT3D 的結(jié)果不是停留在論文圖里的靜態(tài)展示，而是可以直接拿去做后續(xù)任務(wù)。論文里展示了三個(gè)很有代表性的應(yīng)用方向。

第一個(gè)是場(chǎng)景編輯。當(dāng)用戶刪除一個(gè)筆筒、抽走一本書(shū)，或在原有布局上再加一個(gè)物體時(shí)，場(chǎng)景不會(huì)立刻變成一團(tuán)穿插或懸空的模型，而是能在模擬中重新達(dá)到平衡。這意味著未來(lái)的 3D 內(nèi)容創(chuàng)作可以更像「搭積木」。

圖 5：PAT3D 支持增刪物體后的物理一致場(chǎng)景編輯。注：此處仿真為準(zhǔn)靜態(tài)。

第二個(gè)是動(dòng)畫(huà)制作。PAT3D 生成的場(chǎng)景本身就滿足基本的物理約束，因此不需要再花很多時(shí)間手動(dòng)修正和調(diào)整初始布局，就可以直接用于后續(xù)動(dòng)畫(huà)制作。換句話說(shuō)，它生成的不只是一個(gè)靜態(tài)場(chǎng)景，而是一個(gè)已經(jīng)為運(yùn)動(dòng)和模擬做好準(zhǔn)備的場(chǎng)景。在傳統(tǒng)的物理仿真動(dòng)畫(huà)制作中，場(chǎng)景建模上往往需要花費(fèi)大量時(shí)間，PAT3D 無(wú)疑將大大提高其效率。

圖 6：PAT3D 生成的場(chǎng)景可直接用于后續(xù)動(dòng)畫(huà)制作。

第三個(gè)是機(jī)器人仿真。機(jī)器人通常需要靠模擬環(huán)境檢驗(yàn)學(xué)習(xí)到的抓取、搬運(yùn)和交互策略。如果場(chǎng)景本身存在漂浮、重疊或碰撞不合理等問(wèn)題，那么訓(xùn)練出來(lái)的結(jié)果往往也不可靠。PAT3D 生成的場(chǎng)景可以直接導(dǎo)入模擬器，用來(lái)測(cè)試抓取是否成功、操作過(guò)程中物體會(huì)不會(huì)傾倒，從而為機(jī)器人訓(xùn)練和評(píng)估提供大量更可信的環(huán)境。

圖 7：當(dāng)生成的場(chǎng)景能夠直接進(jìn)入機(jī)器人模擬流程，文本到場(chǎng)景的價(jià)值就不再只是展示。左圖展示了成功抓取的例子，右圖展示了失敗抓取的例子。

PAT3D 的意義，不只是讓生成結(jié)果更好看，而是讓 3D 生成更接近真正可用。隨著生成系統(tǒng)開(kāi)始同時(shí)理解和處理語(yǔ)義、結(jié)構(gòu)與物理，它面向的也不再只是展示層面的效果，而是更完整的數(shù)字內(nèi)容生產(chǎn)流程，以及機(jī)器人、仿真等更真實(shí)的應(yīng)用場(chǎng)景。

同時(shí)，PAT3D 的成功也讓我們看到將物理仿真用于 3D 生成任務(wù)的巨大潛力。更可貴的是，其源代碼已在 Apache-2.0 許可下開(kāi)源，這不僅降低了研究復(fù)現(xiàn)與二次開(kāi)發(fā)的門(mén)檻，也為社區(qū)進(jìn)一步驗(yàn)證、擴(kuò)展和落地這一路線提供了堅(jiān)實(shí)基礎(chǔ)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.