北航/新國立提出AmbiSuR，重塑高保真3D幾何重建

2026-05-19 14:16:45　來源: 機器之心Pro

天津舉報

分享至

近年來，3D 高斯?jié)姙R（3D Gaussian Splatting, 3DGS）憑借其卓越的新視角合成能力和實時的渲染效率，極大地推動了神經(jīng)渲染技術的發(fā)展。然而，當研究者試圖直接從 3DGS 中提取精確的 3D 幾何表面（Mesh 等）時，往往會面臨嚴重的幾何失真問題。正如論文所指出的，由于混合過程缺乏約束，模型極易出現(xiàn)過度重建（over-reconstruction）和惡性的幾何重疊，生成由冗余基元構成的病態(tài)幾何。模型往往是在利用這些錯亂的冗余基元和復雜的遮擋關系來強行模擬視點相關的光影效果，而非恢復出明確的物理表面。

導致這一現(xiàn)象的核心瓶頸，在于現(xiàn)實物理世界中普遍存在的光度多義性（Photometric Ambiguity）。在弱紋理、高光反射或視點遮擋等區(qū)域，僅憑多視角的光度一致性并不足以收斂出唯一確定的幾何解，導致優(yōu)化極易陷入 “幾何過擬合”。現(xiàn)有方法大多依賴多次光線傳播建模，但只作用于反射等部分區(qū)域；或全局引入深度等外部先驗來進行正則化，這不僅容易引入先驗模型本身的誤差，還會削弱 3DGS 在紋理豐富區(qū)域的高頻細節(jié)表達能力。

為了從根本上緩解這一痛點，北京航空航天大學與新加坡國立大學等學術機構的百曉 & Gim Hee Lee 研究團隊在論文 ”Revisiting Photometric Ambiguity for Accurate Gaussian-Splatting Surface Reconstruction” 中提出了全新的AmbiSuR框架。該研究回歸表征基礎，深入剖析了 3DGS 內部的基元級多義性，并首次論證了球諧函數(shù)（Spherical Harmonics, SH）在高斯濺射中作為 “多義性自指示器” 的可行性與內在潛能。方法具有高度通用性，保持架構與先驗類型無關。

該論文現(xiàn)已被 ICML 2026 接收，代碼已開源。

本文第一作者為李嘉禾為北京航空航天大學計算機學院博士研究生，目前于新加坡國立大學 Gim Hee Lee 團隊進行訪問，主要研究方向為計算機三維視覺。通訊作者為北京航空航天大學計算機學院百曉教授和鄭錦副教授。

論文標題：Revisiting Photometric Ambiguity for Accurate Gaussian-Splatting Surface Reconstruction
論文鏈接：https://arxiv.org/abs/2605.12494
項目主頁：https://fictionarry.github.io/AmbiSuR-Proj/
代碼倉庫：https://github.com/Fictionarry/AmbiSuR

一、溯源：3DGS 表面重建面臨的表征與監(jiān)督雙重多義性

AmbiSuR 團隊從基礎原理出發(fā)，系統(tǒng)審視了 3DGS 在表面重建中遭遇的光度多義性，指出其來源于表征（Representation）和監(jiān)督（Supervision）兩個維度的缺陷與挑戰(zhàn)：

圖 1：表征與監(jiān)督多義性及方法流程

1. 表征層面的多義性（Representational Ambiguities）

通過對優(yōu)化梯度的定量分析，團隊指出了傳統(tǒng) 3DGS 基元在幾何成型時固有的兩個結構性缺陷：

1）基元邊緣多義性（Primitive Edge Ambiguity）：高斯基元的空間分布帶有面積龐大但低不透明度的邊緣。分析表明，高斯基元的核心區(qū)域主導了對光度誤差的擬合，而廣大的邊緣區(qū)域只能接收到極弱的梯度反饋。這種結構性偏差導致基元為了擬合核心區(qū)域的誤差，其邊緣區(qū)域會產(chǎn)生不受控的過度膨脹，進而在弱約束區(qū)域引發(fā)嚴重的幾何污染和粘連。

2）光度混合多義性（Photometric Blending Ambiguity）：3DGS 的渲染是基于 Alpha 混合（Alpha-blending）的像素級積分。對于反演明確的物理表面而言，單一像素的顏色監(jiān)督是一個典型的不適定問題。優(yōu)化器傾向于用冗余的病態(tài)基元層疊來擬合目標像素的顏色（即利用復雜的遮擋關系來模擬視點相關的效果），而不是重建出具有一致性光學屬性的確切表面。

2. 監(jiān)督層面的多義性（Supervisory Ambiguities）

即使通過技術手段修復了表征層面的缺陷，3DGS 依然需要面對現(xiàn)實世界中不完美的監(jiān)督信號。在真實場景中，由于反光、無紋理區(qū)域、視角覆蓋不足或光照變化，多視角光度的一致性往往被打破。這些誤導性的監(jiān)督信號會迫使優(yōu)化過程陷入妥協(xié)。

此外，當面對沖突的光度約束時，3DGS 無法單純依靠優(yōu)化幾何屬性來降低損失，便會利用高自由度的視點相關參數(shù)（如球諧函數(shù)）來強行擬合這些殘差。這導致幾何誤差或錯誤的外觀被烘焙進了模型的顏色表達中，從而允許生成錯誤的幾何結構。

二、核心解法：AmbiSuR 的雙階段干預機制

針對上述問題，AmbiSuR 提出了由內而外的兩步解決方案：

1. 表征層面：光度消歧模塊（Photometric Disambiguation）

1）高斯基元截斷（Gaussian Primitive Truncation）：作者采用了一種直接的統(tǒng)計截斷方法。利用標準差界定核心邊界（論文中設定邊界距離為 2 倍標準差），在計算渲染不透明度時，直接舍棄邊緣區(qū)域，僅保留核心區(qū)域的貢獻。這一操作從機制上切斷了弱梯度帶來的膨脹偏差，迫使基元保持緊湊。

圖 2：高斯基元截斷效果

2）光線 - 顏色一致性（Ray-Color Consistency）：為打破顏色混合的不適定性，研究團隊引入了基于射線的統(tǒng)計約束。他們計算了沿射線的發(fā)射顏色相對于混合期望顏色的加權方差。該損失項強制同一物理表面交點處的基元必須具備高度相似的光學屬性，從而有效抑制了冗余偽影的生成。

圖 3：光線 - 顏色一致性效果

2. 監(jiān)督層面：球諧函數(shù)多義性指示（SH Ambiguity Indication）

這是本工作的一項關鍵洞察。作者指出，3DGS 中用于擬合視點相關（View-dependent）顏色的高階球諧函數(shù)系數(shù)，天然具備量化光度多義性的能力。

基于球面積分的特性，視點相關的顏色方差與高階 SH 系數(shù)的平方和成正比。因此，作者定義了多義性指示器 I_SH，經(jīng)推導可直接等價于高階 SH 系數(shù)的模長。

在此基礎上，AmbiSuR 設計了雙端指示（Dual-End Indication）機制：

1）上端指示（Upper Indicator）： I_SH 指標處于頂部百分位（如前 5%）的基元，說明其在不同視角下受到了強烈沖突的約束，往往對應錯誤的幾何突變或極具挑戰(zhàn)的強反光區(qū)域。

2）下端指示（Lower Indicator）：反直覺地是，該工作分析得出并由實驗驗證，在優(yōu)化過程中，I_SH 處于底部百分位（如后 10%）通常也意味著該區(qū)域缺乏足夠的光度監(jiān)督信號，而通常并非理想的 non-Lambertian 表面（具體內容可由稀疏性推導得出，詳見論文）。這使得下端指示同樣成為有力的指示器。

圖 4：球諧函數(shù)多義性指示效果

通過動態(tài)鎖定這些高風險的基元集合，AmbiSuR 構建了參數(shù)級細粒度的無定形局部正則化器（Amorphous Local Regularizer）。它僅針對這些多義性基元施加由深度圖導出的法線先驗進行約束，并在微調時凍結其縮放和不透明度參數(shù)。這種精細化的局部干預，在利用先驗引導修正錯誤幾何的同時，充分保護了 3DGS 在紋理清晰區(qū)域的高頻細節(jié)。

為了證明該框架卓越的適用性與通用性，研究團隊在上述核心機制的基礎上，提出了兩種模型變體：1）標準 AmbiSuR：引入多視角深度（Multi-view Depth）作為幾何先驗，并通過其導出的點云進行模型初始化，旨在探索表面重建精度的最強性能上限。2）單目變體 AmbiSuR-Mono：結合極易獲取且魯棒的單目深度（Monocular Depth）先驗，并采用傳統(tǒng)的 SfM 稀疏點云進行初始化。

實驗證明 AmbiSuR 無論在擁有精確多視角幾何信息的理想場景下，還是在僅能提取基礎單目深度線索的受限環(huán)境中，都能展現(xiàn)出強大的兼容性與廣泛的落地潛力。

三、實驗驗證：跨越多種表征的全面領先

研究團隊在 DTU、Tanks and Temples (TnT) 以及 Mip-NeRF 360 多個標準數(shù)據(jù)集上對 AmbiSuR 進行了嚴格評估，結果證明其在精度、細節(jié)還原度以及魯棒性上均表現(xiàn)卓越。

1. 定量評估

在表面重建的兩大核心指標上，AmbiSuR 均取得了優(yōu)異成績：

DTU 數(shù)據(jù)集：無論是使用度量深度的標準版還是使用單目深度的 AmbiSuR-Mono，其在倒角距離（Chamfer Distance）上均達到了最優(yōu)水平0.46。它不僅超越了經(jīng)典的隱式方法（如 Neuralangelo），也優(yōu)于當前基于體素的最前沿方法 GeoSVR，證明了其在處理精細幾何時的優(yōu)越性。

圖 5：DTU 數(shù)據(jù)集重建結果

Tanks and Temples 數(shù)據(jù)集：在包含真實世界復雜光照和大規(guī)模場景的 TnT 測試中，AmbiSuR 在 F1-score 指標上全面勝出（0.576與0.589）。即使面對尺度模糊的單目先驗或精度有限的度量先驗，AmbiSuR 依然能保持穩(wěn)健的高精度重建，超越了帶有深度先驗的 MILo 和 GeoSVR 等強基線方法。

圖 6：TnT 數(shù)據(jù)集重建結果

值得一提的是，方法在使用當前非 SOTA backbone PGSR 的情況下，指標性能實際追平甚至超越 GGGS、GaussianWrapping 等同期或更新方法，且方法本身高度架構無關，展現(xiàn)出強大性能潛力。

2. 定性對比

通過對比重建的 Mesh 模型，可以清晰看到 AmbiSuR 的優(yōu)勢：消除幾何崩塌：在反光和紋理稀疏區(qū)域，傳統(tǒng) 3DGS 方法往往會生成混亂的過度重建表面來湊數(shù)，而 AmbiSuR 能夠重建出平滑且符合物理邏輯的表面。細節(jié)高度還原：對于形狀復雜的物體，AmbiSuR 展現(xiàn)了極強的細節(jié)捕捉能力，其提取的 Mesh 邊緣銳利且表面紋理清晰，避免了其他方法常見的過度平滑或幾何塌陷問題。現(xiàn)實世界重現(xiàn)：在無邊界數(shù)據(jù)集重建方面，AmbiSuR 同樣在 Mip-NeRF 360 數(shù)據(jù)集上表現(xiàn)良好。在未引入復雜光反射機制的情況下，對于反光及弱紋理表面等區(qū)域展現(xiàn)出強魯棒性。

圖 7：定性重建結果

視頻鏈接：https://mp.weixin.qq.com/s/jiqj2afGW40LWolVmO9-TA?click_id=36

3. 消融研究

深入的消融實驗驗證了 AmbiSuR 核心設計的必要性：基元截斷：實驗顯示，單純引入基元截斷策略，即使不進行重新訓練，也能顯著提升表面的幾何清晰度。它有效解決了基元邊緣過度膨脹導致的幾何污染。光線 - 顏色一致性：該模塊有效抑制了基元在混合時的屬性發(fā)散。在透明和強反射表面的測試中，成功防止了模型通過產(chǎn)生過度重建表面來欺騙光度損失，從而恢復出正確的實體幾何。球諧函數(shù)指示器：對比全局施加先驗的平庸方案，基于 SH 指標的局部正則化方案在提升精度的同時，避免了對已重建良好區(qū)域的負面干擾。

圖 8：消融實驗定量結果

總結

AmbiSuR 在當前 3D 表面重建研究普遍著重于提升底層 Gaussian Splatting 及表面表征方式的背景下，重新向社區(qū)點明了探討 “光度多義性 “這一根本性瓶頸的重要價值。作為解決方案，該工作選擇向內挖掘 3DGS 自身表征的物理與統(tǒng)計學潛能。通過將球諧函數(shù)從單一的顏色擬合器拓展為 “多義性自指示器”，并輔以極簡的基元截斷與光線一致性約束，AmbiSuR 從根本上提出了一種自洽的內生消歧框架，無需復雜堆疊、高度兼容現(xiàn)有架構，不僅在各項標準基準上全面刷新了重建精度，也為未來提升神經(jīng)渲染的幾何穩(wěn)健性與可解釋性，提供了一條啟發(fā)性的新路徑。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.