Don’t Get Your Kroneckers in a Twist: Gaussian Processes on High-Dimensional Incomplete Grids
高維缺失網格上的高斯過程
https://arxiv.org/pdf/2605.08036
本文針對高斯過程(GP)在高維網格數據上計算成本高且嚴重依賴“完整網格”假設的瓶頸,提出一種適用于高維不完整網格的高效GP推理框架。
核心問題:傳統基于Kronecker乘積的網格GP雖能大幅加速,但現實數據常存在缺失或不規則采樣,直接破壞Kronecker結構,導致推斷不可擴展或需昂貴補全。
創新方法:在保留Kronecker分解計算優勢的前提下,結合結構化線性代數與變分推斷,對缺失點進行高效邊際化處理,避免顯式構造完整協方差矩陣。
技術優勢:將時間與空間復雜度降至近線性規模;天然支持高維輸入;完整保留GP的不確定性量化能力;無需強假設或啟發式插值。
應用價值:在時空預測、物理場反演、傳感器網絡等高維缺失數據場景下顯著優于現有方法,為真實世界結構化數據的貝葉斯建模提供了可擴展、高保真的實用工具。
![]()
![]()
摘要
我們介紹了 CUTS-GPR,一種在高維設置下執行數值精確高斯過程回歸 (GPR) 的新方法。CUTS-GPR 的關鍵組件是一個極快的核矩陣-向量乘積,它隨著訓練數據量 N 表現出近線性甚至線性的擴展性,并且隨著維度 D 表現出低階多項式的擴展性。這是通過將加性核與不完整網格相結合,并利用所得核矩陣的結構來實現的。我們通過運行包含數十億個數據點和數千個維度的基準測試,展示了該矩陣-向量乘積的可擴展性。完整的 GPR 計算,包括超參數優化,對于 N = 447 , 265 和 D = 24 的情況,可以在數小時內完成。我們證明了我們的 CUTS-GPR 能夠實現高維勢能面的貝葉斯建模——這是計算化學中長期存在的一個挑戰。
1 引言
![]()
![]()
![]()
1.1 相關工作
![]()
2 背景
2.1 高斯過程回歸
![]()
![]()
![]()
2.2 完整網格
在整篇論文中,我們關注的是位于網格上的 D D 維輸入 x 。我們將首先定義一個完整網格(complete grid),它指的是像這樣的笛卡爾積網格
![]()
2.3 加性核
對于高維應用,一種更具吸引力的核格式是加性核 [13–15],它通常由最大交互階數 ω 來定義:
![]()
![]()
![]()
3 不完整網格
![]()
![]()
![]()
像示例 3.1 這樣的索引集在張量文獻中經常出現 [參見例如 16],也在振動結構理論中出現 [17]。在這兩個領域中,相關維度被稱為模式(modes),這是我們在下文中將使用的術語。給定一組一維網格,子網格由其模式組合(MC)唯一確定,它 simply 是非零索引模式的列表。反過來,不完整網格由其模式組合范圍(MCR)定義,它 simply 是 MCs 的列表。因此,示例 3.1 對應于 MCR
![]()
![]()
![]()
![]()
事實證明,具備 CUD 性質是實現快速 MVP(矩陣-向量乘積)的關鍵屬性。此外,與定義 3.3 [18] 相比,CUD 的概念可以進一步推廣(另見附錄 D),這為使用其他類型的不完整網格實現可擴展 GPR 開啟了可能性。
4 結合不完整網格與加性核
我們現在將加性核與第 3 節中的不完整網格相結合。為此,我們引入以下方便的記號:
![]()
![]()
![]()
![]()
5 低擴展性實現
5.1 快速矩陣-向量乘積
我們現在的任務是將 chopping 框架應用于公式 (14) 中的核矩陣。在繼續之前,我們要指出全 1 矩陣可以像這樣進行因式分解
![]()
![]()
5.2 二次項與總成本
![]()
6 數值結果
6.1 計算復雜度
![]()
![]()
6.2 在 PES 數據上的應用
6.2.1 計算設置
![]()
![]()
6.2.2 結果
首先,我們要研究 CUTS-GPR 中超參數優化的收斂性。圖 2c 展示了所有十種分子的學習曲線。范數在前 5–10 次迭代期間下降相當快,之后改進速度放緩。除硫代丙酮(thioacetone)外,所有分子都在大約 100 次迭代后收斂,硫代丙酮需要 176 步才能達到閾值。盡管用于優化的梯度是隨機估計值,但收斂是穩定且系統的。我們將此歸因于這樣一個事實:進入梯度的幾乎所有跡估計都確定得相當好,其均值標準誤(SEM)小于 1%(示例見表 M4),盡管探測向量的數量(35)和預條件子的秩(10)并不是很大。
![]()
圖 3 比較了 CUTS-GPR 和 SVGP 的最大絕對誤差(MAX)和均方根誤差(RMSE)(這兩種誤差度量均經過范圍歸一化并在十種分子上取平均)。數值可以在附錄 M.9 中找到,該附錄還考慮了平均絕對誤差(MAE)。我們發現 CUTS-GPR 在所有三種誤差度量(MAX、RMSE 和 MAE)上都優于 SVGP,這突顯了精確處理核函數的優勢。事實上,這對于每個單獨的測試案例都是成立的(見附錄 M.10)。CUTS-GPR 和 SVGP 之間的差異在最大誤差方面尤為巨大,這表明盡管目標函數相當平滑,SVGP 仍無法描述最困難的點。如圖 3 所示,隨著額外誘導點的增加,SVGP 的誤差表現出收益遞減。因此,進一步增加其數量既不切實際,也不太可能顯著提高精度。即使是對于 CUTS-GPR,最大誤差也顯著大于 MAE 和 RMSE。大誤差主要出現在目標函數非常陡峭的點(示例見圖 2d),考慮到訓練網格的相對粗糙度,這是意料之中的。
![]()
7 結論、局限性與擴展
我們介紹了 CUTS-GPR,一種在高維設置下利用大型數據集進行數值精確高斯過程回歸 (GPR) 的新方法。CUTS-GPR 基于兩個極具吸引力的組件的組合:(i) 加性核和 (ii) 結構化不完整網格。仔細的分析揭示了一個令人驚訝的事實,即這種組合意味著一個高度結構化的核,這反過來允許可擴展的核矩陣-向量乘積 (MVP)。該 MVP 提供了關于維度 D 的低階多項式擴展和關于數據量 N 的近線性甚至線性擴展,這一點我們在理論和實證上都進行了證明。在不近似核矩陣的情況下,CUTS-GPR 使得 GPR 能夠在以前無法觸及的設置中實現,潛在地包含數十億個數據點和數千個維度——這遠遠超出了當前方法可行的范圍。
![]()
盡管依賴于特定的數據結構可能被視為一種局限,但應該記住的是,通常情況下,用戶控制著數據的采樣,從而控制著數據結構。在諸如勢能面 (PES) 擬合等我們在本文中考慮的應用中,不完整網格結構是一個非常自然的選擇。
為非常大的測試集計算預測方差是我們當前實現中的一個瓶頸。在未來,我們要計劃將 CUTS-GPR 與 Lanczos 方差估計 (LOVE) [25] 相結合,以實現更快的方差計算。
![]()
原文鏈接:https://arxiv.org/pdf/2605.08036
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.