網易首頁 > 網易號 > 正文申請入駐

條件密度、貝葉斯法則與貝葉斯推斷爭議

2026-04-08 10:18:36　來源: CreateAMind

上海舉報

分享至

A note on conditional densities, Bayes’ rule, and recent criticisms of Bayesian inference

條件密度、貝葉斯法則與貝葉斯推斷爭議簡析

https://arxiv.org/pdf/2603.27038

摘要

在進行貝葉斯推斷時，我們經常需要處理條件概率密度。例如，后驗函數就是在給定數據下參數的條件密度。有些人可能會擔心條件密度定義不當，因為對于連續隨機變量 Y ，事件 { Y = y } 的概率為零，這意味著公式 P ( A ∣ B ) = P ( A ∩ B ) / P ( B ) 不適用。實際上，在處理條件密度時，我們從不直接以概率為零的事件 { Y = y } 為條件；相反，我們首先以隨機變量 Y 為條件，然后代入觀測值 y 。本文的第一個目的就是闡述條件密度的這一要點。雖然我們力求使這一解釋通俗易懂，但隨后我們也會給出使其嚴格的測度論路徑。近期的一篇預印本（Mosegaard 和 Curtis，2024）表達了這樣的擔憂：概率密度定義不當，因此貝葉斯定理無法使用，并且他們提供了據稱能證明貝葉斯框架存在不一致性的例子。本文的第二個目的就是考察他們的主張。我們認為，他們文中的例子并未證明任何不一致性；我們發現其中存在數學錯誤，并且這些例子嚴重偏離了貝葉斯框架。

1 引言

貝葉斯推斷是一種從數據中學習的統計方法，它從對系統的先驗信念出發，并利用觀測數據，依據貝葉斯法則以有原則的方式更新這些信念。這使得我們能夠將模型擬合到數據上，進而執行估計和預測等推斷任務，同時確保獲得不確定性量化。貝葉斯推斷被廣泛應用于科學和數據驅動的各個學科，包括解決物理科學中的反問題。

在近期的一篇預印本中，Mosegaard 和 Curtis (2024) 聲稱“證明了常用貝葉斯方法存在數學不一致性和邏輯上的非因果性”。初看之下，他們的工作（以下簡稱“MC”）似乎發現了貝葉斯范式中的根本性缺陷，盡管貝葉斯范式是一種成熟的統計推斷方法。本文考察了 MC 的主張，發現貝葉斯推斷并不存在 MC 似乎揭示的那種不一致性和所謂的“邏輯非因果性”。

MC 手稿的一個核心主張是：條件密度定義不當，并且貝葉斯定理在非離散空間中不起作用。1 這一主張是錯誤的。條件化的概念通過測度論得到了嚴格的定義。測度論發展于 20 世紀上半葉；它也形式化了概率和隨機變量的概念。為了支持他們的主張，MC 引用了博雷爾-柯爾莫戈羅夫悖論（也稱為博雷爾悖論；Borel, 1965; Kolmogorov, 1956）。一旦我們掌握了恰當的條件分布理論，博雷爾-柯爾莫戈羅夫悖論就基本不相關了。該悖論涉及以概率為零的事件為條件，而條件分布理論涉及的則是以隨機變量為條件。

在第 2 節中，我們將解釋貝葉斯定理在非離散空間中確實有效。我們將進行闡述，說明什么是條件密度、條件密度存在的條件（即聯合密度必須存在），以及它在多大程度上是唯一確定的。作為其中的一部分，我們將在第 2.4.1 節詳細闡述為什么博雷爾-柯爾莫戈羅夫悖論在此不構成問題。

我們相信第 2 節可能會引起更廣泛的讀者群體的興趣，因此我們力求這一節能夠獨立于本文其余部分而被理解。在實際進行貝葉斯推斷時，我們并不需要理解測度論才能使用條件密度，相應地，我們在第 2.6 節之前一直避免涉及測度論，在那里我們概述了相關測度論的路線圖并給出了教科書參考文獻，除非沿途需要做一些讀者可能希望忽略的技術性澄清。

除了對條件密度是否定義良好的理論關切之外，MC 還提供了許多例子，詳細列于其附錄中，每個例子似乎都展示了由貝葉斯推斷引起的不一致性。在第 3 節和第 4 節中，我們將討論這些例子。我們的發現是：其附錄 A 中的例子從根本上偏離了貝葉斯框架，使用了無效的啟發式論證來尋找條件分布；附錄 B–D 中的例子在試圖重新參數化數據空間時都犯了同樣的關鍵錯誤；附錄 F 中的例子沒有正確執行貝葉斯推斷；附錄 G 中的例子并未證明任何真正的不一致性。第 3 節有一個松散的統一主題，即選擇適當的模型是建模者的職責。第 4 節傳達的信息是，貝葉斯推斷對數據空間的重新參數化保持不變。

最后，在第 5 節中，我們將提及使用貝葉斯推斷的一些真正的優點和缺點。與第 2 節一樣，這一節也可以獨立于文章其余部分來閱讀。

2 條件密度與貝葉斯法則

2.1 什么是貝葉斯法則？

在貝葉斯框架中，參數 θ 和數據 Y 都被建模為隨機的。它們的聯合分布由兩部分指定：參數上的概率分布 π(θ)，稱為先驗分布；以及給定參數下數據的條件分布 f(y|θ)，稱為似然函數。然后，給定數據下參數的條件分布可以使用以下公式獲得：2

這被稱為后驗分布。

“貝葉斯法則”這一術語指代兩個概念：

一種方法論原則：根據新觀測值更新我們先驗信念的正確方法是基于觀測值進行條件化；
一個數學公式，例如 (1)，描述條件化如何運作。

我們將使用“貝葉斯定理”來指代后者，這也是我們討論的主題。在一些文獻中，單個字母 p p被用來表示所有概率分布，貝葉斯定理可能被寫作

個重要的要點是：方程 (1) 中涉及的每個函數既可以表示概率質量，也可以表示概率密度，具體取決于它們的（第一個）參數是離散的還是連續的。

本節中的闡述旨在為實踐中使用條件密度和貝葉斯定理的方式提供理論依據。我們希望這能向讀者保證，他們可以繼續使用貝葉斯定理，而無需擔心 MC 提出的問題。

2.2 以事件為條件

讓我們從以事件為條件的概念開始。只要事件的概率為正，以該事件為條件就是定義良好的。

設 B 為一個概率為正的事件，即 P ( B ) > 0 。如果 A A是另一個事件，那么給定 B B下 A A的條件概率就是兩個事件同時發生的概率除以 B B的概率：

2.3 離散隨機變量的條件化

如果 X X和 Y Y都是離散隨機變量，那么給定 Y Y下 X X的條件分布由下式給出：

2.4 連續隨機變量的條件化

2.4.1 為什么博雷爾-柯爾莫戈羅夫悖論在此不構成問題？

博雷爾-柯爾莫戈羅夫悖論只在人們試圖（在不參考隨機變量的情況下）以零概率事件為條件時才會出現。

以下兩點強調了以隨機變量為條件與以零概率事件為條件之間的區別。

條件密度的定義是有充分依據的。

值得注意的是，在連續情形下，我們可以通過要求以連續隨機變量為條件必須與以正概率事件為條件相一致，來為定義 (4) 提供動機：

2.4.2 條件密度是唯一確定的嗎？

當條件密度存在時，它在本質上是唯一確定的。

需要注意的是，不同的密度函數 f ( z ) 可以定義 Z Z上的同一個分布。例如，標準正態分布的密度函數為：

總之，我們可以在廣泛的情況下安全地使用條件密度和貝葉斯定理。通過對所涉及符號進行適當的解釋，貝葉斯定理保持相同的公式 (5, 6)。

如果聯合密度不存在呢？當聯合密度不存在時，條件密度也可能不存在。沒有條件密度，我們的貝葉斯定理版本就無法作為幫助我們數值計算后驗的工具。盡管如此，條件概率仍然存在，這引出了條件分布的定義。關鍵在于，即使聯合密度不存在（例如，當涉及非參數過程時），后驗分布這樣的對象仍然存在。

2.6 測度論

到目前為止，我們的論述必然是非正式的。為了彌補這一點，我們現在將勾勒相關理論的路線圖，但讀者可以跳過本節直接閱讀后面的任何部分。我們將主要思想放在一系列方框中，并在這些方框外提供一些指引。該理論發展于 20 世紀上半葉，它駁斥了 MC 關于“條件密度的概念是不可接受的”這一主張。

遵循 Kallenberg (2010, 第 6 章)，我們將從條件期望和條件概率開始，定義以 σ -代數為條件意味著什么，然后定義以隨機元素為條件意味著什么。接著，我們將定義條件分布。最后，我們將把條件密度視為表示條件分布的一種方式，并證明這種表示與熟悉的公式 (4) 是一致的。

為了建立一般的條件化理論，第一步是定義以 σ -代數為條件意味著什么。下面的方框定義了給定 σ -代數下的條件期望。給定 G 下 X 的條件期望可以有多個版本，但這些版本只能以微不足道的方式不同，這一點由命題 1 精確闡述。

我們現在已經闡述了條件概率理論中的核心對象。進一步的理論證明，這些對象的行為符合我們的預期，我們可以執行迭代條件化（參見 Kallenberg, 2010, 第 6 章），并且我們還可以考慮 σ-有限測度而不僅僅是概率測度（參見 Kallenberg, 2021, 第 3 章）。最后這一點與貝葉斯推斷相關，因為有時我們會使用非正常先驗（Chang 和 Pollard, 1997）。

現在（偏離 Kallenberg 2010 的敘述順序），我們轉向分布具有密度的特殊情形。一般而言，概率密度是概率分布關于某個控制測度（可稱為基測度或參考測度）的拉東-尼科迪姆導數。通常參考測度隱式地是勒貝格測度，但一般情況下不一定是。知道了概率密度（連同參考測度）就完全確定了概率分布。拉東-尼科迪姆定理確保了概率密度是定義良好的：

2.6.1 文獻注記

關于條件密度，相關文獻包括 Kingman 和 Taylor (1966, 第 14 章)、Hoel 等人 (1971, 第 6 章)、Ash (1972, 第 6 章)。這些文獻都討論了關于另一個連續隨機變量的一個連續隨機變量的條件密度。前兩個文獻還提到了關于條件密度的貝葉斯定理版本，而后兩個文獻指出條件密度可以擴展到連續隨機向量。然而，我們要沒有找到一本教材明確指出條件密度可以擴展到生活在更一般空間中的隨機元素。既然在實踐中我們可能需要在這種情況下使用貝葉斯定理，我們選擇展示帶有隨機元素的更一般情況。

在概率論教材中，博雷爾悖論（Borel paradox）通常被作為一個警告提出，即我們不應嘗試以零概率事件為條件。相關的討論見 Pollard (2001, 第 5 章)、Chang 和 Pollard (1997)，以及 Bungert 和 Wacker (2022)。這些文獻進一步解釋了為什么 MC 所表達的擔憂是站不住腳的。MC 聲稱通過 Mosegaard 和 Tarantola (2002) 中描述的結構可以避免 Borel–Kolmogorov 悖論；然而，他們描述的只是一個非正式的想法，從未被嚴謹化，且該想法是幾何性質的而非概率性質的。Bungert 和 Wacker (2022) 也通過幾何視角探討 Borel–Kolmogorov 悖論；他們的文本基于 Hausdorff 測度的嚴謹理論 (Billingsley, 1986, 第 19 章)。然而，這些幾何思想并不適用于統計推斷；在概率論中，事件應當具有其獨立的意義，而不需要將其定位在歐幾里得空間內部。

轉向測度論基礎，我們主要遵循 Kallenberg (2010, 第 6 章)。雖然這本書更為簡練，但 Billingsley (1986, 第 33–34 章) 更易讀。雖然關于條件概率、條件期望和條件分布的現有理論早已確立，但呈現該主題仍有不同的方式：

3 建模者需要指定適當的模型

在本節中，我們將討論 MC 在其附錄 A、F 和 G 中提供的例子。本節松散的統一主題是：MC 報告的問題可以通過建立適當的模型來解決。在接下來的小節中，我們將討論這些例子，解釋它們未能證明貝葉斯推斷中存在真正的不一致性，并描述 MC 本可以采用的以適當方式進行貝葉斯推斷的建模方法。

3.1 MC 的附錄 G 表明不同模型可以產生不同結果

顯然，如果不同的模型不等價，它們可以產生不同的結果。

在其附錄 G 中，MC 證明了不同的模型（通過固定不同的 σ 值）可以產生不同的結果。雖然這是事實，但我們認為這不應令人驚訝，也不應被視為一種不一致性。在這種情況下，如果建模者不知道其模型中 σ 的適當值是多少，他們可以將 σ 視為一個參數，并為其分配一個反映合理取值范圍的先驗分布。

3.2 MC 的“簡單斷層掃描示例”（其附錄 A）是無效的：不允許以零概率事件為條件

在實踐中，可能我們觀測到的數據提供了關于兩個速度是否相似的證據；那么我們可以遵循通常的貝葉斯框架，對數據進行概率建模。正如第 2 節所討論的，當數據被視為隨機時，我們被允許以數據為條件。

3.3 MC 關于非因果性的例子（其附錄 F）是無效的：他們的模型設置不正確

MC 在附錄 F 中給出的兩個用于展示“非因果性”的例子是無效的。

他們得出的結論是：“[兩個參數]的計算得到的先驗分布隨正演關系而變化”；但實際上，他們呈現的是（嘗試計算）后驗分布，而不是先驗分布。因此，他們的結論本應是：這些參數的計算得到的后驗分布隨正演關系而變化，而這自然是意料之中的。

我們有以下先驗分布：

4 貝葉斯推斷對數據空間的重新參數化保持不變

MC 的其余例子都基于數據空間中的變量變換。在每個例子中，他們使用數據空間的兩種不同參數化進行計算，并得到了不一致的結果。我們發現，這種矛盾源于他們對變量變換的錯誤處理。事實上，貝葉斯推斷并不依賴于數據空間的重新參數化。我們首先說明為什么如此；然后闡明他們的錯誤。

考慮到 X = ? ( Y ) ，這與我們在方程 (1) 中已知的結果完全一致。因此，對數據空間進行重新參數化不會導致后驗出現任何不一致性。

因此，當我們使用這個后驗進行 MAP 估計或貝葉斯因子時，也不會有任何不一致；同樣，在經驗貝葉斯中，當我們使用邊緣似然來獲得超參數的點估計時，也不會有任何不一致。

與 MC 的論點正交的是，對經驗貝葉斯存在一種真正的批評：它兩次使用了數據：一次用于估計超參數，另一次用于在固定超參數的模型下獲得后驗。這意味著超參數的不確定性被忽略了，并且我們正在對數據過度擬合。然而，如果擬合一個具有超參數不確定性的完整層次模型在計算上難以承受，經驗貝葉斯仍然可能有用。此外，當數據充足時，超參數通常也幾乎沒有不確定性。

4.1 MC 涉及 MAP 估計、經驗貝葉斯和貝葉斯因子的例子（其附錄 B–D）是無效的：重新參數化執行錯誤

我們所說的與 MC 在其涉及 MAP 估計、經驗貝葉斯和貝葉斯因子的例子（分別詳述于其附錄 B、C 和 D）中所聲稱的不一致性是不相容的。那么，他們錯在哪里呢？

5 使用貝葉斯推斷的一些真正優點和缺點是什么？

采用貝葉斯方法的一個障礙是它需要一定水平的統計學素養。我們指出，有許多非常易于理解的貝葉斯推斷教科書可能有助于克服這一障礙，包括 Gelman 等 (2013)、Lambert (2018) 和 McElreath (2020)。

除此之外，在決定是否在統計問題中使用貝葉斯推斷時，有許多因素需要考慮。在這個獨立的章節中，我們希望將注意力引向一些合理的問題。

哲學解釋。作為個體，我們每個人對周圍世界都存在著不確定性。這些不確定性很重要，因為它們影響著我們如何做決策。當我們在世界中觀察和學習信息時，我們會更新自己的信念。貝葉斯框架形式化了這種直覺。這是選擇貝葉斯方法的一個令人信服的哲學理由。另一方面，支持頻率論統計的人可能會爭辯說，參數應被視為世界中固定但未知的特征，而不是將參數視為隨機實體。此外，人們可能會反對貝葉斯推斷的主觀性，因為結果依賴于對先驗的主觀選擇。

不確定性量化。 貝葉斯范式的一個關鍵優勢在于它如何提供不確定性量化。貝葉斯推斷能夠回答諸如“根據這些數據，我們在多大程度上相信假設 A 成立？”這樣的問題，并能做出諸如“在我們的模型下，真實參數落在區域 R 內的概率為 95%”這樣的陳述。與頻率論的對應表述（“如果假設 A 為真，觀察到比這更極端的數據的概率是多少？”以及“用于構建區域 R 的程序具有 95% 的覆蓋概率”）相比，這些可以說更自然、更易于解釋。貝葉斯框架還使得納入未觀測的潛變量、缺失數據和可學習的超參數變得簡單直接；這些都可以通過額外的參數進行建模，并且這些參數的不確定性會自然地通過模型傳播。此外，即使在數據非常稀少并因此導致極高不確定性的情況下，貝葉斯推斷也能提供有原則的不確定性量化。盡管如此，我們應當牢記，如果一開始模型就被錯誤指定，貝葉斯推斷無法找到真實參數；得到的后驗分布可能會自信地指向錯誤的參數值。結果可能仍然有用，因為后驗質量會集中到那些能給出最佳數據擬合的參數上。（這就是為什么我們在第 3 節中強調建模者應該注意選擇適當的模型。當然，這個問題并非貝葉斯推斷所獨有。）

先驗指定。在某些情況下，指定先驗的能力可能很有吸引力，因為它允許我們對來自領域知識或先前實驗的先驗信息進行編碼。信息性先驗還可以提供自然的正則化來源，有利于模型的簡潔性，并防止更復雜模型中的過擬合。然而，在實踐中，指定一個合適的先驗可能非常具有挑戰性，特別是在先驗信息很少的情況下，這時優勢變成了劣勢。通過貝葉斯法則，不同的先驗選擇會導致不同的后驗；這個問題被稱為先驗敏感性。在使用貝葉斯因子進行模型比較時，先驗敏感性可能特別嚴重，而基于后驗預測分布（包括用于模型比較的 PSIS-LOO）的預測方法往往更穩健。有趣的是，對于一大類參數模型，隨著數據量趨近無窮大，貝葉斯方法與頻率論方法趨于一致，先驗的影響會逐漸消失。

計算困難。到目前為止，我們還沒有討論計算方面的考慮。對于像指數等待時間例子那樣的簡單模型，后驗分布可以解析地推導出來。然而，對于更復雜的模型，解析解通常是不可得的。在這種情況下，直接計算后驗密度需要計算貝葉斯定理中的歸一化常數。這個歸一化常數就是邊緣似然 p Y ( y ) = ∫ π ( θ ) f ( y ∣ θ ) d θ ，它涉及對可能高維的參數空間進行積分；這通常在計算上是棘手的。一個解決方案是使用馬爾可夫鏈蒙特卡羅（MCMC）算法從后驗分布中抽取參數樣本。在過去的幾十年里，MCMC 和軟件實現的發展使得可行的貝葉斯推斷成為可能。即便如此，MCMC 方法仍然可能是計算密集型的。替代方法可以減輕計算負擔，但代價是只能逼近后驗分布。如果后驗函數的形狀存在病態結構，MCMC 也可能難以有效地探索參數空間。

6 結論

我們在此陳述本文的幾個關鍵結論。

讀者應放心，Mosegaard 和 Curtis (2024) 的主張是無效的。貝葉斯推斷對于一系列物理反問題仍然是一種有效且原則性強的分析方法。
MC 論證中的一個重要缺陷是試圖以零概率事件為條件。我們強調，這是不可行的，可行的做法是以隨機變量為條件。
概率密度不僅可以為連續隨機變量定義，也可以為更一般的隨機元素定義。在實踐中，我們確實使用這些更一般的密度：我們的先驗函數、后驗函數和似然函數都是在適當空間上的概率密度。
當聯合密度存在時，條件密度也存在。條件密度的概念有堅實的理論支持。
雖然貝葉斯推斷是一種靈活且提供原則性不確定性量化的方法，但它確實也面臨挑戰，包括先驗敏感性和計算困難。

原文鏈接：https://arxiv.org/pdf/2603.27038

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.