網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

預(yù)期自由能作為個體選擇的結(jié)構(gòu)性架構(gòu)（Part A）

2026-04-06 14:38:23　來源: CreateAMind

上海舉報

分享至

預(yù)期自由能作為個體選擇的結(jié)構(gòu)性架構(gòu)

Part A Expected Free Energy as a Structural Architecture of Individual Choice

https://zenodo.org/records/18009668?utm_source=chatgpt.com

摘要

本文構(gòu)建了一種基于預(yù)期自由能（EFE）最小化的變分決策架構(gòu)。行為被建模為在單一貝葉斯生成架構(gòu)中，選擇那些能保持預(yù)期結(jié)果、偏好先驗、認(rèn)識價值、時間范圍和身份穩(wěn)定性之間一致性的策略。因此，理性被重構(gòu)為變分相干性（預(yù)測與偏好的內(nèi)部一致性），而非期望效用最大化。

在此框架內(nèi)，經(jīng)典期望效用理論作為數(shù)學(xué)上精確的極限機制出現(xiàn)，其前提是明確陳述的嵌入條件（包括相關(guān)比較集上的熵中性、零認(rèn)識權(quán)重和零復(fù)雜度成本）；而熵異質(zhì)性、認(rèn)識估值、時間精度和復(fù)雜度剛性則產(chǎn)生了系統(tǒng)性的決策結(jié)構(gòu)，這種結(jié)構(gòu)通常無法由標(biāo)量期望效用泛函來表示。

在本文中，我們形式化地： (A) 推導(dǎo)了預(yù)期自由能坍縮為期望效用的條件； (B) 展示了類前景理論的不對稱性、理性疏忽類型的信息正則化以及身份保持的剛性是作為單一目標(biāo)的內(nèi)部機制而產(chǎn)生的，而非行為的附加項；以及 (C) 證明了決策機制對應(yīng)于預(yù)期自由能景觀中的吸引子，其幾何結(jié)構(gòu)支持穩(wěn)定性、滯后和分岔。

數(shù)值分析（在明確定義的任務(wù)環(huán)境中進行的說明性模擬）表明，持續(xù)性、突變的機制轉(zhuǎn)換和路徑依賴是從參數(shù)化精度結(jié)構(gòu)中合乎規(guī)律地產(chǎn)生的，無需事后行為假設(shè)。

最后，我們提供了對實證規(guī)范的實現(xiàn)層面審計。該框架的超參數(shù)具有獨特的行為特征，并且在原則上，在預(yù)先指定的可分離條件下是局部結(jié)構(gòu)可識別的；交叉擬合診斷表明，在具有留出評估的受控數(shù)據(jù)生成過程中，當(dāng)缺乏額外結(jié)構(gòu)時，完整的 EFE 架構(gòu)在樣本外是可被拒絕的，同時仍能區(qū)別于嵌套限制和匹配的理性疏忽替代方案。

其結(jié)果是一個緊湊、數(shù)學(xué)顯式且實證可檢驗的決策架構(gòu)，在此架構(gòu)中，預(yù)期自由能并非取代經(jīng)典理論，而是對它們進行定位。它指明了這些理論在何處有效、在何處失效以及原因何在。通過這樣做，預(yù)期自由能為關(guān)于選擇的累積性工作提供了一個結(jié)構(gòu)性的、可證偽的基礎(chǔ)。

第一部分：引言

決策科學(xué)的一個核心目標(biāo)是理解人類為何做出他們所做出的選擇。在經(jīng)濟學(xué)及大部分行為決策研究中，經(jīng)典決策理論以期望效用理論為基礎(chǔ)，將理性選擇定義為在主觀信念分布下最大化期望值（Savage, 1972）。盡管該理論具有奠基性地位，但數(shù)十年的實證研究表明，它既不能預(yù)測，也無法簡潔地解釋現(xiàn)實決策中的許多規(guī)律性現(xiàn)象：損失厭惡與參照點依賴（Kahneman 和 Tversky, 1979）；主觀概率的系統(tǒng)性扭曲（Tversky 和 Kahneman, 1992）；信息回避（Golman, Hagmann 和 Loewenstein, 2017）；沖突情境下的決策延遲（Tversky 和 Shafir, 1992）；現(xiàn)狀維持偏差（Samuelson 和 Zeckhauser, 1988）；習(xí)慣與成癮動態(tài)（Bernheim 和 Rangel, 2004）；跨時間與情境的偏好不穩(wěn)定性（Lichtenstein 和 Slovic, 2006）；以及在社交情境中，社會偏好與公平動機（Fehr 和 Schmidt, 1999）。對此，該領(lǐng)域已分裂為多個專門化的解釋框架，正如 Dhami (2016) 等人所指出。例如：前景理論（Kahneman 和 Tversky, 1979）、身份經(jīng)濟學(xué)（Akerlof 和 Kranton, 2000）、理性疏忽（Sims, 2003）、信息論控制（Tishby 和 Polani, 2011），以及更近期出現(xiàn)的主動推理和計算神經(jīng)科學(xué)中的變分方法（Friston, 2010; Parr, Pezzulo 和 Friston, 2022）。盡管每個框架都捕捉到了行為中的重要結(jié)構(gòu)，但據(jù)我們所知，目前尚不存在一個共同的決策函數(shù)，能夠?qū)⑦@些結(jié)構(gòu)作為在明確限制條件下的極限情況包含其中。

這種碎片化帶來了兩個主要后果。首先，經(jīng)驗科學(xué)積累了一個越來越龐大的“行為異常”目錄，這些異常現(xiàn)象似乎需要各自獨立的心理學(xué)解釋，而不是作為一個共同決策原則的極限情況出現(xiàn)（例如，參見 Glimcher, 2011 的批評）。其次，大多數(shù)模型將偏好、信念、推理成本和身份約束視為各自獨立的原始概念（Fudenberg, 2006），需要針對每一個新發(fā)現(xiàn)的異常現(xiàn)象給出具體的心理學(xué)解釋。雖然這種靈活性擴大了解釋范圍，但也產(chǎn)生了難以解釋、跨模型關(guān)聯(lián)（Pitt 和 Myung, 2002）或進行經(jīng)驗識別的參數(shù)集。目前所缺乏的，是一個原則性的解釋框架，能夠說明決策模式為何不同，它們的質(zhì)性屬性如何產(chǎn)生，以及在何種條件下一種模式會轉(zhuǎn)變?yōu)榱硪环N模式，而無需為每種現(xiàn)象引入特定于模型的行為原始概念。

主動推理和期望自由能最小化提供了一個強有力的替代視角（Friston 等人，2013）。它們將個體描述為在關(guān)于自身及其環(huán)境的生成模型下，最小化期望驚訝（Friston 等人，2015）。形式上，這將對策略的選擇重新定義為在生成模型下的推理，該生成模型以共同的概率度量編碼了偏好、信念以及預(yù)期的信息后果（Sajid 等人）。然而，主動推理文獻的大部分內(nèi)容主要集中在知覺、神經(jīng)實現(xiàn)或說明性模擬上（例如，F(xiàn)riston, Parr 和 de Vries, 2017）。因此，選擇中偏好表達的經(jīng)濟學(xué)與行為結(jié)構(gòu)、信念修正與工具性收益之間的權(quán)衡，以及決策模式隨精度變化而發(fā)生轉(zhuǎn)變的方式，在以神經(jīng)科學(xué)為中心的論述中通常仍是隱性的（但可參見 Sajid 等人，2021）。因此，文獻中尚未標(biāo)準(zhǔn)化一個明確的、以生成模型編碼偏好的決策理論結(jié)構(gòu)：一個在數(shù)學(xué)上嚴(yán)謹(jǐn)、行為上可解釋、并在信息獲取和可觀察選擇層面上可經(jīng)驗檢驗的結(jié)構(gòu)。

本文的核心貢獻在于表明，期望自由能提供了一種變分決策架構(gòu)，在該架構(gòu)下，期望效用、理性疏忽式的信息正則化、基于身份的剛性，以及類前景理論的局部不對稱性，都表現(xiàn)為同一決策架構(gòu)內(nèi)數(shù)學(xué)上定義明確的極限情況。本文進一步展示了不同的行為“表型”如何對應(yīng)于期望自由能圖景中定義明確的區(qū)域，從而能夠以精確的數(shù)學(xué)術(shù)語表述決策模式以及策略選擇中的質(zhì)性轉(zhuǎn)變。隨后，本文提供了數(shù)值示例，顯示系統(tǒng)性地變化 Ω 如何引發(fā)策略選擇和持續(xù)性現(xiàn)象（包括鎖定和類似恢復(fù)的動態(tài)）中的質(zhì)性轉(zhuǎn)變。最后，本文給出了明確的識別結(jié)果，并提出了可經(jīng)驗實施的實驗設(shè)計，這些設(shè)計能夠估計 Ω ，并基于跨情境約束和動態(tài)預(yù)測，將該框架與前景理論及其他主流決策模型區(qū)分開來。

通過將決策模式置于一個共同的變分原則之下，本文重新將理性選擇定義為與關(guān)于自我及環(huán)境的生成模型的一致性。這種重新定義并未取消效用或偏好，而是將其嵌入一個概率架構(gòu)中，該架構(gòu)將工具價值、信息價值和信念穩(wěn)定性置于一個共同的度量標(biāo)準(zhǔn)上。通過這樣做，本文提供了一個連貫的形式化橋梁，連接了經(jīng)濟學(xué)、認(rèn)知科學(xué)和計算神經(jīng)科學(xué)，同時在附錄C所述的分離性和可識別性條件下，產(chǎn)生了具體、可檢驗的預(yù)測。由此，它為一個統(tǒng)一的形式化結(jié)構(gòu)提供了整合基礎(chǔ)，用于推導(dǎo)、比較和實證區(qū)分主要的決策理論。

重要的是，本文并未否定期望效用，而是將其識別為一個更廣泛變分結(jié)構(gòu)中數(shù)學(xué)上定義明確的極限情況。正如我們將要證明的，在假設(shè)集 3.2 的結(jié)構(gòu)條件下，當(dāng)認(rèn)知激勵、信息結(jié)構(gòu)或身份剛性被抑制時，期望自由能會退化為期望效用。然而，當(dāng)這些要素成為環(huán)境的結(jié)構(gòu)性特征時，期望效用表示作為一種在維持的信息結(jié)構(gòu)下的策略排序表示，在形式上是不完整的，而不僅僅是描述上的不準(zhǔn)確。因此，本文的一個貢獻在于，明確了效用最大化在表示上具有充分性的結(jié)構(gòu)條件，以及其不具有充分性的條件。在這個意義上，本文的目標(biāo)并非取代經(jīng)典理論，而是將其定位，精確地指明它在哪些情況下是正確的，在哪些情況下是沉默的，以及為何如此。

第2部分:變化的決策架構(gòu)

本節(jié)介紹支撐本文其余部分的形式化決策架構(gòu)。其目標(biāo)是形成一個原則性、緊湊且可解釋的表述，該表述同時能夠：(i) 推廣經(jīng)典的期望效用理論，(ii) 包含認(rèn)知或信息尋求動機，(iii) 考慮信念修正所帶來的認(rèn)知或身份成本，以及 (iv) 具有明確定義的時間結(jié)構(gòu)。其目的并非用新的原始概念取代這些要素，而是將它們嵌入一個源自變分原則的概率決策函數(shù)中。該框架是主動推理和貝葉斯大腦理論中已知變分原則的決策理論實例化，旨在解決行為經(jīng)濟學(xué)和決策科學(xué)中的核心問題。

2.1 生成模型

因此，偏好通過關(guān)于理想觀測的先驗信念進入模型（Friston et al., 2012; Pezzulo, Rigoli 和 Friston, 2015）。形式上，這等價于用概率術(shù)語對效用進行重新參數(shù)化，而不是實質(zhì)性地消除偏好原始概念。因此，偏好狀態(tài)或結(jié)果就是那些如果被體驗到就不會令人驚訝的狀態(tài)或結(jié)果（Friston et al., 2013）。因此，決策被框定為選擇那些最大化達到目標(biāo)狀態(tài)概率的策略，同時在探索和對行動序列的先驗偏倚之間進行權(quán)衡（Attias, 2003），而不是選擇最大收益（Tishby 和 Polani, 2011; Friston et al., 2013）。

2.2 期望自由能作為決策準(zhǔn)則

策略 π ∈ Π 使用期望自由能原則進行評估。直觀上，期望自由能聚合了三種不同的驅(qū)動力：(i) 獲得與偏好一致的結(jié)果，(ii) 通過信息增益減少不確定性（Friston et al., 2015），以及 (iii) 避免對根深蒂固的信念或與身份相關(guān)的先驗進行代價高昂的修正（Parr, Pezzulo 和 Friston, 2022）。

關(guān)鍵在于，這些組成部分是在同時編碼偏好、信念和不確定性的生成模型下，作為變分分解中的標(biāo)準(zhǔn)項出現(xiàn)的。因此，為了最小化未來的驚訝，智能體同時進行以下權(quán)衡：使結(jié)果與偏好對齊、解決關(guān)于隱藏原因的不確定性，以及避免與其現(xiàn)有生成模型產(chǎn)生過大偏離。這里的必要性是形式化的：它源于變分界的數(shù)學(xué)結(jié)構(gòu)（MacKay, 2003），而非關(guān)于動機的經(jīng)驗假設(shè)。具體而言，上述各項源自變分分解，因此將它們的權(quán)重設(shè)為零對應(yīng)于將決策架構(gòu)限制在一個子區(qū)間內(nèi)，而非推導(dǎo)出一個替代性的決策原則（Friston et al., 2015）。因此，它們在行為上的相對影響并非先驗固定的，而是系統(tǒng)地依賴于超參數(shù) Ω Ω以及決策環(huán)境的結(jié)構(gòu)。這一依賴關(guān)系將在第 3 節(jié)中形式化地展開。在全文范圍內(nèi)， Ω Ω被視為在一個決策問題內(nèi)部是固定的（即，對于固定的生成模型規(guī)范及可接受的策略集合 Π Π）。在不引起混淆的情況下，我們將策略目標(biāo) G ( π ) 寫作 G ( π ; Ω ) 的簡寫。

第一項隨后量化了預(yù)測結(jié)果與偏好結(jié)果之間的期望散度。如果一個策略預(yù)計會產(chǎn)生與智能體偏好不一致的觀測值，它將受到懲罰。第二項是關(guān)于潛狀態(tài)的期望信息增益（Lindley，1956）（Cover 和 Thomas，2006；Friston 等人，2015）。由于它以負(fù)號進入，最小化 G ( π ) 有利于具有更高期望信息增益的策略。前兩項共同對應(yīng)于預(yù)期自由能的標(biāo)準(zhǔn)語用和認(rèn)識成分（Friston 等人，2015）。

該框架的一個關(guān)鍵特征是，這些行為力由一個緊湊、可解釋的超參數(shù)向量（Friston 等人，2023）系統(tǒng)地調(diào)節(jié)，下文記為 Ω 。這些參數(shù)并不向泛函中添加新項，而是按構(gòu)造縮放已存在的分量。

隨后通過最小化預(yù)期自由能來選擇策略（Friston 等人，2016）。這使得理性選擇被重構(gòu)為變分一致性：一個策略在最小化預(yù)測結(jié)果與偏好結(jié)果之間的期望散度，同時在不確定性降低的價值與信念修正的內(nèi)部成本之間進行平衡的范圍內(nèi)是理性的（參見 Friston 等人，2016）。

建模文獻中的經(jīng)驗基礎(chǔ)：盡管該架構(gòu)是從第一原理推導(dǎo)出來的，而非通過因子提取得到，但其認(rèn)知成分和工具性成分尤其在受控行為環(huán)境中已獲得具體的經(jīng)驗支持（Gottlieb 等人，2013；Gershman，2019a）。認(rèn)知項通常是在復(fù)現(xiàn)人類探索性行為和主動信息尋求的模型中所必需的（Wilson 等人，2014）。在需要定向探索的任務(wù)中（Kaplan 和 Friston，2018），理論上預(yù)測，忽略認(rèn)知價值的模型將無法捕捉到這種行為（Schwartenbeck 等人，2013）。復(fù)雜度項與通常在工作記憶限制（Parr 和 Friston，2017）和習(xí)慣形成（Parr，Pezzulo 和 Friston，2022）背景下討論的持久性和慣性現(xiàn)象相一致，并且可以將其形式化。它捕捉了根深蒂固的行為模式的持續(xù)性，在此被解釋為身份保護性認(rèn)知以及更新深層先驗時的慣性。最后，工具性項涵蓋了整個經(jīng)典效用理論和強化學(xué)習(xí)（Sutton 和 Barto，2018），作為衡量認(rèn)知偏差和復(fù)雜度偏差的基礎(chǔ)性基線。這些發(fā)現(xiàn)支持將這些組成部分視為行為上可區(qū)分的維度，而非可任意互換的調(diào)參參數(shù)（Friston 等人，2015；Parr 和 Friston，2019）。

遵循主動推理文獻中的經(jīng)典分解（例如，F(xiàn)riston 等人，2015；Parr，Pezzulo 和 Friston，2022），為了分析清晰起見，這些驅(qū)動力可以規(guī)范地分解為四個數(shù)學(xué)上不同的項。對于任何可接受的策略 π ：

上述分解提供了一個結(jié)構(gòu)性的視角，該視角將在第 3 節(jié)中反復(fù)出現(xiàn)：經(jīng)典理論對應(yīng)于這樣一個參數(shù)區(qū)間，即上述一個或多個組成部分變得中性、退化或消失。

2.3 超參數(shù)空間 Ω

如前所述，該框架的一個關(guān)鍵特征是，上述行為驅(qū)動力由一個緊湊、可解釋的超參數(shù)向量 Ω 進行系統(tǒng)性調(diào)節(jié)，Ω 定義為：

λ捕捉了深層信念、模型或構(gòu)成身份的先前所固有的剛性。它調(diào)節(jié)了深層先驗在多大程度上抑制對新出現(xiàn)的、矛盾的證據(jù)的吸收。較高的 λ 會對信念修正施加懲罰，使得智能體更傾向于那些能維持根深蒂固的表征承諾（深層先驗/指定的剛性參數(shù)）的策略，即使這些策略需要付出工具性成本。當(dāng) λ 較低時，智能體能夠靈活地根據(jù)新證據(jù)調(diào)整信念，相對輕松地重新配置身份和內(nèi)部模型。在神經(jīng)生物學(xué)上， λ 可以與精度控制（Feldman 和 Friston，2010）以及常在認(rèn)知控制框架下討論的自上而下的約束機制（Miller 和 Cohen，2001）聯(lián)系起來。在行為層面， λ 支撐了諸如身份保護性認(rèn)知（Akerlof 和 Kranton，2000）、信念持久性（Nickerson，1998）以及習(xí)慣性或病理性行為模式的持續(xù)性（Wood 和 Neal，2007）等現(xiàn)象。 λ λ是反映穩(wěn)定的特質(zhì)、緩慢適應(yīng)的狀態(tài)，還是制度性約束，這一點在本節(jié)中不作明確界定，將在第 5 節(jié)中討論。

T 表示有效的時間跨度。短視的智能體會對近期結(jié)果賦予較大權(quán)重，而忽略長期偏離和認(rèn)知收益。具有長遠眼光的智能體會納入延伸的時間后果，因此長期期望驚訝會顯著影響當(dāng)前的選擇。該參數(shù)形式化了熟悉的時間效應(yīng)，例如沖動性、跨期不一致（Frederick, Loewenstein 和 O'Donoghue，2002），以及短期主義和對未來后果的差異性估值（Bellman，1957；Friston, Parr 和 de Vries，2017）。

這些參數(shù)共同將決策空間劃分為性質(zhì)不同的多個區(qū)域。傳統(tǒng)理論會為不同的行為分配獨立的心理機制，而本框架則將它們視為在 Ω 空間中的結(jié)構(gòu)性移動。

2.4 解釋：從函數(shù)形式到?jīng)Q策行為

所提出的架構(gòu)意味著對理性進行一種特定的重新定義。智能體在表現(xiàn)出損失厭惡、信息忽視、身份保護性穩(wěn)定或成癮般的持續(xù)性時，并非先驗地變得非理性。這些模式是處于 Ω 不同區(qū)域的結(jié)果。因此，傳統(tǒng)經(jīng)濟學(xué)中的“異常”成為參數(shù)區(qū)間的特征，而非對理性原則的違反。

因此，該表述仍然是完全貝葉斯式的（Parr 和 Friston，2019；Parr 和 Pezzulo，2021）。偏好是先驗，行為是推斷，行動選擇是選擇那些預(yù)期能使未來體驗與智能體關(guān)于自身及其環(huán)境的生成模型保持一致的策略的問題（Friston 等人，2013）。這是一個“as-if”的計算性論斷，它抽象掉了關(guān)于審慎意識或規(guī)范性辯護的陳述。偏好、不確定性、身份和時間結(jié)構(gòu)被整合為一個共同變分決策架構(gòu)的組成部分。

這帶來了兩個好處。在理論層面，它提供了一種共同的形式化語言，經(jīng)典理論在其中表現(xiàn)為極限情況。在經(jīng)驗層面，它允許精確的識別，因為觀察到的行為在不同任務(wù)中的變化揭示了 Ω 的底層配置。

接下來的第 3 節(jié)將通過推導(dǎo)形式化的還原結(jié)果，并展示已有的決策理論如何作為該架構(gòu)內(nèi)的特例出現(xiàn)，從而使這些論斷精確化。

2.5 范圍與局限

第 2 節(jié)將變分決策架構(gòu)發(fā)展為一個關(guān)于個體選擇的緊湊、可解釋且完全貝葉斯的描述。在轉(zhuǎn)向第 3 節(jié)對其形式化屬性進行探討之前，有必要明確本文論斷所處的描述層級。這有助于澄清所斷言的內(nèi)容，并避免賦予該框架無意承載的雄心。

該框架為子節(jié) 3.9 中形式化的、一個廣泛且有明確邊界的一類正則化貝葉斯控制架構(gòu)，在單個決策者層面上提供了一個結(jié)構(gòu)完整性結(jié)果。它關(guān)注的是行為的計算結(jié)構(gòu)：偏好、認(rèn)知激勵、剛性以及時間精度如何被編碼在單個智能體的生成模型中，并整合為一個支配策略選擇的單一決策函數(shù)。

需要注意的是，本文中所有的還原與涵蓋論斷都是關(guān)于在附錄 A.0 中由可行性與存續(xù)性限制定義的可接受域上的表示的主張。它們并不聲稱在那些將終止或破產(chǎn)行動明確視為可接受且賦予正權(quán)重的策略空間上具有等價性。

因此，本文的貢獻在于一個結(jié)構(gòu)嵌入性結(jié)果，其意義在于將多種不同的決策規(guī)則定位于一個單一的、數(shù)學(xué)上連貫的目標(biāo)函數(shù)中。經(jīng)典理論在明確且具有限制性的結(jié)構(gòu)條件下得以恢復(fù)，這些條件對應(yīng)于參數(shù)空間 Ω Ω的低維子集。

因此，在本 A 部分中，變分架構(gòu)被解釋為一個計算層面的刻畫，而非關(guān)于有意識思考的主張。策略空間 Π 表示由智能體的生成模型所支持的行動軌跡庫，包括習(xí)慣性的、情感性的、啟發(fā)式的以及反射性的反應(yīng)。同樣，感知和信念被建模為概率性的且易錯的，允許非真實的表征、認(rèn)知上的不完整性，以及對可用選項的有限意識。因此，期望自由能是一個計算性的決策原則，旨在將反思性行為和直覺性行為都包含在同一個形式體系內(nèi)。

重要的是，該框架并不聲稱從第一原理推導(dǎo)出偏好、價值或身份。偏好作為關(guān)于結(jié)果的先驗信念進入生成模型，這在形式上等價于引入一個效用函數(shù)。因此，其進步在于將效用置于與認(rèn)知成本和復(fù)雜度成本相同的信息尺度上，從而允許在單個變分目標(biāo)中處理這些權(quán)衡。

此外，本文并非旨在解釋身份和敘事得以構(gòu)成的歷史或解釋性過程、特定先驗、價值或身份的規(guī)范性辯護，或是對體驗的現(xiàn)象學(xué)描述。它也不試圖建模那種連貫性徹底崩潰、無法在行為時間尺度上歸因于任何穩(wěn)定生成模型的情況。這些領(lǐng)域可以將本框架作為一個微觀層面的決策架構(gòu)、一個邊界條件，或一個解釋的對象。然而，它們需要額外的概念資源，這些資源嚴(yán)格超出了 A 部分的范圍。因此，本文的分析范圍僅限于個體層面。

接下來的結(jié)果刻畫了單個智能體的內(nèi)部決策架構(gòu)：其生成模型如何構(gòu)建行為，以及不同的決策模式如何由 Ω 的變化而產(chǎn)生。

盡管當(dāng)前分析限于個體決策問題，但環(huán)境并未被假定為非社會的。在多智能體情境中，其他智能體的行動和推斷出的狀態(tài)會進入該智能體的結(jié)果空間和潛在狀態(tài)空間，而無需采用本文所發(fā)展之外的任何額外決策原則。一旦多個這樣的架構(gòu)相互作用，集體動態(tài)問題便會作為既有框架的自然延伸而出現(xiàn)。因此，這些問題將在 B 部分中另行討論，分析共享或部分共享的生成環(huán)境下的群體內(nèi)部動態(tài)。C 部分將把考察擴展到跨群體的策略互動。D 部分則考慮先驗、價值和身份在歷史中形成并在規(guī)范上受到爭議的構(gòu)成性維度和解釋性維度。綜合起來，A 至 D 部分構(gòu)成一個閉環(huán)的架構(gòu)性框架。

因此，本 A 部分的當(dāng)前貢獻應(yīng)被理解為建立了一個微觀層面的決策基礎(chǔ)，而非一個完整的行為理論。其論斷刻意采用模塊化形式，說明給定一個生成模型后，從變分架構(gòu)中可以推導(dǎo)出什么，而非這些模型是如何在社會、發(fā)展或演化層面上產(chǎn)生的。

第 3 節(jié)現(xiàn)在將刻畫該架構(gòu)的數(shù)學(xué)連貫性、行為含義以及結(jié)構(gòu)普遍性。在明確了這一范圍之后，我們現(xiàn)在轉(zhuǎn)向第 2 節(jié)中引入的框架的形式化屬性。

第 3 節(jié)：形式性質(zhì)、表示結(jié)果與一般性

第 2 節(jié)介紹了變分決策架構(gòu)，其中偏好 ( γ p )、認(rèn)識激勵 ( γ o )、信念剛性 ( λ ) 和時間結(jié)構(gòu) (T) 可以在預(yù)期自由能中聯(lián)合表示（Friston 等人，2015；Parr 和 Friston，2019），并由超參數(shù)向量 Ω Ω 參數(shù)化。第 3 節(jié)現(xiàn)在發(fā)展該架構(gòu)的形式性質(zhì)，并闡明現(xiàn)有決策理論作為特例出現(xiàn)的精確數(shù)學(xué)意義。

我們首先證明，在維持的正則性假設(shè)下，預(yù)期自由能最小化定義了一個數(shù)學(xué)上適定的決策規(guī)則。然后我們證明，在可識別的結(jié)構(gòu)性限制下，經(jīng)典理論作為可容許域 Π ?上的精確特例出現(xiàn)，并且在同樣清晰的結(jié)構(gòu)性松弛下，這些等價性會破裂。與 (Amari, 2016) 一致，目標(biāo)是進行結(jié)構(gòu)性定位，以識別變分空間中經(jīng)典表示有效的精確區(qū)域。目的是將現(xiàn)有理論置于一個具有顯式邊界的共同信息結(jié)構(gòu)上 (Amari, 2016)，擴展主動推理文獻中已經(jīng)存在的解釋（另見 Parr 和 Friston，2019）。

我們通過逐步松弛經(jīng)典表示作為極限情況成立時的結(jié)構(gòu)性限制來構(gòu)建這一分析。我們從期望效用理論 (EUT) 的極限情況開始，其中智能體被高度理想化，且考慮成本被視為零 (Savage, 1972)。然后我們引入信息約束（理性疏忽）和結(jié)構(gòu)性先驗（身份經(jīng)濟學(xué)）來定義全局行為機制，建立由復(fù)雜度誘導(dǎo)的全局機制結(jié)構(gòu)。最后，我們考察這些機制的局部幾何，以恢復(fù)前景理論特征性的不對稱梯度。

每個主張都基于顯式的假設(shè)集和附錄 A.0 中陳述的現(xiàn)行正則性條件，并在附錄 A 中得到形式支持。本節(jié)中的所有等價性主張在顯式陳述的可容許策略子集上都是精確的，并且以相應(yīng)的假設(shè)集為條件。它們僅在這些陳述的結(jié)構(gòu)性假設(shè)下成立。圖 1-8 是在附錄 B 中發(fā)展的分析幾何的概念性示意可視化。它們說明了與形式結(jié)果一致的機制結(jié)構(gòu)和比較靜態(tài)幾何。然而，它們不是數(shù)值模擬或擬合模型。驗證這些結(jié)構(gòu)的數(shù)值說明在第 4 節(jié)中單獨提供。復(fù)制材料可在本文的在線補充材料中獲取（另見附錄 D）。

3.1 決策規(guī)則、適定性與正則分解

為了確保分析上的可處理性，我們施加了溫和且標(biāo)準(zhǔn)的結(jié)構(gòu)性假設(shè)，這些假設(shè)保證了數(shù)學(xué)連貫性，而不事先優(yōu)待任何特定的決策理論表示。

解讀： 在前述存在性和連續(xù)性條件下，該變分架構(gòu)在廣泛的一類環(huán)境中產(chǎn)生了確定且可解釋的選擇預(yù)測。2.2 小節(jié)引入的正則分解確保了后續(xù)結(jié)果能夠分離出選擇性地中和或激活特定結(jié)構(gòu)分量所產(chǎn)生的行為后果，而不是引入新的基本要素。誘導(dǎo)出的決策動力學(xué)表現(xiàn)出穩(wěn)定不動點和吸引子結(jié)構(gòu)的形式條件在附錄 B 中有詳細說明。3.2 小節(jié)現(xiàn)在直接建立在這一基礎(chǔ)之上，通過確立預(yù)期自由能何時坍縮為經(jīng)典期望效用理論，以及何時不發(fā)生這種情況。

3.2 還原為作為極限表示的期望效用理論

本小節(jié)的目的是明確標(biāo)量期望效用表示充分所需的確切結(jié)構(gòu)條件。這里的任務(wù)是使這種等價關(guān)系精確化，并確定其成立的結(jié)構(gòu)邊界。回顧策略選擇定義為

這些條件定義了沒有比較不確定性結(jié)構(gòu)、沒有學(xué)習(xí)內(nèi)在價值、且沒有信念修正結(jié)構(gòu)成本的環(huán)境。在此類環(huán)境下，只有工具性偏好分量保持有效。期望效用理論，正如 von Neumann 和 Morgenstern (1944) 以及 Savage (1972) 所形式化的那樣，隨后被恢復(fù)為預(yù)期自由能最小化的一個精確極限情況，當(dāng)認(rèn)識激勵、不確定性結(jié)構(gòu)和復(fù)雜度懲罰在行為上是中性的時。

解讀：在假設(shè)集 3.2 的結(jié)構(gòu)條件下，預(yù)期自由能在可容許域 Π ? 上坍縮為期望效用，且沒有額外的結(jié)構(gòu)在行為層面保持有效。這種等價性是結(jié)構(gòu)性的，因為它定義了一個精確的邊界。在熵齊性、認(rèn)識中性和無復(fù)雜度的環(huán)境中，經(jīng)典效用最大化在形式上是充分的。在此邊界之外，它通常在信息上是不完整的，因為決策問題的額外結(jié)構(gòu)特征變得具有行為后果，且無法在標(biāo)量期望效用泛函中表示。這對 3.3 小節(jié)至關(guān)重要，因為放松熵齊性并非在寬泛的意義上“增加現(xiàn)實性”。相反，它改變了模型必須能夠表示的內(nèi)容。

如圖 1（景觀坍縮）所示，無約束機制下的 EFE 景觀展現(xiàn)出結(jié)構(gòu)化的拓?fù)洌哂杏善谩㈩A(yù)測不確定性、認(rèn)識梯度和剛性共同塑造的多個吸引子（圖 1A）。在假設(shè)集 3.2 下，這種幾何結(jié)構(gòu)發(fā)生坍縮：認(rèn)識項、熵結(jié)構(gòu)項和復(fù)雜度項消失，產(chǎn)生一個單一的、平滑的、由偏好驅(qū)動的吸引域（圖 1B）。因此，期望效用對應(yīng)于更廣泛變分目標(biāo)中的這一受限子空間（Friston 等人，2015）。因此，經(jīng)典模型主要在更廣泛幾何結(jié)構(gòu)的一個空間受限、平坦化的區(qū)域內(nèi)提供準(zhǔn)確的描述。

3.3 熵異質(zhì)性下的表示崩潰

在本小節(jié)中，我們現(xiàn)在確定定理 1 中建立的等價性崩潰的精確表示邊界。一旦預(yù)測熵在策略之間有所不同，即使保持相同的結(jié)果效用映射不變，期望效用也不必在表示上等價于預(yù)期自由能行為。其結(jié)果是存在性的而非普遍性的，因為它識別出了表示等價性失效的環(huán)境，而并未聲稱這是一個全局不可能定理。為此，我們施加：

相應(yīng)地，我們現(xiàn)在通過放寬 (EU1) 來允許預(yù)測熵在策略之間變化，同時保持相同的偏好嵌入 P ( o ) 不變，并考察期望效用表示是否仍能恢復(fù)由 EFE 誘導(dǎo)的排序。

解讀：命題 1 識別出一種結(jié)構(gòu)性表示分歧。期望效用僅依據(jù)標(biāo)量期望收益來評估策略，而預(yù)期自由能則是通過分布幾何來評估策略，該幾何通過熵項 H ( Q ( o ∣ π ) ) 將結(jié)果離散度視為一個核心分量。在存在跨策略預(yù)測熵差異的情況下，這兩個標(biāo)準(zhǔn)誘導(dǎo)出了截然不同的決策面，且不必就策略排序達成一致。這解釋了為何傳統(tǒng)上被標(biāo)記為異常的行為（例如，模糊性效應(yīng)、探索偏好、好奇心估值、基于方差的逆轉(zhuǎn)）在此處不需要輔助心理學(xué)假設(shè)（Gilboa 和 Schmeidler，1989；Camerer，1998）。它們可以被解釋為結(jié)構(gòu)化不確定性與非零 γ p （以及在存在時， γ o ）相互作用的反映。

這種分歧在形式意義上是幾何性的。圖 2（分岔圖）闡明，隨著環(huán)境偏離熵齊性，作為期望效用特征的單一穩(wěn)定吸引子失去了全局最優(yōu)性。多個穩(wěn)定吸引域隨之涌現(xiàn)，行為開始追蹤環(huán)境日益豐富的信息結(jié)構(gòu)。因此，經(jīng)典效用表示只有通過跨環(huán)境重新定義效用，而非通過單一穩(wěn)定泛函，才能模仿這種行為的局部切片（參見附錄 B.3 以獲取形式拓?fù)浞治觯?/p>

3.4 信息的價值與定向探索

按照標(biāo)準(zhǔn)公式表述的經(jīng)典期望效用最大化者屬于被動學(xué)習(xí)者（Lindley，1956；DeGroot，1970）。如果信息是免費的，他們會處理信息，但標(biāo)準(zhǔn)效用函數(shù)不包含尋求信息的內(nèi)在驅(qū)動力。相比之下，搜索理論（Stigler，1961）、最優(yōu)實驗文獻（例如，Lindley，1956）以及主動推理中的理論公式（Schwartenbeck 等人，2013）認(rèn)識到，智能體會主動探索以減少不確定性。在預(yù)期自由能中，這種驅(qū)動力內(nèi)生于決策泛函本身。認(rèn)識項（ ? γ o I G ( π ）因此明確獎勵那些能夠解決關(guān)于環(huán)境狀態(tài)不確定性的策略。這為與工具性偏好并行運作的好奇心和探索提供了一個形式基礎(chǔ)。

圖 3（認(rèn)識梯度）闡明了這種幾何結(jié)構(gòu)：決策面純粹沿著不確定性降低的梯度傾斜，使得策略流僅由認(rèn)識價值決定。

3.5 理性疏忽作為信息正則化

理性疏忽通常作為對期望效用的行為修正被引入，其中智能體在顯式信息約束下最大化后者（Sims，2003）。在本框架內(nèi)，它表現(xiàn)為一種內(nèi)生的極限機制。當(dāng) λ 加權(quán)的復(fù)雜度項在與信息處理相關(guān)的表征維度上變得在行為上有效，而認(rèn)識獎勵和熵差異保持中性時，它便涌現(xiàn)出來。因此，它將決策者視為有限的信息處理者，這些處理者最大化扣除基于信道容量定義的信息成本泛函后的期望效用凈值（Sims，2003；Cover 和 Thomas，2006）。

在提出的變分架構(gòu)內(nèi)，該優(yōu)化問題作為信息的工具性價值與 λ λ 加權(quán)的信念更新復(fù)雜度成本之間相互作用的特化，內(nèi)生地涌現(xiàn)出來。因此，理性疏忽表現(xiàn)為將信息處理視為有代價的這一行為表現(xiàn)（Sims，2003；Sims，2010；Matějka 和 McKay，2015；Ma?kowiak，Matějka 和 Wiederholt，2023）。

在標(biāo)準(zhǔn)的期望效用公式中，這種成本通常是顯式添加的（Sims，2010）。在預(yù)期自由能公式中，相應(yīng)的結(jié)構(gòu)已經(jīng)在內(nèi)部存在。當(dāng)復(fù)雜度源于對靈活潛狀態(tài)表征的信念更新，而非源于偏離深層或與身份相關(guān)的先驗時， λ λ 加權(quán)的復(fù)雜度項充當(dāng)信息處理懲罰。這一區(qū)分在 3.6 小節(jié)中變得至關(guān)重要。鑒于上述情況，我們通過以下假設(shè)集來表征生成模型內(nèi)信息增益的結(jié)構(gòu)潛力：

在這些約束下，認(rèn)識激勵被中和，且熵不會對策略選擇產(chǎn)生差異性結(jié)構(gòu)化影響。唯一剩余的非中性梯度是由作用于靈活信念表征的 λ λ 加權(quán)復(fù)雜度項產(chǎn)生的。因此，復(fù)雜度項作為一種內(nèi)部信息成本獲得了行為意義。這正是理性疏忽模型被定義其中的結(jié)構(gòu)包絡(luò)。由此可得：

解讀：有限認(rèn)知構(gòu)成了參數(shù)空間中一個定義明確的區(qū)域，而非對理性的偏離。那些對表征復(fù)雜度進行加權(quán)的智能體表現(xiàn)得像理性疏忽智能體，并非因為它們偏離了理性。它們之所以如此，是因為其生成架構(gòu)使得信念維持在容量受限的表征維度上代價高昂。在這個精確的意義上，如果世界具有假設(shè)集 3.5 中規(guī)定的信息結(jié)構(gòu)，那么理性疏忽就是可容許域 Π ? 上預(yù)期自由能行為的恰當(dāng)簡化形式描述。當(dāng)這些結(jié)構(gòu)性條件失效時（例如，當(dāng)認(rèn)識激勵或身份剛性變得活躍時），理性疏忽就不再是正確的極限說明。

這一特化機制與基于信息處理成本的有限理性決策的信息論公式相一致（Ortega 和 Braun，2013），并在此嵌入到一個更廣泛的變分架構(gòu)中。雖然信息論控制通常將信息成本視為外部約束，但 EFE 框架將它們推導(dǎo)為與工具價值和信念穩(wěn)定性處于共同度量上的內(nèi)部正則化項。

重審圖 2 中引入的分岔圖，圖 4（信息機制）闡明這一轉(zhuǎn)變是結(jié)構(gòu)性的。隨著復(fù)雜度成本 λ 的增加，系統(tǒng)從效用主導(dǎo)行為轉(zhuǎn)變?yōu)樾畔⒄齽t化動力學(xué)。策略吸引域變厚且切換變慢，再現(xiàn)了理性疏忽的行為特征，這是高信息處理成本的自然幾何后果。

本小節(jié)論證了當(dāng) λ 將表征變化作為信息處理資源進行懲罰時，該變分架構(gòu)會簡化為理性疏忽。然而， λ 并不僅僅編碼認(rèn)知信道成本。它更普遍地代表了深層生成結(jié)構(gòu)中的剛性。3.6 小節(jié)接下來將表明，當(dāng)這種剛性附著于潛在身份先驗而非信息信道時，預(yù)期自由能（Expected Free Energy）反而會簡化為身份經(jīng)濟學(xué)（Identity Economics）。

3.6 作為信念剛性的身份經(jīng)濟學(xué)

關(guān)于身份經(jīng)濟學(xué)的研究強調(diào)，當(dāng)行為旨在維護自我概念或社會角色時，會出現(xiàn)對純粹工具性優(yōu)化的系統(tǒng)性偏離（Akerlof 和 Kranton，2000；Bénabou 和 Tirole，2016）。個體的行動旨在保持與其自我認(rèn)知的一致性，這超越了簡單的收益最大化。形式模型通過在效用泛函中懲罰偏離身份的行為來捕捉這一點（例如，Akerlof 和 Kranton，2000；Bénabou 和 Tirole，2016），這是建立在認(rèn)知失調(diào)的心理學(xué)框架之上的（Festinger，1957）。在本框架內(nèi)，這作為一種由 λ 驅(qū)動的機制涌現(xiàn)，其中偏離錨定身份先驗會產(chǎn)生行為后果。我們將此形式化為：

解讀：這一結(jié)果將身份視為一種潛在的概率先驗，將身份失調(diào)視為一種散度。同時，保護身份免受收益最大化影響的行為并不意味著非理性，而是表明占據(jù)了 Ω 空間中散度成本在結(jié)構(gòu)上占主導(dǎo)地位的區(qū)域。因此，犧牲工具性收益以維護身份的行為在變分意義上是理性的。它最小化了相對于一個生成模型的預(yù)期未來驚奇，該生成模型聯(lián)合編碼了智能體及其環(huán)境，且條件于固定的身份先驗。在這個精確的意義上，如果世界具有假設(shè)集 3.6 中規(guī)定的結(jié)構(gòu)形式，那么身份經(jīng)濟學(xué)可以被視為預(yù)期自由能所簡化的機制。反之，當(dāng)這些結(jié)構(gòu)性條件失效時，身份經(jīng)濟學(xué)未必是恰當(dāng)?shù)臉O限描述。

這一形式化還原在身份經(jīng)濟學(xué)的嚴(yán)謹(jǐn)語言中，為關(guān)于“自證”（self-evidencing）和內(nèi)部自我模型維護的概念性提議（Friston 等人，2023）奠定了基礎(chǔ)。通過將身份表征為潛在的概率對象，該框架允許推導(dǎo)出符合規(guī)律的持續(xù)性和滯后效應(yīng)。這些機制通常在意識文獻中被定性討論，但在這里用精確的決策論術(shù)語表達。

該框架有助于解釋那些在僅關(guān)注收益的模型中顯得令人困惑的持續(xù)性模式，包括穩(wěn)定的社會規(guī)范以及對教條承諾的信念堅持（Rabin，1998）——這些抗拒修正，以及持續(xù)的身份自我概念（Bénabou 和 Tirole，2016）——這些將行為鎖定在狹窄的軌跡中。在每種情況下，“身份”構(gòu)成了對 θ 的散度懲罰。附錄 B.4 形式化了由此產(chǎn)生的幾何結(jié)構(gòu)和滯后效應(yīng)，這些效應(yīng)使得退出身份機制比進入它更難。圖 5 闡明了由此產(chǎn)生的“身份陷阱”。

3.7 作為精度衰減的跨期選擇與折現(xiàn)

經(jīng)典理論通過指數(shù)折現(xiàn)效用（Samuelson, 1937）對時間偏好進行建模，假設(shè)耐心率是恒定的。行為經(jīng)濟學(xué)通過雙曲線和準(zhǔn)雙曲線折現(xiàn)（Ainslie, 1975; Laibson, 1997）對此提出挑戰(zhàn)，在此類折現(xiàn)下，智能體表現(xiàn)出當(dāng)前偏差，以及在近期與遠期結(jié)果之間出現(xiàn)偏好逆轉(zhuǎn)。

在本文討論的變分框架中，折現(xiàn)是預(yù)測精度隨時間衰減的后果。智能體依據(jù)其對未來自身生成預(yù)測所賦予的置信度來權(quán)衡未來的預(yù)期自由能。如果時間精度發(fā)生衰減，那么對 G ( π )的未來貢獻就會被降權(quán)，智能體從而表現(xiàn)出折現(xiàn)行為。這種衰減的形態(tài)決定了跨期選擇是表現(xiàn)為經(jīng)典的指數(shù)形式，還是行為上的當(dāng)前偏差形式（以每期工具性主導(dǎo)為條件）。為了使這一映射精確化，我們將注意力限制在一個非空的可容許比較集上，在該集合上滿足以下時間精度條件：

解讀：在此架構(gòu)中，折現(xiàn)可以被表征為反映了模型置信度，而非一種對“現(xiàn)在”優(yōu)于“稍后”的原始偏好。智能體之所以對未來進行折現(xiàn)，是因為其生成模型的預(yù)測界限隨時間推移而變得寬松（Sozou，1998）。時間精度的恒定比例衰減（機制 A）產(chǎn)生了經(jīng)典的指數(shù)折現(xiàn)。帶有初始“不確定性沖擊”的非線性精度衰減（機制 B）產(chǎn)生了當(dāng)前偏差和雙曲線折現(xiàn)，這是針對隨時間增加的不確定性在數(shù)學(xué)上正確的響應(yīng)（另見 Sozou，1998），其前提是每期效用嵌入保持穩(wěn)定。

如圖 6（折現(xiàn)機制）所示，當(dāng)時間精度以恒定速率衰減時，會出現(xiàn)標(biāo)準(zhǔn)的指數(shù)曲線；而當(dāng)精度在緊接著的下一步急劇下降隨后趨于平緩時，則會出現(xiàn)當(dāng)前偏差模式。在這兩種情況下，跨期選擇行為都是時間精度輪廓 γ τ 在期望效用上的投影，而非一個獨立的偏好參數(shù)。

在刻畫了全局時間結(jié)構(gòu)和精度衰減如何產(chǎn)生經(jīng)典折現(xiàn)和行為折現(xiàn)之后，3.8 小節(jié)現(xiàn)在從全局機制轉(zhuǎn)向局部幾何，展示預(yù)期自由能表面在特定參考點周圍的曲率如何誘導(dǎo)感知收益和損失中類似前景理論的不對稱性。

3.8 作為變分梯度效應(yīng)的局部類前景理論不對稱性

前景理論（PT）識別出了穩(wěn)健的經(jīng)驗不對稱性：損失比收益權(quán)重更大，評估依賴于參考點，且在參考點 r 上方和下方的曲率不同（Kahneman 和 Tversky，1979）。標(biāo)準(zhǔn)行為經(jīng)濟學(xué)在價值函數(shù)中顯式地強加了這些不對稱性（例如，K?szegi 和 Rabin，2006）。在本文討論的變分框架中，當(dāng)參考結(jié)構(gòu)化的偏好與精度結(jié)構(gòu)化的剛性成本相互作用時，類似的效應(yīng)作為決策面的局部幾何性質(zhì)內(nèi)生地涌現(xiàn)。因此，不對稱性從 G ( π ) 的幾何結(jié)構(gòu)中內(nèi)生地涌現(xiàn)，其意義在于在維持的正則性假設(shè)下的局部策略比較靜態(tài)。

除了圍繞參考點 r 的結(jié)果不對稱性外，前景理論還強調(diào)在概率處理中的系統(tǒng)性扭曲（概率加權(quán)）。在基于 EFE 的框架內(nèi)，概率加權(quán)不需要外生強加的加權(quán)函數(shù)。相反，當(dāng)認(rèn)識價值對策略得分有貢獻時，它可以表現(xiàn)為從預(yù)測概率到選擇概率的映射中一種依賴于不確定性的扭曲。更一般地，只要信息敏感項通過 ? γ o I G t ( π ) 在不同策略上負(fù)載不同，并且（在適用時）通過任何依賴于同一不確定潛在對象的 λ C t ( π ) 分量，此類扭曲就會出現(xiàn)。隨著后驗確定性消除了相關(guān)的信息差異，這些扭曲就會消失。

因此，一個關(guān)鍵的要求是認(rèn)識價值必須在后驗確定性下坍縮。當(dāng)認(rèn)識價值被指定為潛在概率參數(shù)與未來結(jié)果之間的互信息時，任何概率加權(quán)效應(yīng)必然是瞬態(tài)的，并且隨著不確定性收縮，平滑地收斂到工具性（期望效用）極限，同時保持（玻爾茲曼-盧斯）決策規(guī)則和策略集固定不變。

解讀：前景理論類型的行為被重構(gòu)為一種優(yōu)化響應(yīng)，發(fā)生在違反高精度身份先驗在結(jié)構(gòu)上比在低精度、靈活的信念維度內(nèi)進行調(diào)整代價更高的環(huán)境中。 λ 加權(quán)復(fù)雜度項并不編碼外生的不對稱性。相反，這種不對稱性內(nèi)生地源于生成模型的層級精度結(jié)構(gòu)。因此，在假設(shè)集 3.8 下，損失厭惡和概率加權(quán)作為預(yù)期自由能表面的局部幾何性質(zhì)涌現(xiàn)，而非作為對價值函數(shù)的強加扭曲，并且它們是局部的（而非全局的）主張， tied to (綁定于) (PT1)–(PT4) 成立的鄰域（并且，對于概率加權(quán)分量，(PT5)–(PT6) 也成立的區(qū)域）。

這種幾何重構(gòu)補充了基于模擬的說明。特別是，主動推理模型通過調(diào)整策略精度，復(fù)現(xiàn)了人類對風(fēng)險和模糊性的類人響應(yīng)（Schwartenbeck 等人，2015）。然而，命題 2 超越了說明性模擬，提供了不對稱性作為變分梯度效應(yīng)的形式證明。由此表明，類損失厭惡的曲率是決策面本身圍繞參考點的內(nèi)生屬性，必然源于生成模型的層級精度結(jié)構(gòu)，而非作為特定的參數(shù)擬合。當(dāng)在預(yù)期自由能表面上可視化時，如圖 7（局部梯度不對稱性）所示，這表現(xiàn)為圍繞參考點 r 的不對稱曲率：表面在 r 上方（收益）更平坦，在 r 下方（損失）更陡峭。

3.9 結(jié)構(gòu)性完備性結(jié)果

迄今為止，我們已經(jīng)證明，一旦不確定性結(jié)構(gòu) ( γ p )、認(rèn)識權(quán)重 ( γ o )、剛性 ( λ ) 和時間精度 (T) 受到適當(dāng)限制，期望效用理論、理性疏忽、身份經(jīng)濟學(xué)以及類前景理論的不對稱性都會作為預(yù)期自由能最小化的精確機制出現(xiàn)。人們或許仍會將這些視為精心挑選的案例研究。因此，遺留的問題在于，這些嵌入是否反映了在一個明確界定的結(jié)構(gòu)類中，基于 EFE 的函數(shù)形式所具有的一般表征屬性。本小節(jié)通過從嵌入具名理論轉(zhuǎn)向一般的表達性結(jié)果，直接解決了這一問題；據(jù)此，預(yù)期自由能為一類廣泛但明確界定的貝葉斯控制架構(gòu)提供了正則表征基。

起點是結(jié)構(gòu)性的。經(jīng)濟學(xué)、認(rèn)知科學(xué)、控制理論和人工智能中的許多決策模型可以表述為工具性偏好泛函、認(rèn)識性或信息論分量、以及基于散度的正則化或約束項的加性組合（Tishby 和 Polani，2011；Ortega 和 Braun，2013）。預(yù)期自由能（EFE）本身已確切具備這一架構(gòu)。因此，隨之而來的問題是，這種對齊能否在一個明確指定的結(jié)構(gòu)域內(nèi)被形式化為一個完備性陳述。構(gòu)建這樣一個完備性主張需要固定它所適用的目標(biāo)域。因此，我們將關(guān)注范圍限制在具有偏好、認(rèn)識性和散度正則化分量的加性貝葉斯控制泛函上，并假設(shè)其滿足標(biāo)準(zhǔn)正則性條件和非退化增強規(guī)則。

解讀： 預(yù)期自由能并非為了復(fù)制幾個具名理論而精心拼湊的成分之和。它構(gòu)成了由 (SC1)–(SC5) 所涵蓋的貝葉斯控制目標(biāo)類別的充分結(jié)構(gòu)基礎(chǔ)，為該領(lǐng)域提供了共同的表征。因此， J 中的模型不僅可以被視為 EFE 的外部競爭者，更應(yīng)被視為占據(jù)了由 G ( π ) 生成的機制空間中定義明確的區(qū)域。它們之間的差異對應(yīng)于生成結(jié)構(gòu)以及 Ω 中的差異，而非根本不同的理性觀念。這一視角有助于解釋為何 EFE 無需額外的心理學(xué)假設(shè)即可生成結(jié)構(gòu)化的行為模式。折現(xiàn)、探索、身份剛性以及類前景理論的不對稱性隨后表現(xiàn)為單一泛函的參數(shù)機制，而非事后調(diào)和的獨立理論。該結(jié)果是表征性的。它并不聲稱所有這些目標(biāo)都是合理的，也不聲稱 EFE 是理性公理唯一蘊含的結(jié)果。它僅聲稱基于 EFE 的架構(gòu)作為一個變分目標(biāo)跨越了這一結(jié)構(gòu)類別。特別是，受限增強條件 (SC2) 排除了策略索引先驗或查找表構(gòu)造，確保了跨越主張在陳述的加性貝葉斯控制域內(nèi)是實質(zhì)性的，而非空洞的表征編碼。

雖然先前的工作在有限理性控制的自由能變分框架內(nèi)將 KL 控制和風(fēng)險敏感控制推導(dǎo)為極限情況（Ortega 和 Braun，2013），但本處的跨越結(jié)果將這種對齊擴展到了行為經(jīng)濟學(xué)的結(jié)構(gòu)原語。與純粹的控制論分解不同，此處建立的表達基（定理 6）為那些生成模型顯式地由身份錨定剛性和信息處理成本構(gòu)建的智能體提供了共同的表征。因此，該框架不僅僅關(guān)聯(lián)了控制律。它識別出了行為表型作為單一變分原理的符合規(guī)律的表現(xiàn)而涌現(xiàn)的結(jié)構(gòu)性條件。

這一完備性結(jié)果暗示了一種共同的幾何嵌入，如圖 8（決策流形）示意所示。因此，每個經(jīng)典理論占據(jù)了由策略集 Π Π 和超參數(shù)向量 Ω 定義的高維空間中的特定機制區(qū)域。它們是在由 (SC1)–(SC5) 定義的結(jié)構(gòu)域內(nèi)，單一變分目標(biāo)的替代參數(shù)化形式。

該圖明確了代數(shù)推導(dǎo)所確立的結(jié)果：經(jīng)典理論最好被看作是在由 (SC1)–(SC5) 所定義的結(jié)構(gòu)域內(nèi)、對單一變分目標(biāo)函數(shù)的不同參數(shù)化方式。第 3.10 小節(jié)現(xiàn)將整合這些結(jié)果，為向?qū)嵶C層面的過渡奠定基礎(chǔ)。

3.10 綜合與向經(jīng)驗研究的過渡

第 3 節(jié)現(xiàn)已確立了以下核心結(jié)果。首先，在附錄 A.0 陳述的維持正則性假設(shè)下，預(yù)期自由能定義了一個數(shù)學(xué)上適定的決策規(guī)則。其次，期望效用在可識別的結(jié)構(gòu)性限制下作為一種精確的極限機制出現(xiàn)，且這種等價性在熵異質(zhì)性下會破裂。第三，鑒于 3.4–3.8 小節(jié)中指定的相應(yīng)假設(shè)集，理性疏忽、身份經(jīng)濟學(xué)、跨期折現(xiàn)以及類前景理論的不對稱性作為符合規(guī)律的內(nèi)部案例出現(xiàn)。第四，在由 (SC1)–(SC5) 界定的類別 J J 內(nèi)，第 3 節(jié)表明預(yù)期自由能在由假設(shè)集 3.9 定義的域內(nèi)跨越了一類廣泛的貝葉斯控制架構(gòu)。

附帶的幾何圖示強化了這一邏輯。景觀圖展示了當(dāng)約束將系統(tǒng)推入期望效用機制時 EFE 表面如何坍縮，以及當(dāng)身份先驗占主導(dǎo)時剛性如何將表面變形為深吸引域。分岔圖預(yù)覽了 Ω 中的微小變化如何誘導(dǎo)工具性、認(rèn)識性和剛性驅(qū)動機制之間的定性轉(zhuǎn)變。景觀圖示將經(jīng)典模型定位為嵌入在更廣泛變分空間內(nèi)的表面，其有效性局限于相應(yīng)的結(jié)構(gòu)區(qū)域。

實質(zhì)性的啟示如下：經(jīng)典理論可以被定位為生成模型和 Ω 聯(lián)合空間中的結(jié)構(gòu)化區(qū)域。在這些區(qū)域之外，經(jīng)典泛函要么變得指定不足，要么需要輔助修正，而預(yù)期自由能則在維持的變分架構(gòu)內(nèi)繼續(xù)產(chǎn)生連貫且可解釋的預(yù)測。

這些結(jié)果與當(dāng)代關(guān)于預(yù)期自由能起源和分解的分析，以及主動推理文獻中提出的相關(guān)基于散度的目標(biāo)公式（Millidge, Tschantz 和 Buckley, 2021）進行了對話。如果先前的文獻側(cè)重于 EFE 目標(biāo)的功能性“為什么”，那么本節(jié) 3 中發(fā)展的結(jié)果則提供了“在哪里”，明確了經(jīng)典理論所處的精確結(jié)構(gòu)區(qū)域。這種從推導(dǎo)到結(jié)構(gòu)性定位的轉(zhuǎn)變，使得現(xiàn)有模型可以被視為在由 (SC1)–(SC5) 定義的結(jié)構(gòu)域內(nèi)，單一變分目標(biāo)的替代參數(shù)化形式。

第 4 節(jié)現(xiàn)在從表征轉(zhuǎn)向動力學(xué)。它引入了構(gòu)造性數(shù)值說明，旨在研究 Ω 的變化如何隨時間使預(yù)期自由能景觀發(fā)生變形，并將滯后、概率扭曲和機制轉(zhuǎn)換等現(xiàn)象表征為該架構(gòu)的動力學(xué)后果。隨后，第 5 節(jié)從這些演示轉(zhuǎn)向經(jīng)驗識別。它推導(dǎo)了 Ω 可從數(shù)據(jù)中識別的條件，提出了估計策略，并概述了能夠?qū)㈩A(yù)期自由能框架與理性疏忽及前景理論區(qū)分開來的實驗范式。

原文鏈接：https://zenodo.org/records/18009668?utm_source=chatgpt.com

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.