網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

主動(dòng)推理對(duì)具身智能體進(jìn)行貝葉斯推理

2026-03-28 08:45:09　來(lái)源: CreateAMind

上海舉報(bào)

分享至

大腦:通過(guò)主動(dòng)推理對(duì)移動(dòng)網(wǎng)絡(luò)中的代理智能和體現(xiàn)智能進(jìn)行貝葉斯推理

BRAIN: Bayesian Reasoning via Active Inference for Agentic an Embodied Intelligence in Mobile Networks

https://arxiv.org/pdf/2602.14033

摘要

未來(lái)的第六代（6G）移動(dòng)網(wǎng)絡(luò)將需要這樣的人工智能（AI）智能體：它們不僅具備自主性與高效性，還能夠在動(dòng)態(tài)環(huán)境中實(shí)現(xiàn)實(shí)時(shí)適應(yīng)，并在決策過(guò)程中保持透明性。然而，當(dāng)前網(wǎng)絡(luò)領(lǐng)域中主流的智能體人工智能方法在這方面仍存在顯著不足。傳統(tǒng)的基于深度強(qiáng)化學(xué)習(xí)（DRL）的智能體缺乏可解釋性，且往往表現(xiàn)出脆弱的適應(yīng)能力，包括在非平穩(wěn)條件下對(duì)已有知識(shí)的災(zāi)難性遺忘。在本文中，我們針對(duì)上述挑戰(zhàn)提出了一種替代性解決方案：通過(guò)主動(dòng)推理（Active Inference）實(shí)現(xiàn)貝葉斯推理的 BRAIN 智能體（Bayesian Reasoning via Active Inference Agent）。BRAIN 利用對(duì)網(wǎng)絡(luò)環(huán)境的深度生成模型，并通過(guò)最小化變分自由能，在單一的閉環(huán)范式中統(tǒng)一感知與行動(dòng)。我們將 BRAIN 實(shí)現(xiàn)為 O-RAN 擴(kuò)展應(yīng)用（xApp），部署于 GPU 加速測(cè)試平臺(tái)，并驗(yàn)證了其相較于標(biāo)準(zhǔn) DRL 基線(xiàn)方法的優(yōu)勢(shì)。實(shí)驗(yàn)結(jié)果表明，BRAIN 展現(xiàn)出：（i）針對(duì)動(dòng)態(tài)無(wú)線(xiàn)資源分配的穩(wěn)健因果推理能力，能夠在變化的流量負(fù)載下維持網(wǎng)絡(luò)切片特定的服務(wù)質(zhì)量（QoS）目標(biāo)（吞吐量、時(shí)延、可靠性）；（ii）卓越的適應(yīng)能力，相較于基準(zhǔn)方法，對(duì)突發(fā)流量變化的魯棒性提升高達(dá) 28.3%（且無(wú)需任何重新訓(xùn)練）；（iii）通過(guò)人類(lèi)可理解的信念狀態(tài)診斷，實(shí)現(xiàn)其決策過(guò)程的實(shí)時(shí)可解釋性。

索引術(shù)語(yǔ)——主動(dòng)推理，具身人工智能（Embodied-AI），移動(dòng)網(wǎng)絡(luò)，可信賴(lài)性，6G。

I、引言

近年來(lái)，人工智能（AI）取得了顯著進(jìn)展，從利用強(qiáng)化學(xué)習(xí)（RL）掌握復(fù)雜游戲與控制任務(wù)，到借助大語(yǔ)言模型（LLM）與生成式人工智能（Generative AI）產(chǎn)出類(lèi)人內(nèi)容。然而，這些成就在很大程度上仍是"去具身化"（disembodied）的：模型運(yùn)行于仿真環(huán)境或數(shù)據(jù)驅(qū)動(dòng)的領(lǐng)域之中，缺乏直接的物理根基。例如，大語(yǔ)言模型擅長(zhǎng)從靜態(tài)數(shù)據(jù)集中進(jìn)行模式識(shí)別與內(nèi)容生成，卻無(wú)法與動(dòng)態(tài)變化的環(huán)境進(jìn)行交互。類(lèi)似地，深度強(qiáng)化學(xué)習(xí)（DRL）智能體通常在精心設(shè)計(jì)的仿真環(huán)境中訓(xùn)練，依賴(lài)固定的獎(jiǎng)勵(lì)函數(shù)，一旦面對(duì)訓(xùn)練分布之外的真實(shí)世界動(dòng)態(tài)，往往難以有效應(yīng)對(duì)。本質(zhì)上，當(dāng)今的人工智能系統(tǒng)尚不具備具身智能體所特有的整體性、自適應(yīng)智能——即能夠在真實(shí)世界中持續(xù)地感知、行動(dòng)與學(xué)習(xí)的能力 [1]。

這一差距在新興的第六代（6G）及未來(lái)網(wǎng)絡(luò)的背景下變得尤為關(guān)鍵 [2]。這些未來(lái)網(wǎng)絡(luò)預(yù)計(jì)將連接數(shù)百億臺(tái)設(shè)備，并支持具有嚴(yán)格性能需求的前所未有的服務(wù)，這就需要原生 AI 設(shè)計(jì)原則，將學(xué)習(xí)和控制智能緊密集成到基礎(chǔ)設(shè)施中 [2, 3]。無(wú)線(xiàn)環(huán)境本質(zhì)上是復(fù)雜且非平穩(wěn)的：信道條件、用戶(hù)移動(dòng)性和流量模式不斷波動(dòng) [4]。此外，6G 必須滿(mǎn)足不同用例中多樣化的服務(wù)質(zhì)量（QoS）/體驗(yàn)質(zhì)量（QoE）要求 [5]。然而，迄今為止大多數(shù)“啟用 AI"的網(wǎng)絡(luò)解決方案只是將現(xiàn)成的深度學(xué)習(xí)模型（例如卷積網(wǎng)絡(luò) [6] 或深度自動(dòng)編碼器 [7]）應(yīng)用于特定任務(wù)，而沒(méi)有從根本上重新思考網(wǎng)絡(luò)的認(rèn)知架構(gòu) [8]。雖然這些模型可以從歷史數(shù)據(jù)中學(xué)習(xí)映射關(guān)系，但當(dāng)網(wǎng)絡(luò)條件偏離訓(xùn)練集時(shí)，它們往往無(wú)法泛化。強(qiáng)化學(xué)習(xí)（RL）通過(guò)使 AI 能夠通過(guò)與環(huán)境的直接交互進(jìn)行學(xué)習(xí)，引入了一定程度的代理性 [9]。確實(shí)，基于深度強(qiáng)化學(xué)習(xí)（DRL）的實(shí)現(xiàn)已在無(wú)線(xiàn)領(lǐng)域展現(xiàn)出前景，解決了從動(dòng)態(tài)頻譜分配和功率控制到切換優(yōu)化和端到端網(wǎng)絡(luò)切片等問(wèn)題 [10–12]。然而，傳統(tǒng)的 DRL 解決方案存在兩個(gè)主要缺點(diǎn)，限制了它們作為自主 6G 網(wǎng)絡(luò)“大腦”的適用性。首先，DRL 策略通常由深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)，這些網(wǎng)絡(luò)充當(dāng)不透明的黑盒 [13]。其次，標(biāo)準(zhǔn) DRL 對(duì)變化條件的適應(yīng)能力非常有限 [14]。一旦 DRL 智能體針對(duì)給定環(huán)境或流量場(chǎng)景進(jìn)行了訓(xùn)練，它往往會(huì)對(duì)這些條件過(guò)擬合。神經(jīng)策略容易發(fā)生災(zāi)難性遺忘：當(dāng)在新數(shù)據(jù)上學(xué)習(xí)或微調(diào)時(shí)，它們會(huì)覆蓋先前學(xué)到的行為 [4]。圖 1 說(shuō)明了網(wǎng)絡(luò)切片場(chǎng)景中的這一挑戰(zhàn)：基線(xiàn) DRL 智能體一旦適應(yīng)了超可靠低延遲通信（URLLC）切片，就會(huì)迅速“忘記”如何服務(wù)增強(qiáng)移動(dòng)寬帶（eMBB）切片，反之亦然，這就需要針對(duì)先前條件的每次重現(xiàn)進(jìn)行昂貴的重新學(xué)習(xí)。

這些局限性表明需要從根本上重新構(gòu)想網(wǎng)絡(luò) AI。越來(lái)越多的共識(shí)認(rèn)為，下一代網(wǎng)絡(luò)應(yīng)納入更高級(jí)的認(rèn)知能力；集成記憶、感知和推理元素，而不是僅僅依賴(lài)低級(jí)模式識(shí)別 [8, 15]。本質(zhì)上，此類(lèi)系統(tǒng)中的 AI 智能體不再僅僅是離線(xiàn)模型，而是物理網(wǎng)絡(luò)環(huán)境中的積極參與者。這種智能體愿景自然地將主動(dòng)推理引為網(wǎng)絡(luò)智能更有希望的下一步。主動(dòng)推理被描述為實(shí)現(xiàn)此類(lèi)具身 AI 的理想框架，因?yàn)樗律啬M了自然智能系統(tǒng)如何通過(guò)基于自由能原理的行動(dòng) - 感知循環(huán)進(jìn)行學(xué)習(xí)和適應(yīng) [16]。主動(dòng)推理最初開(kāi)發(fā)于認(rèn)知神經(jīng)科學(xué)領(lǐng)域 [17]，提供了基于貝葉斯推理的感知、學(xué)習(xí)和行動(dòng)的統(tǒng)一理論。與傳統(tǒng) RL 相比，主動(dòng)推理智能體不依賴(lài)手工制作的獎(jiǎng)勵(lì)信號(hào)；相反，它維護(hù)其環(huán)境和期望結(jié)果的內(nèi)部生成模型。智能體不斷更新其關(guān)于世界隱藏狀態(tài)的信念（感知），并通過(guò)最小化變分自由能來(lái)選擇行動(dòng)以實(shí)現(xiàn)其目標(biāo)；變分自由能是智能體期望與其觀(guān)察之間預(yù)測(cè)誤差或“驚喜”的度量。本質(zhì)上，智能體試圖預(yù)測(cè)應(yīng)該發(fā)生什么（給定其模型和目標(biāo)），然后采取行動(dòng)使現(xiàn)實(shí)與這些期望保持一致，從而減少驚喜。

在本文中，我們?cè)?AI-RAN 測(cè)試床上引入了一種用于移動(dòng)網(wǎng)絡(luò)資源管理的可解釋深度主動(dòng)推理智能體。本工作是當(dāng)前正在審查的一篇研討會(huì)論文的詳細(xì)和擴(kuò)展版本。除了原始核心概念外，我們 i) 通過(guò)額外的高級(jí)智能體基線(xiàn)和詳細(xì)的消融實(shí)驗(yàn)拓寬了實(shí)驗(yàn)深度，ii) 在所有智能體上添加了受控的非平穩(wěn)性壓力測(cè)試以量化魯棒性和恢復(fù)能力，以及 iii) 包含策略熵分析以使 DRL 和主動(dòng)推理之間的探索 - 利用動(dòng)態(tài)具有可比性，同時(shí)擴(kuò)展了章節(jié)和討論。我們將我們的框架稱(chēng)為 BRAIN（通過(guò)主動(dòng)推理進(jìn)行貝葉斯推理），將其設(shè)想為原生 AI RAN 控制器的“電信大腦”。圖 2 對(duì)比了傳統(tǒng) DRL 智能體的范式與我們提出的 BRAIN 智能體的范式。BRAIN 架構(gòu)采用深度生成主動(dòng)推理模型來(lái)設(shè)計(jì)潛在網(wǎng)絡(luò)狀態(tài)（例如擁塞水平、信道條件、用戶(hù)移動(dòng)性）與觀(guān)察到的性能指標(biāo)之間的關(guān)系，同時(shí)將期望結(jié)果（例如切片特定的 QoS 目標(biāo)）編碼為先驗(yàn)信念。在每個(gè)控制間隔，智能體通過(guò)最小化變分自由能執(zhí)行主動(dòng)推理：它推斷最可能的當(dāng)前網(wǎng)絡(luò)狀態(tài)（感知步驟），然后計(jì)算最優(yōu)資源分配動(dòng)作（動(dòng)作步驟），這將推動(dòng)網(wǎng)絡(luò)的預(yù)測(cè)性能更接近目標(biāo)（即糾正預(yù)期結(jié)果與期望結(jié)果之間的偏差）。這種推理和行動(dòng)的循環(huán)有效地允許 BRAIN 同時(shí)執(zhí)行在線(xiàn)學(xué)習(xí)和控制。與每當(dāng)環(huán)境變化就需要重新訓(xùn)練的 DRL 智能體不同，BRAIN 隨著新觀(guān)察的到來(lái)實(shí)時(shí)連續(xù)更新其信念，賦予其一種優(yōu)雅處理分布偏移的終身學(xué)習(xí)形式。此外，由于我們智能體的內(nèi)部計(jì)算圍繞概率信念和自由能貢獻(xiàn)展開(kāi)，我們可以利用這些中間結(jié)果來(lái)理解和解釋其行為。我們研究的核心成果總結(jié)為新的貢獻(xiàn)（"C"）和新的發(fā)現(xiàn)（"F"），如下所示：

C1. 我們引入了 BRAIN，這是 O-RAN 中首個(gè)用于 AI-RAN 閉環(huán) RAN 切片的深度主動(dòng)推理智能體。 C2. 我們?cè)O(shè)計(jì)了內(nèi)在可解釋的 BRAIN 智能體，通過(guò)暴露潛在切片條件的后驗(yàn)信念和期望自由能（EFE）分解，根據(jù)目標(biāo)一致性（外在）和不確定性減少（認(rèn)知）來(lái)證明每個(gè)動(dòng)作的合理性。 F1. 在動(dòng)態(tài)切片實(shí)驗(yàn)中，BRAIN 展示了對(duì)非平穩(wěn)條件的持續(xù)適應(yīng)能力。BRAIN 在動(dòng)態(tài)負(fù)載下更可靠地維持異構(gòu)切片意圖。 F2. 與黑盒 DRL 不同，BRAIN 暴露了可解釋的內(nèi)部變量，能夠?yàn)橘Y源分配決策提供因果的和可審計(jì)的解釋。

II、相關(guān)工作

本節(jié)將 BRAIN 置于支撐移動(dòng)網(wǎng)絡(luò)中智能體智能的三個(gè)互補(bǔ)研究脈絡(luò)之中。首先，我們回顧強(qiáng)化學(xué)習(xí)（RL）/深度強(qiáng)化學(xué)習(xí)（DRL）如何被應(yīng)用于網(wǎng)絡(luò)控制與編排，特別是在開(kāi)放無(wú)線(xiàn)接入網(wǎng)（O-RAN）和網(wǎng)絡(luò)切片領(lǐng)域，作為當(dāng)前實(shí)踐中占主導(dǎo)地位的智能體范式。其次，我們總結(jié)無(wú)線(xiàn)人工智能中的可解釋性研究工作，包括可解釋人工智能（XAI）和新興的可解釋強(qiáng)化學(xué)習(xí)（XRL）方法，著重指出可解釋性通常是以事后（post hoc）方式引入，而非決策過(guò)程的內(nèi)在組成部分。第三，我們討論主動(dòng)推理作為一種具身智能框架，它通過(guò)概率生成建模與變分推斷統(tǒng)一感知與行動(dòng)，并指出迄今為止在通信系統(tǒng)中部署具備面向運(yùn)營(yíng)商解釋能力的深度主動(dòng)推理的實(shí)證證據(jù)仍然有限。綜合這些研究工作，可以明確我們方法所針對(duì)的方法論缺口：一種內(nèi)在可解釋、持續(xù)自適應(yīng)的智能體，用于實(shí)時(shí)移動(dòng)網(wǎng)絡(luò)控制。

移動(dòng)網(wǎng)絡(luò)中的強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)以及深度強(qiáng)化學(xué)習(xí)模型已被越來(lái)越多地應(yīng)用于無(wú)線(xiàn)網(wǎng)絡(luò)中的動(dòng)態(tài)資源管理與控制任務(wù)。Liu 等人 [11] 提出了 OnSlicing，一個(gè)用于跨 RAN、傳輸、核心網(wǎng)與邊緣域端到端網(wǎng)絡(luò)切片的在線(xiàn) DRL 框架。ORANSlice [12] 是一個(gè)面向 O-RAN 生態(tài)系統(tǒng)的開(kāi)源模塊化 5G 網(wǎng)絡(luò)切片平臺(tái)，它在靈活框架內(nèi)集成了切片生命周期管理、資源編排、監(jiān)控與分析功能。雖然 RL 策略可以帶來(lái)顯著的效率提升，但其不透明性——通常表現(xiàn)為"黑盒"神經(jīng)網(wǎng)絡(luò)——阻礙了理解與調(diào)試，限制了實(shí)際部署。因此，近期研究開(kāi)始探索 XRL 方法論，通過(guò)顯式闡明策略決策與學(xué)習(xí)行為來(lái)提升透明度。

移動(dòng)網(wǎng)絡(luò)中的可解釋人工智能。為克服透明度問(wèn)題，研究人員已將可解釋人工智能（XAI）技術(shù) [18, 19] 引入移動(dòng)網(wǎng)絡(luò)領(lǐng)域 [20]。近年來(lái)，多項(xiàng)工作探索使用流行的 XAI 方法（例如 SHAP [21] 和 LIME [22]）來(lái)解釋無(wú)線(xiàn)網(wǎng)絡(luò)任務(wù)中的復(fù)雜模型 [23–25]。盡管有用，但此類(lèi)通用 XAI 方法已被證明不足以滿(mǎn)足移動(dòng)網(wǎng)絡(luò)的需求：它們僅提供表層洞察，且往往難以應(yīng)對(duì)網(wǎng)絡(luò)數(shù)據(jù)的時(shí)間性與高維特性。認(rèn)識(shí)到這些缺口，部分研究已開(kāi)始針對(duì)無(wú)線(xiàn)通信領(lǐng)域探索特定領(lǐng)域的 XAI 與內(nèi)在可解釋模型。研究人員為網(wǎng)絡(luò)流量模型引入了定制的時(shí)間序列解釋器，用于追蹤特征重要性隨時(shí)間的演變，并識(shí)別導(dǎo)致誤差的異常模式 [26, 27]。總體而言，這些努力強(qiáng)調(diào)：無(wú)線(xiàn)人工智能中的可解釋性可能需要專(zhuān)家驅(qū)動(dòng)的設(shè)計(jì)，以滿(mǎn)足網(wǎng)絡(luò)運(yùn)營(yíng)對(duì)可靠性與洞察力的需求。值得注意的是，XRL 在其他領(lǐng)域（如機(jī)器人與自主系統(tǒng)）也逐漸受到關(guān)注，旨在從 RL 智能體中提取人類(lèi)可理解的策略。然而，在無(wú)線(xiàn)網(wǎng)絡(luò)文獻(xiàn)中，可解釋 RL 或 DRL 迄今仍鮮有探索。一個(gè)值得注意的方法是 SYMBXRL [28]，它在黑盒 DRL 模型之上引入了符號(hào)解釋層。在該框架中，符號(hào)表示生成器將數(shù)值型狀態(tài)與動(dòng)作變量轉(zhuǎn)換為離散的一階邏輯謂詞。相比之下，我們提出的框架采用了一種根本不同的范式：將可解釋性直接嵌入智能體的生成與推理過(guò)程之中。因此，仍然存在對(duì)新方法的顯著需求，以解釋并論證不同學(xué)習(xí)智能體行為的合理性。

主動(dòng)推理。近年來(lái)，主動(dòng)推理已被應(yīng)用于工程領(lǐng)域，在不確定性下的狀態(tài)估計(jì)、規(guī)劃與控制方面展現(xiàn)出潛力 [29]。這些早期研究表明，主動(dòng)推理可以作為一種靈活、受生物啟發(fā)的序列決策方法，區(qū)別于強(qiáng)化學(xué)習(xí) [30]。需要注意的是，用于未知環(huán)境中自適應(yīng)決策的 RL 形式化方法可被主動(dòng)推理所涵蓋。研究人員已將主動(dòng)推理應(yīng)用于機(jī)器人控制任務(wù)，其中智能體的生成模型使其能夠處理模糊的感官輸入，同時(shí)仍能追求目標(biāo)導(dǎo)向的行為 [31, 32]。主動(dòng)推理一個(gè)引人關(guān)注的方面是其內(nèi)置可解釋性的潛力，盡管這一方面尚未得到具體驗(yàn)證 [16, 33]。

III、智能體 AI 設(shè)計(jì)的問(wèn)題建模

A. 強(qiáng)化學(xué)習(xí)

B. 主動(dòng)推理

主動(dòng)推理是一種源于認(rèn)知神經(jīng)科學(xué)的新型決策范式，它提供了一種在不確定性下行動(dòng)與感知的統(tǒng)一方法 [34]。不同于純粹從外部獎(jiǎng)勵(lì)反饋中學(xué)習(xí)策略，主動(dòng)推理智能體利用其環(huán)境的內(nèi)部生成模型，并采取行動(dòng)以最小化其觀(guān)測(cè)值的“驚喜”（即預(yù)測(cè)誤差）。在我們的場(chǎng)景中，這意味著智能體（即我們的 BRAIN xApp）被設(shè)計(jì)為具備關(guān)于 RAN 切片系統(tǒng)的先驗(yàn)期望；例如，URLLC 切片的緩沖區(qū)應(yīng)保持低位（以表示低延遲），而 eMBB 切片的吞吐量應(yīng)保持高位。隨后，智能體持續(xù)調(diào)整其動(dòng)作，使觀(guān)測(cè)到的切片性能與這些內(nèi)部期望保持一致，從而減少相對(duì)于期望行為的意外偏差。在數(shù)學(xué)上，主動(dòng)推理將閉環(huán)控制問(wèn)題表述為變分推斷過(guò)程。智能體具備 RAN 環(huán)境的概率生成模型，并將真實(shí)網(wǎng)絡(luò)狀態(tài)視為待推斷的潛在（隱藏）變量。我們可以通過(guò)聯(lián)合分布，在時(shí)間范圍 T T上形式化該生成模型：

總之，我們基于主動(dòng)推理的控制器持續(xù)更新其對(duì)無(wú)線(xiàn)接入網(wǎng)切片的內(nèi)在模型，并選擇能夠最小化預(yù)期自由能的資源控制動(dòng)作。這形成了一種閉環(huán)行為，其中智能體通過(guò)確保切片性能達(dá)到目標(biāo)要求，力求使其觀(guān)測(cè)結(jié)果不產(chǎn)生意外。值得注意的是，該框架自然地處理了部分可觀(guān)測(cè)性問(wèn)題（將真實(shí)的網(wǎng)絡(luò)狀況視為待推斷的潛在變量），并通過(guò)內(nèi)置的偏好編碼來(lái)適應(yīng)多個(gè)切片目標(biāo)（每個(gè)切片的服務(wù)質(zhì)量目標(biāo)在智能體模型中體現(xiàn)為首選結(jié)果）。其成果是一種有原則的控制策略，與標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)不同，該策略不需要為每個(gè)場(chǎng)景定義外部獎(jiǎng)勵(lì)函數(shù)，而是源于智能體最小化預(yù)測(cè)誤差和維護(hù)其建模服務(wù)目標(biāo)的內(nèi)在驅(qū)動(dòng)力。

IV、可解釋深度主動(dòng)推理設(shè)計(jì)

A. 生成模型設(shè)計(jì)

B. 基于自由能最小化的變分推斷與策略選擇

C. 作為期望自由能最小化的動(dòng)作選擇

D. 決策的內(nèi)省可解釋性

在每個(gè)時(shí)間步 t ，BRAIN 智能體維護(hù)關(guān)于潛在切片狀態(tài) 的后驗(yàn)信念分布（例如，每個(gè)切片的當(dāng)前需求水平或可靠性）。我們將此信念表示為：

V、實(shí)驗(yàn)設(shè)計(jì)

A. GPU 加速的 AI-RAN 測(cè)試床

我們部署了一個(gè)私有 5G 測(cè)試床（見(jiàn)圖 3），其特點(diǎn)是基于 NVIDIA Aerial Research Cloud (ARC) 平臺(tái) [36, 37] 和 Aerial SDK [38] 構(gòu)建的 GPU 加速 O-RAN 架構(gòu)。在我們的設(shè)置中，gNB 的協(xié)議棧被拆分為運(yùn)行在 NVIDIA GPU 上的 O-DU Low（Layer-1 PHY，即物理層）和運(yùn)行在配備 OpenAirInterface (OAI) [39] 的 x86 CPU 上的 O-DU High/CU（高層協(xié)議）。這兩部分通過(guò)小基站論壇（Small Cell Forum）的 FAPI 接口進(jìn)行通信，使得物理層 DSP 任務(wù)能夠在 GPU 上進(jìn)行內(nèi)聯(lián)加速，同時(shí)為 MAC/RLC/PDCP/RRC 層保持標(biāo)準(zhǔn)的 OAI 軟件棧。在 n78 TDD 頻段（中頻段 FR1）運(yùn)行的富士康 O-RU [40] 提供射頻前端，通過(guò)標(biāo)準(zhǔn)的 O-RAN 7.2 前傳接口連接。該 O-RU 在 TDD 模式下支持 100 MHz 信道帶寬（30 kHz 子載波間隔下的 273 個(gè) PRB），其 TDD 模式根據(jù) 3GPP Release 15 規(guī)范配置（例如，DDDSU 時(shí)隙）。該測(cè)試床配備了商用和軟件化 UE（用戶(hù)設(shè)備）以生成多切片流量。具體而言，我們使用一款 COTS（商用現(xiàn)成）5G UE（Sierra Wireless EM9191 調(diào)制解調(diào)器模塊）和一個(gè)基于 OAI 的軟件 UE（nrUE）作為兩個(gè)終端設(shè)備。

Sierra Wireless EM9191 提供了真正的 5G NR 用戶(hù)設(shè)備，通過(guò)空中接口（over-the-air）連接到 gNB。OAI nrUE 是一個(gè)軟件 UE 協(xié)議棧（也在配備 SDR 前端的服務(wù)器上運(yùn)行），它仿真第二個(gè) 5G UE，允許對(duì)其流量和切片配置進(jìn)行細(xì)粒度控制。兩個(gè) UE 都支持并發(fā)建立多個(gè) PDU 會(huì)話(huà)，我們將這些會(huì)話(huà)映射到不同的網(wǎng)絡(luò)切片（如下所述）。

B. 用例：智能編排

我們考慮一個(gè)多切片 RAN 場(chǎng)景，其中智能 xApp 作為自主智能體部署，用于閉環(huán)切片資源編排。O-RAN 近實(shí)時(shí) RIC（Near-RT RIC）承載我們的 BRAIN xApp，該 xApp 觀(guān)察網(wǎng)絡(luò)狀態(tài)并動(dòng)態(tài)控制服務(wù)于多個(gè)切片的 gNB。在我們的設(shè)置中，單個(gè) 100 MHz 小區(qū)（一個(gè) O-RU/gNB）為兩個(gè)用戶(hù)設(shè)備（UE）提供三種切片類(lèi)型的服務(wù)；eMBB、URLLC 和海量 mMTC 各自具有不同的 QoS 要求（eMBB 需要高吞吐量，URLLC 需要低延遲，mMTC 需要高可靠性）。gNB 的 MAC 層具備切片感知能力，為每個(gè)切片維護(hù)獨(dú)立的緩沖區(qū)和調(diào)度器隊(duì)列，而各個(gè) UE 為其相應(yīng)切片生成流量（例如，一個(gè) UE 通過(guò)獨(dú)立的 PDU 會(huì)話(huà)在 eMBB 上承載視頻流、在 URLLC 上承載實(shí)時(shí)控制流，而另一個(gè)則在 mMTC 上承載間歇性的物聯(lián)網(wǎng)遙測(cè)數(shù)據(jù)）。這為 xApp 智能體進(jìn)行智能編排構(gòu)成了一個(gè)豐富的環(huán)境。

BRAIN xApp 通過(guò) O-RAN E2 接口持續(xù)監(jiān)控切片性能。一個(gè)輕量級(jí)的 KPM 監(jiān)控 xApp 流式傳輸實(shí)時(shí)遙測(cè)數(shù)據(jù) [41]，例如切片特定的下行吞吐量、緩沖區(qū)占用率（隊(duì)列長(zhǎng)度）和下行傳輸塊計(jì)數(shù)，并將其送入 RIC 的數(shù)據(jù)層（使用標(biāo)準(zhǔn) O-RAN KPM 服務(wù)模型）。這些指標(biāo)在先前工作 [42] 中已被證明能有效捕捉切片流量需求與 QoS 狀況，構(gòu)成了我們智能體所觀(guān)測(cè)的狀態(tài) s s。在每個(gè)控制間隔（量級(jí)為數(shù)十毫秒），BRAIN 計(jì)算一個(gè)動(dòng)作 a a 以調(diào)整 RAN 切片策略。動(dòng)作空間包括調(diào)整每個(gè)切片的物理資源塊（PRB）分配比例（在 eMBB/URLLC/mMTC 之間劃分小區(qū)帶寬）以及為每個(gè)切片選擇調(diào)度算法（例如比例公平、輪詢(xún)或加權(quán)公平隊(duì)列）。這些指令通過(guò) O-RAN E2 控制消息（使用符合 O-RAN 規(guī)范的自定義控制服務(wù)模型）下發(fā)至 gNB，從而閉合控制環(huán)路。在此智能體部署中，xApp 自主地實(shí)時(shí)調(diào)整網(wǎng)絡(luò)參數(shù)以滿(mǎn)足切片服務(wù)等級(jí)目標(biāo)（SLO）。

切片特定的 QoS 優(yōu)先級(jí)被編碼到智能體的獎(jiǎng)勵(lì)（或效用）函數(shù)中以驅(qū)動(dòng)其行為。在我們的設(shè)計(jì)中，eMBB 切片以吞吐量為導(dǎo)向（智能體對(duì)高 eMBB 數(shù)據(jù)速率給予獎(jiǎng)勵(lì)），URLLC 切片對(duì)延遲敏感（智能體對(duì)較大的 URLLC 緩沖區(qū)占用率施加懲罰以最小化排隊(duì)延遲），而 mMTC 切片以可靠性為重點(diǎn)（智能體對(duì)成功傳輸 mMTC 傳輸塊給予獎(jiǎng)勵(lì)，這與間歇性物聯(lián)網(wǎng)流量的可靠覆蓋相關(guān)）。在這些目標(biāo)的引導(dǎo)下，BRAIN xApp 例如可以在擁塞期間為 URLLC 分配額外的 PRB 以迅速清空其隊(duì)列，或者當(dāng)間歇性上行數(shù)據(jù)包到達(dá)時(shí)將 mMTC 切片的調(diào)度器切換至更具機(jī)會(huì)性的模式。來(lái)自監(jiān)控 xApp 的持續(xù)更新的 KPM 狀態(tài)使 BRAIN 能夠驗(yàn)證切片性能指標(biāo)是否得到滿(mǎn)足，并在未滿(mǎn)足時(shí)快速做出反應(yīng)。

C. 基線(xiàn)智能體與訓(xùn)練方法論

調(diào)優(yōu)基線(xiàn)智能體。 為了評(píng)估我們的 BRAIN 智能體，我們將它與一套更廣泛的基線(xiàn)智能體進(jìn)行比較，包括學(xué)習(xí)到的策略和啟發(fā)式調(diào)度器。具體而言，我們實(shí)現(xiàn)了：? 調(diào)優(yōu)啟發(fā)式算法（Tuned Heuristic），它在切片之間靜態(tài)劃分 PRB（根據(jù)固定的優(yōu)先級(jí)權(quán)重）并使用加權(quán)輪詢(xún)調(diào)度器（一種非學(xué)習(xí)基線(xiàn)）；? 用于切片控制的深度 Q 網(wǎng)絡(luò)（DQN）智能體 [43]；? 優(yōu)勢(shì)演員 - 評(píng)論家（A2C）智能體 [44]；? 基礎(chǔ)策略梯度智能體（REINFORCE [45]）；? 近端策略?xún)?yōu)化（PPO）智能體 [46]；以及 ? 軟演員 - 評(píng)論家（SAC）智能體 [47]。所有基于學(xué)習(xí)的 xApp 觀(guān)測(cè)相同的狀態(tài)（切片 KPM 指標(biāo)）并產(chǎn)生相同類(lèi)型的動(dòng)作（PRB 分配和調(diào)度器選擇），如同 BRAIN 一樣，以確保公平比較。為了公平起見(jiàn)，我們還賦予每個(gè) RL 智能體一個(gè)可比的模型架構(gòu)（一個(gè) 5 層全連接神經(jīng)網(wǎng)絡(luò)，每層約 30 個(gè)神經(jīng)元）并相應(yīng)地調(diào)整其超參數(shù)（見(jiàn)表 I）。特別是，所有智能體都使用折扣因子 γ = 0.99 和量級(jí)為的學(xué)習(xí)率，其中在線(xiàn)策略方法（A2C, REINFORCE, PPO）依賴(lài)于新鮮的軌跡展開(kāi)（trajectory rollouts），而離線(xiàn)策略方法（DQN, SAC）利用經(jīng)驗(yàn)回放緩沖區(qū)。所有自定義智能體均使用 PyTorch 實(shí)現(xiàn)并作為容器化 xApp 部署，使其與 O-RAN 近實(shí)時(shí) RIC 平臺(tái)兼容。我們通過(guò)以在線(xiàn)學(xué)習(xí)的方式直接與我們的 RAN 測(cè)試床交互來(lái)訓(xùn)練每個(gè)智能體（智能體 xApp 在接收新觀(guān)測(cè)值和獎(jiǎng)勵(lì)時(shí)持續(xù)更新其策略）。為了確保評(píng)估公平，每個(gè)學(xué)習(xí)智能體都訓(xùn)練相同數(shù)量的時(shí)間步（量級(jí)為次環(huán)境交互，這相當(dāng)于在 20 ms 控制間隔下數(shù)小時(shí)的網(wǎng)絡(luò)時(shí)間）。我們?cè)诙鄠€(gè)隨機(jī)種子下重復(fù)每次訓(xùn)練實(shí)驗(yàn)（例如，每個(gè)智能體 5 次獨(dú)立運(yùn)行），并報(bào)告帶有 95% 置信區(qū)間的平均性能，以解釋隨機(jī)變異性。我們比較了訓(xùn)練迭代次數(shù)和實(shí)際掛鐘時(shí)間（wall-clock time）兩方面的收斂速度，因?yàn)橄?PPO 這樣的在線(xiàn)策略方法需要更多的交互但每步計(jì)算量較少，而像 SAC 這樣的離線(xiàn)策略方法可以從較少的交互中學(xué)習(xí)，但代價(jià)是更密集的更新。

訓(xùn)練。 為了用一個(gè)共同的標(biāo)量來(lái)表征所有控制器的探索 - 利用行為，我們報(bào)告訓(xùn)練期間的策略熵。對(duì)于每個(gè)回合（episode），我們計(jì)算用于在每個(gè)時(shí)間步生成決策的動(dòng)作選擇分布的香農(nóng)熵，并在整個(gè)回合中對(duì)其進(jìn)行平均：

VI、評(píng)估

分析智能智能體的性能。 圖 4 總結(jié)了 BRAIN 智能體與調(diào)優(yōu)啟發(fā)式基線(xiàn)以及各種深度強(qiáng)化學(xué)習(xí)（DRL）智能體（A2C、PPO、DQN、SAC、REINFORCE）在 AI-RAN 測(cè)試床中的訓(xùn)練性能。在圖 4a 中，BRAIN 智能體的獎(jiǎng)勵(lì)曲線(xiàn)陡峭上升，在遠(yuǎn)少于所有基線(xiàn)（包括調(diào)優(yōu)啟發(fā)式算法）的回合數(shù)內(nèi)收斂，并達(dá)到了更高的漸近獎(jiǎng)勵(lì)值。這表明 BRAIN 以顯著更高的樣本效率學(xué)習(xí)到了有效的策略；即從有限的交互中提取了更多的累積獎(jiǎng)勵(lì)。相比之下，DRL 智能體表現(xiàn)出較慢的獎(jiǎng)勵(lì)增長(zhǎng)和較低的平穩(wěn)期，反映了無(wú)模型強(qiáng)化學(xué)習(xí)（model-free RL）典型的繁重試錯(cuò)搜索特征。更快的獎(jiǎng)勵(lì)收斂意味著 BRAIN 能夠以遠(yuǎn)少于 DRL 基準(zhǔn)的訓(xùn)練數(shù)據(jù)獲得近優(yōu)控制決策——這在現(xiàn)實(shí)網(wǎng)絡(luò)中是一個(gè)關(guān)鍵優(yōu)勢(shì)，因?yàn)樵诂F(xiàn)實(shí)網(wǎng)絡(luò)中每個(gè)訓(xùn)練回合（例如，一段次優(yōu)決策的時(shí)隙）都具有切實(shí)的成本。圖 4b 繪制了平均訓(xùn)練損失，BRAIN 再次脫穎而出，在整個(gè)訓(xùn)練過(guò)程中呈現(xiàn)出明顯更低且更穩(wěn)定的損失軌跡。BRAIN 智能體的損失保持在比深度強(qiáng)化學(xué)習(xí)智能體低近一個(gè)數(shù)量級(jí)的水平，且顯示出極小的振蕩。這種穩(wěn)定性表明 BRAIN 的學(xué)習(xí)更新表現(xiàn)穩(wěn)健，防止了通常困擾 DRL 訓(xùn)練的大幅梯度擺動(dòng)或發(fā)散問(wèn)題。相比之下，RL 基線(xiàn)（尤其是像 DQN 或 REINFORCE 這樣波動(dòng)較大的算法）表現(xiàn)出較高的損失值和明顯的波動(dòng)，表明學(xué)習(xí)過(guò)程較不穩(wěn)定。RL 中的這種不穩(wěn)定性可能源于算法難以適應(yīng) RAN 的非平穩(wěn)動(dòng)態(tài)：當(dāng)環(huán)境的“規(guī)則”（例如，用戶(hù)負(fù)載、信道條件）持續(xù)變化時(shí)，傳統(tǒng)的 RL 智能體難以復(fù)用先驗(yàn)知識(shí)，可能需要反復(fù)重新學(xué)習(xí)。圖 4 展示了隨時(shí)間變化的策略熵，揭示了每個(gè)智能體的探索 - 利用平衡。BRAIN 的熵值起始較高（鼓勵(lì)探索），隨后隨著訓(xùn)練的進(jìn)行逐漸下降。重要的是，它從未坍縮至零；相反，BRAIN 的熵逐漸收斂至適中水平，表明這是一種受控的探索策略。這種穩(wěn)定的熵減表明 BRAIN 在早期系統(tǒng)性地探索動(dòng)作空間，然后在收斂時(shí)自信地利用其學(xué)習(xí)到的策略，且在此過(guò)程中并未過(guò)早地喪失其決策的多樣性。

切片性能。 圖 7 報(bào)告了三個(gè)異構(gòu)切片的 KPM 逐切片經(jīng)驗(yàn)累積分布函數(shù)（CDF），這些數(shù)據(jù)是在 AI-RAN 測(cè)試床上測(cè)量的，所有智能體使用相同的狀態(tài)/動(dòng)作接口。使用 CDF（而不僅僅是均值）很重要，因?yàn)樗沂玖宋膊啃袨楹涂煽啃裕篊DF 右移表明智能體更頻繁地實(shí)現(xiàn)更大的 KPM 值（“更好 →”），而更陡峭的 CDF 表明變異性降低（運(yùn)行更具可預(yù)測(cè)性）。圖 7a 顯示，與所有 DRL 基線(xiàn)和調(diào)優(yōu)啟發(fā)式算法相比，BRAIN 產(chǎn)生了最有利的吞吐量分布，表明其在幾乎所有運(yùn)行范圍內(nèi)都實(shí)現(xiàn)了更高的吞吐量。定性來(lái)看，BRAIN 不僅提高了中位吞吐量，還改善了上分位數(shù)，這表明智能體學(xué)習(xí)到的切片策略即使在滿(mǎn)足更嚴(yán)格的 URLLC/mMTC 要求的同時(shí)，也能保持 eMBB 容量。相比之下，基線(xiàn)算法表現(xiàn)出以下情況之一：i) 中位數(shù)較低，或 ii) 離散度較大，這意味著在相同的流量混合和控制預(yù)算下，eMBB 服務(wù)的一致性較差。圖 7b 報(bào)告了 URLLC PRB 比率（即通過(guò)切片和調(diào)度決策有效分配/可供 URLLC 使用的物理資源比例）的分布。較高的 URLLC PRB 比率 CDF 反映了對(duì) URLLC 更強(qiáng)的資源保護(hù)，這與在擁塞情況下滿(mǎn)足延遲敏感型目標(biāo)是一致的。BRAIN 表現(xiàn)出最右移的曲線(xiàn)，表明它在需要時(shí)能更可靠地分配/維持更高的 URLLC 資源份額。這種行為與具身主動(dòng)推理設(shè)計(jì)相一致：當(dāng)信念表明隊(duì)列壓力上升時(shí)，智能體的動(dòng)作后驗(yàn)（通過(guò) EFE 形成）自然會(huì)提高對(duì) URLLC 保護(hù)性動(dòng)作的精度，而不是依賴(lài)脆弱的獎(jiǎng)勵(lì)塑形或間歇性的重新訓(xùn)練。幾個(gè) DRL 基線(xiàn)（特別是 REINFORCE 和調(diào)優(yōu)啟發(fā)式算法）在較低的 PRB 比率處顯示出明顯更多的質(zhì)量分布，這通常對(duì)應(yīng)于 URLLC 配置不足的時(shí)期，因此更容易受到隊(duì)列堆積和延遲違規(guī)的影響。圖 7c 比較了 mMTC 切片交付的下行 PHY TB（傳輸塊）分布，我們?cè)谠O(shè)置中將其用作面向可靠性的代理指標(biāo)（成功的 TB 交付反映了對(duì)間歇性物聯(lián)網(wǎng)/遙測(cè)流量的持續(xù)服務(wù)）。與 DRL 基線(xiàn)相比，BRAIN 在 TB 分布方面提供了適度但一致的改進(jìn)，表明在不犧牲 eMBB 吞吐量或 URLLC 保護(hù)的情況下提高了可靠性。重要的是，低性能尾部得到了減少：BRAIN 產(chǎn)生的“近乎饑餓”間隔（極低的 TB 速率）更少，這對(duì)于 mMTC 至關(guān)重要，因?yàn)殚g歇性突發(fā)流量仍必須得到可預(yù)測(cè)的交付。

除了平均獎(jiǎng)勵(lì)外，我們還評(píng)估了控制器在分布偏移下是否能維持切片特定的服務(wù)保障。具體來(lái)說(shuō)，我們測(cè)量了每個(gè)智能體在受控非平穩(wěn)事件發(fā)生前后，將所有切片保持在 QoS 目標(biāo)內(nèi)的可靠性。在圖 8 中，在非平穩(wěn)事件發(fā)生之前，BRAIN 實(shí)現(xiàn)了最高的全切片 QoS 滿(mǎn)意度，表明它在標(biāo)稱(chēng)狀態(tài)下最一致地將所有切片約束保持在目標(biāo)范圍內(nèi)。在處，由于流量激增，所有基于學(xué)習(xí)的智能體都表現(xiàn)出 QoS Sat( t ) 的急劇下降；然而，BRAIN 表現(xiàn)出最小的退化以及向偏移前水平最快的恢復(fù)。相比之下，DRL 基線(xiàn)在偏移后遭受了更大的下降且恢復(fù)較慢，穩(wěn)定在較低的 QoS 滿(mǎn)意度水平；這與分布偏移下適應(yīng)性降低和部分遺忘相一致。調(diào)優(yōu)啟發(fā)式算法在整個(gè)過(guò)程中基本保持平坦且遠(yuǎn)低于學(xué)習(xí)到的智能體，證實(shí)了靜態(tài)切片策略無(wú)法對(duì)突發(fā)的機(jī)制變化做出反應(yīng)。

VII、結(jié)論

本工作表明，深度主動(dòng)推理不僅概念上契合移動(dòng)網(wǎng)絡(luò)中智能體與具身智能的需求，而且在實(shí)際的開(kāi)放 AI-RAN 棧上也是一種可行的控制范式。我們提出了 BRAIN 作為一種 xApp，它通過(guò)兩個(gè)緊密耦合的操作閉合了網(wǎng)絡(luò)行動(dòng) - 感知環(huán)路：（i）基于流式 KPM 數(shù)據(jù)對(duì)潛在切片條件進(jìn)行貝葉斯信念更新，以及（ii）通過(guò)最小化期望自由能來(lái)選擇資源分配動(dòng)作，以同時(shí)滿(mǎn)足切片意圖并減少不確定性。在配備異構(gòu)切片的 GPU 加速 AI-RAN 測(cè)試床上，BRAIN 取得了三項(xiàng)具體成果。首先，相較于調(diào)優(yōu)啟發(fā)式算法和廣泛的 DRL 基線(xiàn)，它實(shí)現(xiàn)了更強(qiáng)的切片性能。其次，它在非平穩(wěn)條件下提供了魯棒的適應(yīng)能力：當(dāng)流量分布突然變化時(shí)，BRAIN 表現(xiàn)出最小的 QoS 滿(mǎn)意度退化以及最快的恢復(fù)速度，且無(wú)需重新訓(xùn)練。第三，它在運(yùn)行時(shí)提供了面向運(yùn)營(yíng)商的可解釋性。除了實(shí)證優(yōu)勢(shì)外，更廣泛的啟示在于：主動(dòng)推理通過(guò)將決策建立在原則性的貝葉斯信念更新而非獎(jiǎng)勵(lì)工程之上，實(shí)現(xiàn)了真正意義上的智能體化、具身化控制。

對(duì)于未來(lái)工作，有前景的方向包括將該框架擴(kuò)展到 O-RAN 中分層、多時(shí)間尺度的主動(dòng)推理，其中近實(shí)時(shí) xApp 在結(jié)構(gòu)化生成模型的支持下，在非實(shí)時(shí)意圖與策略協(xié)調(diào)的框架下運(yùn)行。另一個(gè)重要的研究方向是擴(kuò)展到多小區(qū)與多智能體部署，實(shí)現(xiàn)在干擾與移動(dòng)性耦合條件下的 xApp 間協(xié)調(diào)，并研究在真實(shí)遙測(cè)與前傳約束下的分布式信念共享機(jī)制。

原文鏈接：https://arxiv.org/pdf/2602.14033

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.