大腦:通過(guò)主動(dòng)推理對(duì)移動(dòng)網(wǎng)絡(luò)中的代理智能和體現(xiàn)智能進(jìn)行貝葉斯推理
BRAIN: Bayesian Reasoning via Active Inference for Agentic an Embodied Intelligence in Mobile Networks
https://arxiv.org/pdf/2602.14033
![]()
摘要
未來(lái)的第六代(6G)移動(dòng)網(wǎng)絡(luò)將需要這樣的人工智能(AI)智能體:它們不僅具備自主性與高效性,還能夠在動(dòng)態(tài)環(huán)境中實(shí)現(xiàn)實(shí)時(shí)適應(yīng),并在決策過(guò)程中保持透明性。然而,當(dāng)前網(wǎng)絡(luò)領(lǐng)域中主流的智能體人工智能方法在這方面仍存在顯著不足。傳統(tǒng)的基于深度強(qiáng)化學(xué)習(xí)(DRL)的智能體缺乏可解釋性,且往往表現(xiàn)出脆弱的適應(yīng)能力,包括在非平穩(wěn)條件下對(duì)已有知識(shí)的災(zāi)難性遺忘。在本文中,我們針對(duì)上述挑戰(zhàn)提出了一種替代性解決方案:通過(guò)主動(dòng)推理(Active Inference)實(shí)現(xiàn)貝葉斯推理的 BRAIN 智能體(Bayesian Reasoning via Active Inference Agent)。BRAIN 利用對(duì)網(wǎng)絡(luò)環(huán)境的深度生成模型,并通過(guò)最小化變分自由能,在單一的閉環(huán)范式中統(tǒng)一感知與行動(dòng)。我們將 BRAIN 實(shí)現(xiàn)為 O-RAN 擴(kuò)展應(yīng)用(xApp),部署于 GPU 加速測(cè)試平臺(tái),并驗(yàn)證了其相較于標(biāo)準(zhǔn) DRL 基線(xiàn)方法的優(yōu)勢(shì)。實(shí)驗(yàn)結(jié)果表明,BRAIN 展現(xiàn)出:(i)針對(duì)動(dòng)態(tài)無(wú)線(xiàn)資源分配的穩(wěn)健因果推理能力,能夠在變化的流量負(fù)載下維持網(wǎng)絡(luò)切片特定的服務(wù)質(zhì)量(QoS)目標(biāo)(吞吐量、時(shí)延、可靠性);(ii)卓越的適應(yīng)能力,相較于基準(zhǔn)方法,對(duì)突發(fā)流量變化的魯棒性提升高達(dá) 28.3%(且無(wú)需任何重新訓(xùn)練);(iii)通過(guò)人類(lèi)可理解的信念狀態(tài)診斷,實(shí)現(xiàn)其決策過(guò)程的實(shí)時(shí)可解釋性。
索引術(shù)語(yǔ)——主動(dòng)推理,具身人工智能(Embodied-AI),移動(dòng)網(wǎng)絡(luò),可信賴(lài)性,6G。
I、引言
近年來(lái),人工智能(AI)取得了顯著進(jìn)展,從利用強(qiáng)化學(xué)習(xí)(RL)掌握復(fù)雜游戲與控制任務(wù),到借助大語(yǔ)言模型(LLM)與生成式人工智能(Generative AI)產(chǎn)出類(lèi)人內(nèi)容。然而,這些成就在很大程度上仍是"去具身化"(disembodied)的:模型運(yùn)行于仿真環(huán)境或數(shù)據(jù)驅(qū)動(dòng)的領(lǐng)域之中,缺乏直接的物理根基。例如,大語(yǔ)言模型擅長(zhǎng)從靜態(tài)數(shù)據(jù)集中進(jìn)行模式識(shí)別與內(nèi)容生成,卻無(wú)法與動(dòng)態(tài)變化的環(huán)境進(jìn)行交互。類(lèi)似地,深度強(qiáng)化學(xué)習(xí)(DRL)智能體通常在精心設(shè)計(jì)的仿真環(huán)境中訓(xùn)練,依賴(lài)固定的獎(jiǎng)勵(lì)函數(shù),一旦面對(duì)訓(xùn)練分布之外的真實(shí)世界動(dòng)態(tài),往往難以有效應(yīng)對(duì)。本質(zhì)上,當(dāng)今的人工智能系統(tǒng)尚不具備具身智能體所特有的整體性、自適應(yīng)智能——即能夠在真實(shí)世界中持續(xù)地感知、行動(dòng)與學(xué)習(xí)的能力 [1]。
這一差距在新興的第六代(6G)及未來(lái)網(wǎng)絡(luò)的背景下變得尤為關(guān)鍵 [2]。這些未來(lái)網(wǎng)絡(luò)預(yù)計(jì)將連接數(shù)百億臺(tái)設(shè)備,并支持具有嚴(yán)格性能需求的前所未有的服務(wù),這就需要原生 AI 設(shè)計(jì)原則,將學(xué)習(xí)和控制智能緊密集成到基礎(chǔ)設(shè)施中 [2, 3]。無(wú)線(xiàn)環(huán)境本質(zhì)上是復(fù)雜且非平穩(wěn)的:信道條件、用戶(hù)移動(dòng)性和流量模式不斷波動(dòng) [4]。此外,6G 必須滿(mǎn)足不同用例中多樣化的服務(wù)質(zhì)量(QoS)/體驗(yàn)質(zhì)量(QoE)要求 [5]。然而,迄今為止大多數(shù)“啟用 AI"的網(wǎng)絡(luò)解決方案只是將現(xiàn)成的深度學(xué)習(xí)模型(例如卷積網(wǎng)絡(luò) [6] 或深度自動(dòng)編碼器 [7])應(yīng)用于特定任務(wù),而沒(méi)有從根本上重新思考網(wǎng)絡(luò)的認(rèn)知架構(gòu) [8]。雖然這些模型可以從歷史數(shù)據(jù)中學(xué)習(xí)映射關(guān)系,但當(dāng)網(wǎng)絡(luò)條件偏離訓(xùn)練集時(shí),它們往往無(wú)法泛化。強(qiáng)化學(xué)習(xí)(RL)通過(guò)使 AI 能夠通過(guò)與環(huán)境的直接交互進(jìn)行學(xué)習(xí),引入了一定程度的代理性 [9]。確實(shí),基于深度強(qiáng)化學(xué)習(xí)(DRL)的實(shí)現(xiàn)已在無(wú)線(xiàn)領(lǐng)域展現(xiàn)出前景,解決了從動(dòng)態(tài)頻譜分配和功率控制到切換優(yōu)化和端到端網(wǎng)絡(luò)切片等問(wèn)題 [10–12]。然而,傳統(tǒng)的 DRL 解決方案存在兩個(gè)主要缺點(diǎn),限制了它們作為自主 6G 網(wǎng)絡(luò)“大腦”的適用性。首先,DRL 策略通常由深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn),這些網(wǎng)絡(luò)充當(dāng)不透明的黑盒 [13]。其次,標(biāo)準(zhǔn) DRL 對(duì)變化條件的適應(yīng)能力非常有限 [14]。一旦 DRL 智能體針對(duì)給定環(huán)境或流量場(chǎng)景進(jìn)行了訓(xùn)練,它往往會(huì)對(duì)這些條件過(guò)擬合。神經(jīng)策略容易發(fā)生災(zāi)難性遺忘:當(dāng)在新數(shù)據(jù)上學(xué)習(xí)或微調(diào)時(shí),它們會(huì)覆蓋先前學(xué)到的行為 [4]。圖 1 說(shuō)明了網(wǎng)絡(luò)切片場(chǎng)景中的這一挑戰(zhàn):基線(xiàn) DRL 智能體一旦適應(yīng)了超可靠低延遲通信(URLLC)切片,就會(huì)迅速“忘記”如何服務(wù)增強(qiáng)移動(dòng)寬帶(eMBB)切片,反之亦然,這就需要針對(duì)先前條件的每次重現(xiàn)進(jìn)行昂貴的重新學(xué)習(xí)。
這些局限性表明需要從根本上重新構(gòu)想網(wǎng)絡(luò) AI。越來(lái)越多的共識(shí)認(rèn)為,下一代網(wǎng)絡(luò)應(yīng)納入更高級(jí)的認(rèn)知能力;集成記憶、感知和推理元素,而不是僅僅依賴(lài)低級(jí)模式識(shí)別 [8, 15]。本質(zhì)上,此類(lèi)系統(tǒng)中的 AI 智能體不再僅僅是離線(xiàn)模型,而是物理網(wǎng)絡(luò)環(huán)境中的積極參與者。這種智能體愿景自然地將主動(dòng)推理引為網(wǎng)絡(luò)智能更有希望的下一步。主動(dòng)推理被描述為實(shí)現(xiàn)此類(lèi)具身 AI 的理想框架,因?yàn)樗律啬M了自然智能系統(tǒng)如何通過(guò)基于自由能原理的行動(dòng) - 感知循環(huán)進(jìn)行學(xué)習(xí)和適應(yīng) [16]。主動(dòng)推理最初開(kāi)發(fā)于認(rèn)知神經(jīng)科學(xué)領(lǐng)域 [17],提供了基于貝葉斯推理的感知、學(xué)習(xí)和行動(dòng)的統(tǒng)一理論。與傳統(tǒng) RL 相比,主動(dòng)推理智能體不依賴(lài)手工制作的獎(jiǎng)勵(lì)信號(hào);相反,它維護(hù)其環(huán)境和期望結(jié)果的內(nèi)部生成模型。智能體不斷更新其關(guān)于世界隱藏狀態(tài)的信念(感知),并通過(guò)最小化變分自由能來(lái)選擇行動(dòng)以實(shí)現(xiàn)其目標(biāo);變分自由能是智能體期望與其觀(guān)察之間預(yù)測(cè)誤差或“驚喜”的度量。本質(zhì)上,智能體試圖預(yù)測(cè)應(yīng)該發(fā)生什么(給定其模型和目標(biāo)),然后采取行動(dòng)使現(xiàn)實(shí)與這些期望保持一致,從而減少驚喜。
在本文中,我們?cè)?AI-RAN 測(cè)試床上引入了一種用于移動(dòng)網(wǎng)絡(luò)資源管理的可解釋深度主動(dòng)推理智能體。本工作是當(dāng)前正在審查的一篇研討會(huì)論文的詳細(xì)和擴(kuò)展版本。除了原始核心概念外,我們 i) 通過(guò)額外的高級(jí)智能體基線(xiàn)和詳細(xì)的消融實(shí)驗(yàn)拓寬了實(shí)驗(yàn)深度,ii) 在所有智能體上添加了受控的非平穩(wěn)性壓力測(cè)試以量化魯棒性和恢復(fù)能力,以及 iii) 包含策略熵分析以使 DRL 和主動(dòng)推理之間的探索 - 利用動(dòng)態(tài)具有可比性,同時(shí)擴(kuò)展了章節(jié)和討論。我們將我們的框架稱(chēng)為 BRAIN(通過(guò)主動(dòng)推理進(jìn)行貝葉斯推理),將其設(shè)想為原生 AI RAN 控制器的“電信大腦”。圖 2 對(duì)比了傳統(tǒng) DRL 智能體的范式與我們提出的 BRAIN 智能體的范式。BRAIN 架構(gòu)采用深度生成主動(dòng)推理模型來(lái)設(shè)計(jì)潛在網(wǎng)絡(luò)狀態(tài)(例如擁塞水平、信道條件、用戶(hù)移動(dòng)性)與觀(guān)察到的性能指標(biāo)之間的關(guān)系,同時(shí)將期望結(jié)果(例如切片特定的 QoS 目標(biāo))編碼為先驗(yàn)信念。在每個(gè)控制間隔,智能體通過(guò)最小化變分自由能執(zhí)行主動(dòng)推理:它推斷最可能的當(dāng)前網(wǎng)絡(luò)狀態(tài)(感知步驟),然后計(jì)算最優(yōu)資源分配動(dòng)作(動(dòng)作步驟),這將推動(dòng)網(wǎng)絡(luò)的預(yù)測(cè)性能更接近目標(biāo)(即糾正預(yù)期結(jié)果與期望結(jié)果之間的偏差)。這種推理和行動(dòng)的循環(huán)有效地允許 BRAIN 同時(shí)執(zhí)行在線(xiàn)學(xué)習(xí)和控制。與每當(dāng)環(huán)境變化就需要重新訓(xùn)練的 DRL 智能體不同,BRAIN 隨著新觀(guān)察的到來(lái)實(shí)時(shí)連續(xù)更新其信念,賦予其一種優(yōu)雅處理分布偏移的終身學(xué)習(xí)形式。此外,由于我們智能體的內(nèi)部計(jì)算圍繞概率信念和自由能貢獻(xiàn)展開(kāi),我們可以利用這些中間結(jié)果來(lái)理解和解釋其行為。我們研究的核心成果總結(jié)為新的貢獻(xiàn)("C")和新的發(fā)現(xiàn)("F"),如下所示:
C1. 我們引入了 BRAIN,這是 O-RAN 中首個(gè)用于 AI-RAN 閉環(huán) RAN 切片的深度主動(dòng)推理智能體。 C2. 我們?cè)O(shè)計(jì)了內(nèi)在可解釋的 BRAIN 智能體,通過(guò)暴露潛在切片條件的后驗(yàn)信念和期望自由能(EFE)分解,根據(jù)目標(biāo)一致性(外在)和不確定性減少(認(rèn)知)來(lái)證明每個(gè)動(dòng)作的合理性。 F1. 在動(dòng)態(tài)切片實(shí)驗(yàn)中,BRAIN 展示了對(duì)非平穩(wěn)條件的持續(xù)適應(yīng)能力。BRAIN 在動(dòng)態(tài)負(fù)載下更可靠地維持異構(gòu)切片意圖。 F2. 與黑盒 DRL 不同,BRAIN 暴露了可解釋的內(nèi)部變量,能夠?yàn)橘Y源分配決策提供因果的和可審計(jì)的解釋。
II、相關(guān)工作
本節(jié)將 BRAIN 置于支撐移動(dòng)網(wǎng)絡(luò)中智能體智能的三個(gè)互補(bǔ)研究脈絡(luò)之中。首先,我們回顧強(qiáng)化學(xué)習(xí)(RL)/深度強(qiáng)化學(xué)習(xí)(DRL)如何被應(yīng)用于網(wǎng)絡(luò)控制與編排,特別是在開(kāi)放無(wú)線(xiàn)接入網(wǎng)(O-RAN)和網(wǎng)絡(luò)切片領(lǐng)域,作為當(dāng)前實(shí)踐中占主導(dǎo)地位的智能體范式。其次,我們總結(jié)無(wú)線(xiàn)人工智能中的可解釋性研究工作,包括可解釋人工智能(XAI)和新興的可解釋強(qiáng)化學(xué)習(xí)(XRL)方法,著重指出可解釋性通常是以事后(post hoc)方式引入,而非決策過(guò)程的內(nèi)在組成部分。第三,我們討論主動(dòng)推理作為一種具身智能框架,它通過(guò)概率生成建模與變分推斷統(tǒng)一感知與行動(dòng),并指出迄今為止在通信系統(tǒng)中部署具備面向運(yùn)營(yíng)商解釋能力的深度主動(dòng)推理的實(shí)證證據(jù)仍然有限。綜合這些研究工作,可以明確我們方法所針對(duì)的方法論缺口:一種內(nèi)在可解釋、持續(xù)自適應(yīng)的智能體,用于實(shí)時(shí)移動(dòng)網(wǎng)絡(luò)控制。
移動(dòng)網(wǎng)絡(luò)中的強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)以及深度強(qiáng)化學(xué)習(xí)模型已被越來(lái)越多地應(yīng)用于無(wú)線(xiàn)網(wǎng)絡(luò)中的動(dòng)態(tài)資源管理與控制任務(wù)。Liu 等人 [11] 提出了 OnSlicing,一個(gè)用于跨 RAN、傳輸、核心網(wǎng)與邊緣域端到端網(wǎng)絡(luò)切片的在線(xiàn) DRL 框架。ORANSlice [12] 是一個(gè)面向 O-RAN 生態(tài)系統(tǒng)的開(kāi)源模塊化 5G 網(wǎng)絡(luò)切片平臺(tái),它在靈活框架內(nèi)集成了切片生命周期管理、資源編排、監(jiān)控與分析功能。雖然 RL 策略可以帶來(lái)顯著的效率提升,但其不透明性——通常表現(xiàn)為"黑盒"神經(jīng)網(wǎng)絡(luò)——阻礙了理解與調(diào)試,限制了實(shí)際部署。因此,近期研究開(kāi)始探索 XRL 方法論,通過(guò)顯式闡明策略決策與學(xué)習(xí)行為來(lái)提升透明度。
移動(dòng)網(wǎng)絡(luò)中的可解釋人工智能。為克服透明度問(wèn)題,研究人員已將可解釋人工智能(XAI)技術(shù) [18, 19] 引入移動(dòng)網(wǎng)絡(luò)領(lǐng)域 [20]。近年來(lái),多項(xiàng)工作探索使用流行的 XAI 方法(例如 SHAP [21] 和 LIME [22])來(lái)解釋無(wú)線(xiàn)網(wǎng)絡(luò)任務(wù)中的復(fù)雜模型 [23–25]。盡管有用,但此類(lèi)通用 XAI 方法已被證明不足以滿(mǎn)足移動(dòng)網(wǎng)絡(luò)的需求:它們僅提供表層洞察,且往往難以應(yīng)對(duì)網(wǎng)絡(luò)數(shù)據(jù)的時(shí)間性與高維特性。認(rèn)識(shí)到這些缺口,部分研究已開(kāi)始針對(duì)無(wú)線(xiàn)通信領(lǐng)域探索特定領(lǐng)域的 XAI 與內(nèi)在可解釋模型。研究人員為網(wǎng)絡(luò)流量模型引入了定制的時(shí)間序列解釋器,用于追蹤特征重要性隨時(shí)間的演變,并識(shí)別導(dǎo)致誤差的異常模式 [26, 27]。總體而言,這些努力強(qiáng)調(diào):無(wú)線(xiàn)人工智能中的可解釋性可能需要專(zhuān)家驅(qū)動(dòng)的設(shè)計(jì),以滿(mǎn)足網(wǎng)絡(luò)運(yùn)營(yíng)對(duì)可靠性與洞察力的需求。值得注意的是,XRL 在其他領(lǐng)域(如機(jī)器人與自主系統(tǒng))也逐漸受到關(guān)注,旨在從 RL 智能體中提取人類(lèi)可理解的策略。然而,在無(wú)線(xiàn)網(wǎng)絡(luò)文獻(xiàn)中,可解釋 RL 或 DRL 迄今仍鮮有探索。一個(gè)值得注意的方法是 SYMBXRL [28],它在黑盒 DRL 模型之上引入了符號(hào)解釋層。在該框架中,符號(hào)表示生成器將數(shù)值型狀態(tài)與動(dòng)作變量轉(zhuǎn)換為離散的一階邏輯謂詞。相比之下,我們提出的框架采用了一種根本不同的范式:將可解釋性直接嵌入智能體的生成與推理過(guò)程之中。因此,仍然存在對(duì)新方法的顯著需求,以解釋并論證不同學(xué)習(xí)智能體行為的合理性。
主動(dòng)推理。近年來(lái),主動(dòng)推理已被應(yīng)用于工程領(lǐng)域,在不確定性下的狀態(tài)估計(jì)、規(guī)劃與控制方面展現(xiàn)出潛力 [29]。這些早期研究表明,主動(dòng)推理可以作為一種靈活、受生物啟發(fā)的序列決策方法,區(qū)別于強(qiáng)化學(xué)習(xí) [30]。需要注意的是,用于未知環(huán)境中自適應(yīng)決策的 RL 形式化方法可被主動(dòng)推理所涵蓋。研究人員已將主動(dòng)推理應(yīng)用于機(jī)器人控制任務(wù),其中智能體的生成模型使其能夠處理模糊的感官輸入,同時(shí)仍能追求目標(biāo)導(dǎo)向的行為 [31, 32]。主動(dòng)推理一個(gè)引人關(guān)注的方面是其內(nèi)置可解釋性的潛力,盡管這一方面尚未得到具體驗(yàn)證 [16, 33]。
III、智能體 AI 設(shè)計(jì)的問(wèn)題建模
A. 強(qiáng)化學(xué)習(xí)
![]()
![]()
![]()
![]()
![]()
B. 主動(dòng)推理
主動(dòng)推理是一種源于認(rèn)知神經(jīng)科學(xué)的新型決策范式,它提供了一種在不確定性下行動(dòng)與感知的統(tǒng)一方法 [34]。不同于純粹從外部獎(jiǎng)勵(lì)反饋中學(xué)習(xí)策略,主動(dòng)推理智能體利用其環(huán)境的內(nèi)部生成模型,并采取行動(dòng)以最小化其觀(guān)測(cè)值的“驚喜”(即預(yù)測(cè)誤差)。在我們的場(chǎng)景中,這意味著智能體(即我們的 BRAIN xApp)被設(shè)計(jì)為具備關(guān)于 RAN 切片系統(tǒng)的先驗(yàn)期望;例如,URLLC 切片的緩沖區(qū)應(yīng)保持低位(以表示低延遲),而 eMBB 切片的吞吐量應(yīng)保持高位。隨后,智能體持續(xù)調(diào)整其動(dòng)作,使觀(guān)測(cè)到的切片性能與這些內(nèi)部期望保持一致,從而減少相對(duì)于期望行為的意外偏差。在數(shù)學(xué)上,主動(dòng)推理將閉環(huán)控制問(wèn)題表述為變分推斷過(guò)程。智能體具備 RAN 環(huán)境的概率生成模型,并將真實(shí)網(wǎng)絡(luò)狀態(tài)視為待推斷的潛在(隱藏)變量。我們可以通過(guò)聯(lián)合分布,在時(shí)間范圍 T T上形式化該生成模型:
![]()
![]()
![]()
![]()
![]()
![]()
![]()
總之,我們基于主動(dòng)推理的控制器持續(xù)更新其對(duì)無(wú)線(xiàn)接入網(wǎng)切片的內(nèi)在模型,并選擇能夠最小化預(yù)期自由能的資源控制動(dòng)作。這形成了一種閉環(huán)行為,其中智能體通過(guò)確保切片性能達(dá)到目標(biāo)要求,力求使其觀(guān)測(cè)結(jié)果不產(chǎn)生意外。值得注意的是,該框架自然地處理了部分可觀(guān)測(cè)性問(wèn)題(將真實(shí)的網(wǎng)絡(luò)狀況視為待推斷的潛在變量),并通過(guò)內(nèi)置的偏好編碼來(lái)適應(yīng)多個(gè)切片目標(biāo)(每個(gè)切片的服務(wù)質(zhì)量目標(biāo)在智能體模型中體現(xiàn)為首選結(jié)果)。其成果是一種有原則的控制策略,與標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)不同,該策略不需要為每個(gè)場(chǎng)景定義外部獎(jiǎng)勵(lì)函數(shù),而是源于智能體最小化預(yù)測(cè)誤差和維護(hù)其建模服務(wù)目標(biāo)的內(nèi)在驅(qū)動(dòng)力。
IV、可解釋深度主動(dòng)推理設(shè)計(jì)
A. 生成模型設(shè)計(jì)
![]()
![]()
B. 基于自由能最小化的變分推斷與策略選擇
![]()
![]()
![]()
C. 作為期望自由能最小化的動(dòng)作選擇
![]()
![]()
![]()
D. 決策的內(nèi)省可解釋性
在每個(gè)時(shí)間步 t ,BRAIN 智能體維護(hù)關(guān)于潛在切片狀態(tài) 的后驗(yàn)信念分布(例如,每個(gè)切片的當(dāng)前需求水平或可靠性)。我們將此信念表示為:
![]()
![]()
![]()
![]()
![]()
![]()
V、實(shí)驗(yàn)設(shè)計(jì)
A. GPU 加速的 AI-RAN 測(cè)試床
我們部署了一個(gè)私有 5G 測(cè)試床(見(jiàn)圖 3),其特點(diǎn)是基于 NVIDIA Aerial Research Cloud (ARC) 平臺(tái) [36, 37] 和 Aerial SDK [38] 構(gòu)建的 GPU 加速 O-RAN 架構(gòu)。在我們的設(shè)置中,gNB 的協(xié)議棧被拆分為運(yùn)行在 NVIDIA GPU 上的 O-DU Low(Layer-1 PHY,即物理層)和運(yùn)行在配備 OpenAirInterface (OAI) [39] 的 x86 CPU 上的 O-DU High/CU(高層協(xié)議)。這兩部分通過(guò)小基站論壇(Small Cell Forum)的 FAPI 接口進(jìn)行通信,使得物理層 DSP 任務(wù)能夠在 GPU 上進(jìn)行內(nèi)聯(lián)加速,同時(shí)為 MAC/RLC/PDCP/RRC 層保持標(biāo)準(zhǔn)的 OAI 軟件棧。在 n78 TDD 頻段(中頻段 FR1)運(yùn)行的富士康 O-RU [40] 提供射頻前端,通過(guò)標(biāo)準(zhǔn)的 O-RAN 7.2 前傳接口連接。該 O-RU 在 TDD 模式下支持 100 MHz 信道帶寬(30 kHz 子載波間隔下的 273 個(gè) PRB),其 TDD 模式根據(jù) 3GPP Release 15 規(guī)范配置(例如,DDDSU 時(shí)隙)。該測(cè)試床配備了商用和軟件化 UE(用戶(hù)設(shè)備)以生成多切片流量。具體而言,我們使用一款 COTS(商用現(xiàn)成)5G UE(Sierra Wireless EM9191 調(diào)制解調(diào)器模塊)和一個(gè)基于 OAI 的軟件 UE(nrUE)作為兩個(gè)終端設(shè)備。
![]()
Sierra Wireless EM9191 提供了真正的 5G NR 用戶(hù)設(shè)備,通過(guò)空中接口(over-the-air)連接到 gNB。OAI nrUE 是一個(gè)軟件 UE 協(xié)議棧(也在配備 SDR 前端的服務(wù)器上運(yùn)行),它仿真第二個(gè) 5G UE,允許對(duì)其流量和切片配置進(jìn)行細(xì)粒度控制。兩個(gè) UE 都支持并發(fā)建立多個(gè) PDU 會(huì)話(huà),我們將這些會(huì)話(huà)映射到不同的網(wǎng)絡(luò)切片(如下所述)。
B. 用例:智能編排
我們考慮一個(gè)多切片 RAN 場(chǎng)景,其中智能 xApp 作為自主智能體部署,用于閉環(huán)切片資源編排。O-RAN 近實(shí)時(shí) RIC(Near-RT RIC)承載我們的 BRAIN xApp,該 xApp 觀(guān)察網(wǎng)絡(luò)狀態(tài)并動(dòng)態(tài)控制服務(wù)于多個(gè)切片的 gNB。在我們的設(shè)置中,單個(gè) 100 MHz 小區(qū)(一個(gè) O-RU/gNB)為兩個(gè)用戶(hù)設(shè)備(UE)提供三種切片類(lèi)型的服務(wù);eMBB、URLLC 和海量 mMTC 各自具有不同的 QoS 要求(eMBB 需要高吞吐量,URLLC 需要低延遲,mMTC 需要高可靠性)。gNB 的 MAC 層具備切片感知能力,為每個(gè)切片維護(hù)獨(dú)立的緩沖區(qū)和調(diào)度器隊(duì)列,而各個(gè) UE 為其相應(yīng)切片生成流量(例如,一個(gè) UE 通過(guò)獨(dú)立的 PDU 會(huì)話(huà)在 eMBB 上承載視頻流、在 URLLC 上承載實(shí)時(shí)控制流,而另一個(gè)則在 mMTC 上承載間歇性的物聯(lián)網(wǎng)遙測(cè)數(shù)據(jù))。這為 xApp 智能體進(jìn)行智能編排構(gòu)成了一個(gè)豐富的環(huán)境。
BRAIN xApp 通過(guò) O-RAN E2 接口持續(xù)監(jiān)控切片性能。一個(gè)輕量級(jí)的 KPM 監(jiān)控 xApp 流式傳輸實(shí)時(shí)遙測(cè)數(shù)據(jù) [41],例如切片特定的下行吞吐量、緩沖區(qū)占用率(隊(duì)列長(zhǎng)度)和下行傳輸塊計(jì)數(shù),并將其送入 RIC 的數(shù)據(jù)層(使用標(biāo)準(zhǔn) O-RAN KPM 服務(wù)模型)。這些指標(biāo)在先前工作 [42] 中已被證明能有效捕捉切片流量需求與 QoS 狀況,構(gòu)成了我們智能體所觀(guān)測(cè)的狀態(tài) s s。在每個(gè)控制間隔(量級(jí)為數(shù)十毫秒),BRAIN 計(jì)算一個(gè)動(dòng)作 a a 以調(diào)整 RAN 切片策略。動(dòng)作空間包括調(diào)整每個(gè)切片的物理資源塊(PRB)分配比例(在 eMBB/URLLC/mMTC 之間劃分小區(qū)帶寬)以及為每個(gè)切片選擇調(diào)度算法(例如比例公平、輪詢(xún)或加權(quán)公平隊(duì)列)。這些指令通過(guò) O-RAN E2 控制消息(使用符合 O-RAN 規(guī)范的自定義控制服務(wù)模型)下發(fā)至 gNB,從而閉合控制環(huán)路。在此智能體部署中,xApp 自主地實(shí)時(shí)調(diào)整網(wǎng)絡(luò)參數(shù)以滿(mǎn)足切片服務(wù)等級(jí)目標(biāo)(SLO)。
切片特定的 QoS 優(yōu)先級(jí)被編碼到智能體的獎(jiǎng)勵(lì)(或效用)函數(shù)中以驅(qū)動(dòng)其行為。在我們的設(shè)計(jì)中,eMBB 切片以吞吐量為導(dǎo)向(智能體對(duì)高 eMBB 數(shù)據(jù)速率給予獎(jiǎng)勵(lì)),URLLC 切片對(duì)延遲敏感(智能體對(duì)較大的 URLLC 緩沖區(qū)占用率施加懲罰以最小化排隊(duì)延遲),而 mMTC 切片以可靠性為重點(diǎn)(智能體對(duì)成功傳輸 mMTC 傳輸塊給予獎(jiǎng)勵(lì),這與間歇性物聯(lián)網(wǎng)流量的可靠覆蓋相關(guān))。在這些目標(biāo)的引導(dǎo)下,BRAIN xApp 例如可以在擁塞期間為 URLLC 分配額外的 PRB 以迅速清空其隊(duì)列,或者當(dāng)間歇性上行數(shù)據(jù)包到達(dá)時(shí)將 mMTC 切片的調(diào)度器切換至更具機(jī)會(huì)性的模式。來(lái)自監(jiān)控 xApp 的持續(xù)更新的 KPM 狀態(tài)使 BRAIN 能夠驗(yàn)證切片性能指標(biāo)是否得到滿(mǎn)足,并在未滿(mǎn)足時(shí)快速做出反應(yīng)。
C. 基線(xiàn)智能體與訓(xùn)練方法論
調(diào)優(yōu)基線(xiàn)智能體。 為了評(píng)估我們的 BRAIN 智能體,我們將它與一套更廣泛的基線(xiàn)智能體進(jìn)行比較,包括學(xué)習(xí)到的策略和啟發(fā)式調(diào)度器。具體而言,我們實(shí)現(xiàn)了:? 調(diào)優(yōu)啟發(fā)式算法(Tuned Heuristic),它在切片之間靜態(tài)劃分 PRB(根據(jù)固定的優(yōu)先級(jí)權(quán)重)并使用加權(quán)輪詢(xún)調(diào)度器(一種非學(xué)習(xí)基線(xiàn));? 用于切片控制的深度 Q 網(wǎng)絡(luò)(DQN)智能體 [43];? 優(yōu)勢(shì)演員 - 評(píng)論家(A2C)智能體 [44];? 基礎(chǔ)策略梯度智能體(REINFORCE [45]);? 近端策略?xún)?yōu)化(PPO)智能體 [46];以及 ? 軟演員 - 評(píng)論家(SAC)智能體 [47]。所有基于學(xué)習(xí)的 xApp 觀(guān)測(cè)相同的狀態(tài)(切片 KPM 指標(biāo))并產(chǎn)生相同類(lèi)型的動(dòng)作(PRB 分配和調(diào)度器選擇),如同 BRAIN 一樣,以確保公平比較。為了公平起見(jiàn),我們還賦予每個(gè) RL 智能體一個(gè)可比的模型架構(gòu)(一個(gè) 5 層全連接神經(jīng)網(wǎng)絡(luò),每層約 30 個(gè)神經(jīng)元)并相應(yīng)地調(diào)整其超參數(shù)(見(jiàn)表 I)。特別是,所有智能體都使用折扣因子 γ = 0.99 和量級(jí)為 的學(xué)習(xí)率,其中在線(xiàn)策略方法(A2C, REINFORCE, PPO)依賴(lài)于新鮮的軌跡展開(kāi)(trajectory rollouts),而離線(xiàn)策略方法(DQN, SAC)利用經(jīng)驗(yàn)回放緩沖區(qū)。所有自定義智能體均使用 PyTorch 實(shí)現(xiàn)并作為容器化 xApp 部署,使其與 O-RAN 近實(shí)時(shí) RIC 平臺(tái)兼容。我們通過(guò)以在線(xiàn)學(xué)習(xí)的方式直接與我們的 RAN 測(cè)試床交互來(lái)訓(xùn)練每個(gè)智能體(智能體 xApp 在接收新觀(guān)測(cè)值和獎(jiǎng)勵(lì)時(shí)持續(xù)更新其策略)。為了確保評(píng)估公平,每個(gè)學(xué)習(xí)智能體都訓(xùn)練相同數(shù)量的時(shí)間步(量級(jí)為次環(huán)境交互,這相當(dāng)于在 20 ms 控制間隔下數(shù)小時(shí)的網(wǎng)絡(luò)時(shí)間)。我們?cè)诙鄠€(gè)隨機(jī)種子下重復(fù)每次訓(xùn)練實(shí)驗(yàn)(例如,每個(gè)智能體 5 次獨(dú)立運(yùn)行),并報(bào)告帶有 95% 置信區(qū)間的平均性能,以解釋隨機(jī)變異性。我們比較了訓(xùn)練迭代次數(shù)和實(shí)際掛鐘時(shí)間(wall-clock time)兩方面的收斂速度,因?yàn)橄?PPO 這樣的在線(xiàn)策略方法需要更多的交互但每步計(jì)算量較少,而像 SAC 這樣的離線(xiàn)策略方法可以從較少的交互中學(xué)習(xí),但代價(jià)是更密集的更新。
![]()
訓(xùn)練。 為了用一個(gè)共同的標(biāo)量來(lái)表征所有控制器的探索 - 利用行為,我們報(bào)告訓(xùn)練期間的策略熵。對(duì)于每個(gè)回合(episode),我們計(jì)算用于在每個(gè)時(shí)間步生成決策的動(dòng)作選擇分布的香農(nóng)熵,并在整個(gè)回合中對(duì)其進(jìn)行平均:
![]()
![]()
![]()
![]()
![]()
![]()
VI、評(píng)估
分析智能智能體的性能。 圖 4 總結(jié)了 BRAIN 智能體與調(diào)優(yōu)啟發(fā)式基線(xiàn)以及各種深度強(qiáng)化學(xué)習(xí)(DRL)智能體(A2C、PPO、DQN、SAC、REINFORCE)在 AI-RAN 測(cè)試床中的訓(xùn)練性能。在圖 4a 中,BRAIN 智能體的獎(jiǎng)勵(lì)曲線(xiàn)陡峭上升,在遠(yuǎn)少于所有基線(xiàn)(包括調(diào)優(yōu)啟發(fā)式算法)的回合數(shù)內(nèi)收斂,并達(dá)到了更高的漸近獎(jiǎng)勵(lì)值。這表明 BRAIN 以顯著更高的樣本效率學(xué)習(xí)到了有效的策略;即從有限的交互中提取了更多的累積獎(jiǎng)勵(lì)。相比之下,DRL 智能體表現(xiàn)出較慢的獎(jiǎng)勵(lì)增長(zhǎng)和較低的平穩(wěn)期,反映了無(wú)模型強(qiáng)化學(xué)習(xí)(model-free RL)典型的繁重試錯(cuò)搜索特征。更快的獎(jiǎng)勵(lì)收斂意味著 BRAIN 能夠以遠(yuǎn)少于 DRL 基準(zhǔn)的訓(xùn)練數(shù)據(jù)獲得近優(yōu)控制決策——這在現(xiàn)實(shí)網(wǎng)絡(luò)中是一個(gè)關(guān)鍵優(yōu)勢(shì),因?yàn)樵诂F(xiàn)實(shí)網(wǎng)絡(luò)中每個(gè)訓(xùn)練回合(例如,一段次優(yōu)決策的時(shí)隙)都具有切實(shí)的成本。圖 4b 繪制了平均訓(xùn)練損失,BRAIN 再次脫穎而出,在整個(gè)訓(xùn)練過(guò)程中呈現(xiàn)出明顯更低且更穩(wěn)定的損失軌跡。BRAIN 智能體的損失保持在比深度強(qiáng)化學(xué)習(xí)智能體低近一個(gè)數(shù)量級(jí)的水平,且顯示出極小的振蕩。這種穩(wěn)定性表明 BRAIN 的學(xué)習(xí)更新表現(xiàn)穩(wěn)健,防止了通常困擾 DRL 訓(xùn)練的大幅梯度擺動(dòng)或發(fā)散問(wèn)題。相比之下,RL 基線(xiàn)(尤其是像 DQN 或 REINFORCE 這樣波動(dòng)較大的算法)表現(xiàn)出較高的損失值和明顯的波動(dòng),表明學(xué)習(xí)過(guò)程較不穩(wěn)定。RL 中的這種不穩(wěn)定性可能源于算法難以適應(yīng) RAN 的非平穩(wěn)動(dòng)態(tài):當(dāng)環(huán)境的“規(guī)則”(例如,用戶(hù)負(fù)載、信道條件)持續(xù)變化時(shí),傳統(tǒng)的 RL 智能體難以復(fù)用先驗(yàn)知識(shí),可能需要反復(fù)重新學(xué)習(xí)。圖 4 展示了隨時(shí)間變化的策略熵,揭示了每個(gè)智能體的探索 - 利用平衡。BRAIN 的熵值起始較高(鼓勵(lì)探索),隨后隨著訓(xùn)練的進(jìn)行逐漸下降。重要的是,它從未坍縮至零;相反,BRAIN 的熵逐漸收斂至適中水平,表明這是一種受控的探索策略。這種穩(wěn)定的熵減表明 BRAIN 在早期系統(tǒng)性地探索動(dòng)作空間,然后在收斂時(shí)自信地利用其學(xué)習(xí)到的策略,且在此過(guò)程中并未過(guò)早地喪失其決策的多樣性。
![]()
![]()
![]()
切片性能。 圖 7 報(bào)告了三個(gè)異構(gòu)切片的 KPM 逐切片經(jīng)驗(yàn)累積分布函數(shù)(CDF),這些數(shù)據(jù)是在 AI-RAN 測(cè)試床上測(cè)量的,所有智能體使用相同的狀態(tài)/動(dòng)作接口。使用 CDF(而不僅僅是均值)很重要,因?yàn)樗沂玖宋膊啃袨楹涂煽啃裕篊DF 右移表明智能體更頻繁地實(shí)現(xiàn)更大的 KPM 值(“更好 →”),而更陡峭的 CDF 表明變異性降低(運(yùn)行更具可預(yù)測(cè)性)。圖 7a 顯示,與所有 DRL 基線(xiàn)和調(diào)優(yōu)啟發(fā)式算法相比,BRAIN 產(chǎn)生了最有利的吞吐量分布,表明其在幾乎所有運(yùn)行范圍內(nèi)都實(shí)現(xiàn)了更高的吞吐量。定性來(lái)看,BRAIN 不僅提高了中位吞吐量,還改善了上分位數(shù),這表明智能體學(xué)習(xí)到的切片策略即使在滿(mǎn)足更嚴(yán)格的 URLLC/mMTC 要求的同時(shí),也能保持 eMBB 容量。相比之下,基線(xiàn)算法表現(xiàn)出以下情況之一:i) 中位數(shù)較低,或 ii) 離散度較大,這意味著在相同的流量混合和控制預(yù)算下,eMBB 服務(wù)的一致性較差。圖 7b 報(bào)告了 URLLC PRB 比率(即通過(guò)切片和調(diào)度決策有效分配/可供 URLLC 使用的物理資源比例)的分布。較高的 URLLC PRB 比率 CDF 反映了對(duì) URLLC 更強(qiáng)的資源保護(hù),這與在擁塞情況下滿(mǎn)足延遲敏感型目標(biāo)是一致的。BRAIN 表現(xiàn)出最右移的曲線(xiàn),表明它在需要時(shí)能更可靠地分配/維持更高的 URLLC 資源份額。這種行為與具身主動(dòng)推理設(shè)計(jì)相一致:當(dāng)信念表明隊(duì)列壓力上升時(shí),智能體的動(dòng)作后驗(yàn)(通過(guò) EFE 形成)自然會(huì)提高對(duì) URLLC 保護(hù)性動(dòng)作的精度,而不是依賴(lài)脆弱的獎(jiǎng)勵(lì)塑形或間歇性的重新訓(xùn)練。幾個(gè) DRL 基線(xiàn)(特別是 REINFORCE 和調(diào)優(yōu)啟發(fā)式算法)在較低的 PRB 比率處顯示出明顯更多的質(zhì)量分布,這通常對(duì)應(yīng)于 URLLC 配置不足的時(shí)期,因此更容易受到隊(duì)列堆積和延遲違規(guī)的影響。圖 7c 比較了 mMTC 切片交付的下行 PHY TB(傳輸塊)分布,我們?cè)谠O(shè)置中將其用作面向可靠性的代理指標(biāo)(成功的 TB 交付反映了對(duì)間歇性物聯(lián)網(wǎng)/遙測(cè)流量的持續(xù)服務(wù))。與 DRL 基線(xiàn)相比,BRAIN 在 TB 分布方面提供了適度但一致的改進(jìn),表明在不犧牲 eMBB 吞吐量或 URLLC 保護(hù)的情況下提高了可靠性。重要的是,低性能尾部得到了減少:BRAIN 產(chǎn)生的“近乎饑餓”間隔(極低的 TB 速率)更少,這對(duì)于 mMTC 至關(guān)重要,因?yàn)殚g歇性突發(fā)流量仍必須得到可預(yù)測(cè)的交付。
![]()
除了平均獎(jiǎng)勵(lì)外,我們還評(píng)估了控制器在分布偏移下是否能維持切片特定的服務(wù)保障。具體來(lái)說(shuō),我們測(cè)量了每個(gè)智能體在受控非平穩(wěn)事件發(fā)生前后,將所有切片保持在 QoS 目標(biāo)內(nèi)的可靠性。在圖 8 中,在非平穩(wěn)事件發(fā)生之前,BRAIN 實(shí)現(xiàn)了最高的全切片 QoS 滿(mǎn)意度,表明它在標(biāo)稱(chēng)狀態(tài)下最一致地將所有切片約束保持在目標(biāo)范圍內(nèi)。在 處,由于流量激增,所有基于學(xué)習(xí)的智能體都表現(xiàn)出 QoS Sat( t ) 的急劇下降;然而,BRAIN 表現(xiàn)出最小的退化以及向偏移前水平最快的恢復(fù)。相比之下,DRL 基線(xiàn)在偏移后遭受了更大的下降且恢復(fù)較慢,穩(wěn)定在較低的 QoS 滿(mǎn)意度水平;這與分布偏移下適應(yīng)性降低和部分遺忘相一致。調(diào)優(yōu)啟發(fā)式算法在整個(gè)過(guò)程中基本保持平坦且遠(yuǎn)低于學(xué)習(xí)到的智能體,證實(shí)了靜態(tài)切片策略無(wú)法對(duì)突發(fā)的機(jī)制變化做出反應(yīng)。
![]()
VII、結(jié)論
本工作表明,深度主動(dòng)推理不僅概念上契合移動(dòng)網(wǎng)絡(luò)中智能體與具身智能的需求,而且在實(shí)際的開(kāi)放 AI-RAN 棧上也是一種可行的控制范式。我們提出了 BRAIN 作為一種 xApp,它通過(guò)兩個(gè)緊密耦合的操作閉合了網(wǎng)絡(luò)行動(dòng) - 感知環(huán)路:(i)基于流式 KPM 數(shù)據(jù)對(duì)潛在切片條件進(jìn)行貝葉斯信念更新,以及(ii)通過(guò)最小化期望自由能來(lái)選擇資源分配動(dòng)作,以同時(shí)滿(mǎn)足切片意圖并減少不確定性。在配備異構(gòu)切片的 GPU 加速 AI-RAN 測(cè)試床上,BRAIN 取得了三項(xiàng)具體成果。首先,相較于調(diào)優(yōu)啟發(fā)式算法和廣泛的 DRL 基線(xiàn),它實(shí)現(xiàn)了更強(qiáng)的切片性能。其次,它在非平穩(wěn)條件下提供了魯棒的適應(yīng)能力:當(dāng)流量分布突然變化時(shí),BRAIN 表現(xiàn)出最小的 QoS 滿(mǎn)意度退化以及最快的恢復(fù)速度,且無(wú)需重新訓(xùn)練。第三,它在運(yùn)行時(shí)提供了面向運(yùn)營(yíng)商的可解釋性。除了實(shí)證優(yōu)勢(shì)外,更廣泛的啟示在于:主動(dòng)推理通過(guò)將決策建立在原則性的貝葉斯信念更新而非獎(jiǎng)勵(lì)工程之上,實(shí)現(xiàn)了真正意義上的智能體化、具身化控制。
對(duì)于未來(lái)工作,有前景的方向包括將該框架擴(kuò)展到 O-RAN 中分層、多時(shí)間尺度的主動(dòng)推理,其中近實(shí)時(shí) xApp 在結(jié)構(gòu)化生成模型的支持下,在非實(shí)時(shí)意圖與策略協(xié)調(diào)的框架下運(yùn)行。另一個(gè)重要的研究方向是擴(kuò)展到多小區(qū)與多智能體部署,實(shí)現(xiàn)在干擾與移動(dòng)性耦合條件下的 xApp 間協(xié)調(diào),并研究在真實(shí)遙測(cè)與前傳約束下的分布式信念共享機(jī)制。
原文鏈接:https://arxiv.org/pdf/2602.14033
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.