<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      強化學習課程的熱力學

      0
      分享至

      Thermodynamics of Reinforcement Learning Curricula

      強化學習課程的熱力學

      https://arxiv.org/pdf/2603.12324



      摘要

      統計力學與機器學習之間的聯系已被反復證明是富有成效的,為優化、泛化與表示學習提供了深刻見解。在本研究中,我們延續這一傳統,利用非平衡熱力學的成果來形式化強化學習(RL)中的課程學習。具體而言,我們提出了一種用于RL的幾何框架,將獎勵參數解釋為任務流形上的坐標。我們表明,通過最小化超額熱力學功,最優課程對應于該任務空間中的測地線。作為該框架的一個應用,我們提供了一種算法“MEW”(最小超額功),用于推導最大熵RL中溫度退火的有理論依據的調度方案。

      1 引言

      現代強化學習(RL)系統很少在單一、靜態的任務上進行訓練。相反,通過課程學習、溫度退火、獎勵塑形以及其他非平穩目標,智能體通常會接觸一系列相關任務。然而,關于任務應如何變化的指導原則仍然缺乏深入理解。一種簡單實用的方法是隨時間對任務(即獎勵函數)參數進行線性插值。這種選擇隱含地假設了任務空間是平坦且各向同性的。在本研究中,我們假設這一假設是錯誤的,并旨在證明由智能體及其學習動力學所誘導出的非平凡幾何結構的存在。具體而言,我們采用一種基于統計力學的方法來研究參數化獎勵函數空間,揭示出一種自然度量,該度量量化了適應新任務所涉及的難度或“摩擦”。更具體地說,我們引入了一個摩擦張量,該張量在非平衡統計力學(NESM)中量化了控制系統所需的代價,使得最優參數協議對應于由該摩擦張量所誘導的幾何空間中的測地線。通過將RL映射到該框架上,我們獲得了一個關于課程最優性的有理論依據的假設,且該假設在實驗上易于處理:最優獎勵參數調度方案最小化了來自摩擦張量的路徑依賴超額成本,并遵循誘導任務空間中的測地線。這一幾何圖景有望統一RL中的幾種現象,例如基于勢函數的獎勵塑形、模擬退火以及特征坍塌。在本研究中,我們專注于線性獎勵函數參數化,并推導出一維任務調度的閉式表達式,從而提出了一種可直接應用于深度RL的熵溫度退火新方法。

      2 背景

      2.1 統計力學

      在非平衡物理系統的控制中,出現了與強化學習(RL)中“課程”類似的概念。在統計力學框架下,系統動力學依賴于隨時間變化的外部控制參數(例如溫度、耦合強度、場強、勢阱位置等)。當這些參數的變化無限緩慢時(即在課程步驟之間允許策略完全收斂),系統保持在近平衡狀態,且此變化所需的外部功僅取決于端點。然而,當參數以有限速率變化時,系統保持在非平衡狀態,并產生額外的、路徑依賴的耗散,該耗散被量化為“超額功”(Jarzynski, 2008)。線性響應理論的一個核心結果表明,該超額功可關于參數變化速率進行二次近似(Sivak & Crooks, 2012)。該框架已在一系列經典與量子控制問題的建模中得到成功應用。

      在本研究中,我們證明RL中的任務插值具有類似的幾何結構:獎勵參數的變化會引發瞬態次優性與學習低效性,而這種適應過程的主導階(leading-order)成本可由任務空間上的一個度量來刻畫,該度量由長期的、策略誘導的相關性所定義。歷史上,統計力學與機器學習之間的此類聯系已被證明極具價值,為優化、泛化與表示學習提供了深刻見解(Pennington & Worah, 2017; Yaida, 2019; Bahri et al., 2020; Barr et al., 2020; Huang, 2021; Das et al., 2021; Roberts et al., 2022; Gillman et al., 2024; Bahri et al., 2024)。本研究的貢獻延續了這一傳統,即利用非平衡熱力學來形式化強化學習中的課程學習與任務插值。

      2.2 最大熵強化學習


      重要的是,該目標在軌跡上誘導了一個玻爾茲曼分布:最優策略為具有較大累積獎勵的軌跡分配更高的概率 (Levine, 2018)。因此,來自統計力學的許多高級概念,如自由能、溫度和漲落,在MaxEnt RL中允許存在直接的類比。該表述構成了現代算法(如Soft Q-Learning和Soft Actor-Critic (Haarnoja et al., 2018a))以及理論框架(如線性可解MDP (Todorov, 2006) 及其擴展 (Arriojas et al., 2023))的基礎。

      在本研究中,MaxEnt RL在與非平衡熱力學的物理圖像連接中扮演兩個角色:首先,它提供了軌跡上清晰的概率結構,使得閉式分析成為可能。其次,它允許將獎勵參數的動態變化解釋為底層分布的受控形變,使得將課程解釋為"非平衡驅動協議"變得精確。

      3 課程學習的熱力學框架


      對于這種參數化,我們將任務調度,或課程(curricula), λ ( t ) ,定義為任務空間中連接兩個獎勵函數的(二階可微)路徑。于是核心問題變為:應當如何選擇 λ ( t ) 以最小化適應的總成本?

      我們現在簡要概述用于解決此問題的框架,更多細節見附錄 A。在此框架中,為了形式化適應成本,我們追蹤隨著任務參數的變化,智能體可實現的期望累積獎勵是如何變化的。沿著一個課程 λ ( t ) ,總變化可以進行精確分解:一部分貢獻來自對外部獎勵函數的修改,另一部分貢獻源于策略本身的適應。沿著課程對這一分解進行積分,會產生一個路徑依賴的“超額功”(excess work),它僅在準靜態極限(quasistatic limit)下消失。將這一超額功解釋為適應的累積成本,我們將其最小化作為最優課程設計的目標。重要的是,如果我們在準靜態機制(quasistatic regime)下工作,使得任務參數相對于策略誘導的馬爾可夫鏈的混合時間(mixing time)變化緩慢,那么線性響應理論適用。因此,我們可以如下近似超額功(Sivak & Crooks, 2012):

      關鍵在于,通過上述摩擦張量來近似超額功,我們能夠將“學習難度”這一抽象概念轉化為可測量的幾何量。這使我們能夠超越啟發式的獎勵參數調整,轉而預測智能體將在何處遇到困難,從而使學習過程更加透明。


      通常情況下,這些方程無法解析求解,因此我們訴諸數值方法和簡化設置以進一步洞察所得解。方程 3 的解產生的最優課程會在度量較大(對應于代價高昂的適應)的方向上減速,而在度量較小的地方加速(視覺示例見圖 1)。



      3.1 案例研究:線性獎勵參數化


      4 溫度退火



      我們在圖2中通過實驗檢驗了這一策略。具體而言,我們將MEW應用于高維的Humanoid-v5 MuJoCo任務(Todorov et al., 2012)。根據圖2,我們可以看到MEW在該任務中優于Haarnoja等人(2018b)的標準方法。通過檢查兩種方法的溫度調度,我們可以看到標準協議(來自Haarnoja等人(2018b))最初會快速降低溫度,導致產生一個近乎確定性的策略,而隨著溫度隨后升高,該策略必須進行調整。另一方面,我們的調度是單調的,并且在每一步都根據適應的相對成本進行調整,從而允許策略系統地適應摩擦的固定增量。我們的方法產生的協議在多次運行間也具有顯著更高的一致性,如圖2中的陰影區域所示(實驗細節和更多結果見附錄B)。


      5 討論

      在本研究中,我們引入了一種基于超額功最小化的課程學習幾何框架,為任務空間賦予了一種偽黎曼結構,從而定義并指導最優課程。在此過程中,我們驗證了我們的假設:最優獎勵參數調度方案最小化了源于摩擦張量的路徑依賴超額成本,并遵循誘導任務空間中的測地線。所得框架可直接適用于深度強化學習設置,如圖2所示的一維溫度退火實驗所證實(另見附錄B)。在此,我們發現標準的降溫方法通過我們框架推導出的冷卻調度得到了顯著改善。更廣泛地說,這些結果表明,強化學習中的某些經驗不穩定性可能不僅應被理解為算法失敗,而是作為在彎曲且動態演變的參數流形上過于激進地驅動高維非平衡系統所導致的后果。

      5.1 未來工作

      本研究引出了幾個研究方向。在理論方面,闡明與標準遺憾(regret)定義的聯系,并進一步利用誘導的幾何結構(例如用于學習自適應特征或理解度量退化的作用),將擴展此處開發的工具。在算法方面,開發深度強化學習中摩擦張量的可擴展估計器仍是一項重要挑戰。最后,在大規模持續學習與終身學習基準上進行實證驗證,對于評估所提框架的預測能力至關重要。

      原文鏈接: https://arxiv.org/pdf/2603.12324

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      特朗普發15張訪華照,美議員稱中國徹夜難眠

      特朗普發15張訪華照,美議員稱中國徹夜難眠

      熱點一觸即發
      2026-05-17 12:12:56
      人到中年才明白一個社交定律:低層次的人脈靠飯局,中層次的人脈靠籌碼,而高層次的人脈,靠的是這兩個核心

      人到中年才明白一個社交定律:低層次的人脈靠飯局,中層次的人脈靠籌碼,而高層次的人脈,靠的是這兩個核心

      心理觀察局
      2026-05-17 06:50:13
      最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

      最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

      周軍律師聊案子
      2026-04-21 09:50:16
      馬斯克收心了?官宣了39歲印度裔伴侶:相貌普通為他生了4個孩子

      馬斯克收心了?官宣了39歲印度裔伴侶:相貌普通為他生了4個孩子

      豐譚筆錄
      2025-12-12 11:16:23
      恭喜!他們結婚了,多年愛情長跑修成正果,網友祝福:郎才女貌

      恭喜!他們結婚了,多年愛情長跑修成正果,網友祝福:郎才女貌

      環球網資訊
      2026-05-17 08:35:13
      2298元 !華為新品官宣:5月29日,正式開售!

      2298元 !華為新品官宣:5月29日,正式開售!

      科技堡壘
      2026-05-16 12:22:24
      成都茶館全面禁煙引爭議!廁所抽煙也被罰,老茶客斷言100%倒閉

      成都茶館全面禁煙引爭議!廁所抽煙也被罰,老茶客斷言100%倒閉

      西莫的藝術宮殿
      2026-05-17 16:56:59
      張柏芝給19歲大兒子提新車,不選豪車偏選國產,當媽的心思藏不住

      張柏芝給19歲大兒子提新車,不選豪車偏選國產,當媽的心思藏不住

      觀察鑒娛
      2026-05-15 13:53:47
      釋永信被一女子爆料:她們姐妹住少林寺3天,爭著往釋永信房間跑

      釋永信被一女子爆料:她們姐妹住少林寺3天,爭著往釋永信房間跑

      江山揮筆
      2026-03-23 15:40:31
      即將結束曼聯生涯,馬拉西亞賽后也獲得了紀念球衣

      即將結束曼聯生涯,馬拉西亞賽后也獲得了紀念球衣

      懂球帝
      2026-05-17 22:32:27
      G2北京99-88戰勝上海 球員評價:5人優秀,2人及格,3人低迷

      G2北京99-88戰勝上海 球員評價:5人優秀,2人及格,3人低迷

      籃球資訊達人
      2026-05-17 21:33:02
      意甲爭四概率:米蘭83%羅馬75%,尤文暴跌僅剩13%

      意甲爭四概率:米蘭83%羅馬75%,尤文暴跌僅剩13%

      懂球帝
      2026-05-17 22:32:26
      174億算力龍頭將建“Token工廠”,這些A股公司或受益

      174億算力龍頭將建“Token工廠”,這些A股公司或受益

      21世紀經濟報道
      2026-05-17 22:07:33
      5-1碾壓日本,朝鮮女足衛冕成功,迎女足亞洲杯2連冠,太牛了

      5-1碾壓日本,朝鮮女足衛冕成功,迎女足亞洲杯2連冠,太牛了

      俯身沖頂
      2026-05-17 21:21:16
      本土射手中生代拉胯,僅靠三人撐場面,年齡斷檔相差十歲

      本土射手中生代拉胯,僅靠三人撐場面,年齡斷檔相差十歲

      巴適足球
      2026-05-17 23:29:39
      美國女教師與17歲女生發生關系,在校內公寓多次發生性行為

      美國女教師與17歲女生發生關系,在校內公寓多次發生性行為

      影視情報室
      2026-05-17 00:47:05
      韓星成東鎰欽點兒媳人選:等她長大嫁給我兒子

      韓星成東鎰欽點兒媳人選:等她長大嫁給我兒子

      娛圈觀察員
      2026-05-17 00:26:30
      她是東方衛視中心主持,北京人定居上海,和青梅竹馬丈夫兒女雙全

      她是東方衛視中心主持,北京人定居上海,和青梅竹馬丈夫兒女雙全

      阿萞你好
      2026-05-17 17:29:12
      外媒:中企承建哈薩克斯坦首都輕軌建成通車,總統托卡耶夫用中文感謝中方

      外媒:中企承建哈薩克斯坦首都輕軌建成通車,總統托卡耶夫用中文感謝中方

      環球網資訊
      2026-05-17 19:12:39
      美記:森林狼將圍繞愛德華茲等年輕核心調整,戈貝爾蘭德爾或被優化

      美記:森林狼將圍繞愛德華茲等年輕核心調整,戈貝爾蘭德爾或被優化

      懂球帝
      2026-05-17 21:17:17
      2026-05-18 00:44:49
      CreateAMind incentive-icons
      CreateAMind
      CreateAMind.agi.top
      1407文章數 19關注度
      往期回顧 全部

      科技要聞

      三大運營商即將免月租?多方回應

      頭條要聞

      湖北省原省長被查 十天前曾在媒體發表署名文章

      頭條要聞

      湖北省原省長被查 十天前曾在媒體發表署名文章

      體育要聞

      生死戰只拿3分的核心,還有留的必要嗎?

      娛樂要聞

      盧昱曉道歉:認識到問題嚴重性!

      財經要聞

      長鑫科技 預計上半年凈利至少500億元

      汽車要聞

      車長超5米/雙動力可選 昊鉑S600預售權益價18.89萬起

      態度原創

      藝術
      時尚
      本地
      親子
      教育

      藝術要聞

      看完這組攝影,我瞬間相信了愛情!太美了!

      “這條裙子”是今年夏天的頂流!誰穿誰好看

      本地新聞

      用蘇繡的方式,打開江西婺源

      親子要聞

      健康夜話 | 觸摸世界,不止屏幕一種方式

      教育要聞

      要破產了啊:虧損最嚴重的幾所英國大學!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品国产乱码久久久久乱码| 蜜桃麻豆www久久囤产精品| 国产乱码精品一区二区| 久久精品私人影院免费看| 狼友福利在线观看| 5D肉蒲团之性战奶水欧美| 免费国产黄网站在线观看可以下载| 亚洲中文字幕无码不卡电影| A片A级毛片| 精品久久久久久无码专区不卡| 大量国产激情视频在线观看| 人妻精品久久无码区| 真多人做人爱视频高清免费| 宅男噜噜噜66一区二区| 亚洲成片一级香蕉在线观看| 8x国产精品视频| 91精品久久一区二区三区| 久久伊人精品| 中文av无码人妻一区二区三区| 亚洲国产av最新地址| 日本一区二区三区专线| 2020久久超碰欧美| 亚洲av熟女一区二区| 亚洲欧美成人一区二区三区| 日本欧美视频在线观看| 国产 字幕 制服 中文 在线 | 精品无码一区二区三区爱欲| 男人吃奶摸下挵进去啪啪软件| 久久中精品中文字幕入口| 将乐县| 丁香五月亚洲综合在线国内自拍 | 国产亚洲精品国产福APP| 性生交大片免费看视频| 成人视频在线观看| 亚洲jizzjizz中文在线播放| 日本少妇三级hd激情在线观看| 老子影院午夜伦手机不四虎卡| 99在线精品国自产拍不卡| 亚洲高清AV| 殴美性爱| 午夜国产一区二区三区精品不卡|