<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      傳統UED瓶頸被打破,強化學習也能精準定位「最近發展區」

      0
      分享至



      本文第一作者來自國防科技大學數智建模與仿真國家級重點實驗室(State Key Laboratory of Digital Intelligent Modeling and Simulation)2024 級博士生原方,通訊作者為國防科技大學曾俊杰助理研究員、李慶倫博士,并由尹全軍研究員、秦龍副教授、沈思淇長聘副教授(廈門大學)、謝毓湘教授、楊俊強副研究員共同合作完成。研究團隊長期聚焦建模仿真、強化學習等相關方向研究。

      訓練強化學習智能體時,一個常見問題是:有些 level 太簡單,智能體跑幾遍就會;有些 level 又太難,智能體幾乎得不到有效反饋。前者只是在重復已有能力,后者則會把訓練預算消耗在無效探索上。真正有價值的訓練環境,往往位于二者之間。它剛好超過智能體當前能力邊界,但又沒有難到完全學不會。換句話說,強化學習訓練也存在某種「最近發展區」:高效訓練的關鍵,不只是生成更多 level,而是找到當前階段最值得學的 level。

      Unsupervised Environment Design(UED)正是圍繞這一問題展開。UED 不再把訓練環境看作固定數據集,而是通過自動生成、選擇或重放 level,動態塑造訓練分布,讓智能體在持續學習中獲得更好的泛化能力。但 UED 面臨一個核心難題:系統需要知道,哪些 level 真正推動了智能體學習。

      近日,來自國防科技大學、廈門大學等機構的研究者提出了PACE(Parameter Change Environment Design)。PACE 使用 level 誘導的策略參數變化作為訓練價值信號,直接衡量該 level 是否帶來實際學習進展。該工作已被 ICML 2026 接收。



      • 論文題目:PACE: Parameter Change for Unsupervised Environment Design
      • 論文鏈接:https://doi.org/10.48550/arXiv.2605.01358

      UED:讓訓練環境自己形成課程

      UED 的出發點并不復雜。傳統強化學習通常先給定一批訓練環境,再讓智能體在其中反復學習。但訓練環境并非越多越好,也不是越難越好。如果 level 太簡單,智能體很快進入「舒適區」,只能鞏固已經掌握的行為;如果 level 太難,智能體又會進入「恐慌區」,長期得不到有效獎勵。兩種情況都會削弱學習效率和最終泛化能力。

      在 UED 之前,Domain Randomization 已經表明,環境多樣性有助于提升泛化能力;但這類方法通常只是靜態地隨機采樣環境參數,難以根據智能體當前的學習狀態動態調整訓練內容。

      UED 進一步將「訓練什么」納入學習過程:系統不再把訓練環境視為固定背景,而是動態生成、選擇或重放 level,并根據某種評價信號決定哪些 level 更值得保留、重放或進一步編輯。理想情況下,這些 level 應該持續貼近智能體當前能力邊界:既不輕易被解決,也不完全超出可學習范圍。

      現有 UED 方法通常需要一個 score 來評價 level。常見做法包括 regret、GAE、MaxMC 等。這些信號在實踐中有效,但它們更多從可解性差距、價值估計誤差或回報估計出發,沒有評估「這次訓練到底帶來了多少策略改進」。另一類方法更直接,例如 Marginal Benefit 會比較策略更新前后的表現變化,因此更接近真實學習進步。但它需要額外 rollout 來估計更新前后的回報,計算開銷更高,估計方差也更大。

      因此,UED 的核心問題就變成了:如何簡單而準確地判斷一個 level 是否真正推動了智能體的學習

      PACE:用參數變化衡量學習進步

      PACE 的核心判斷很直接:如果一個 level 真正促成了學習,那么智能體在這個 level 上訓練后,策略參數應該發生有意義的變化。也就是說,PACE 不再把 level 的價值建立在 regret、GAE 或 Monte Carlo return 等間接信號上,而是直接觀察該 level 誘導的策略更新。









      進一步假設這一步更新沿著局部梯度方向進行,即





      將其代入一階展開,可得目標提升的近似形式:



      這個近似關系說明:在局部梯度更新假設下,一個 level 帶來的目標提升與其誘導的策略參數變化平方范數成正比。因此,PACE 將 level score 定義為:







      圖 1:PACE 工作流程圖。

      基于這一 score,PACE 的運行過程可以分為兩個部分:level scoringpolicy training(圖 1)。







      整個過程不斷交替進行:新 level 被生成并打分,高價值 level 被寫入 buffer,buffer 中的 level 又被優先重放來訓練策略。由此,PACE 用策略參數變化構造出一種內生的學習進步信號,并用它驅動訓練課程隨智能體能力動態演化。

      實驗結果:從迷宮泛化到開放式任務









      圖 2:MiniGrid 上的零樣本遷移性能。



      表 1:MiniGrid 上的整體泛化指標。

      為了進一步檢驗 PACE 在更復雜任務中的適用性,論文還在Craftax上進行實驗。Craftax 是一個面向開放式強化學習的 JAX benchmark。隨著探索推進,智能體會遇到新的區域、機制和目標,任務分布也會持續變化,因此更能檢驗 UED 方法是否能在長訓練過程中持續提供有效課程。





      表 2:Craftax 上 20 個未見過 levels 上的平均回報和標準差。

      結語與展望

      在強化學習智能體需要持續適應未見環境的背景下,如何準確識別真正推動學習的 levels 是 UED 的關鍵問題;PACE 通過參數變化這一簡單、低方差、計算友好的內生信號,將環境評價直接建立在 realized learning progress 之上,從而減少代理指標偏差、高方差估計和額外 rollout 開銷的影響,并為構建更穩定、更可擴展的自適應訓練課程提供了新的思路。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      巔峰時期的QQ有多“狂”?2008年,騰訊竟打算用Q幣給員工發工資

      巔峰時期的QQ有多“狂”?2008年,騰訊竟打算用Q幣給員工發工資

      荊楚寰宇文樞
      2026-05-14 23:20:07
      南京一網紅健身房閉店,百余人要求退費;會員:房東貼強執公告才知道要關店,門店稱“賬上沒錢”,健身房老板王寧發聲;多方介入

      南京一網紅健身房閉店,百余人要求退費;會員:房東貼強執公告才知道要關店,門店稱“賬上沒錢”,健身房老板王寧發聲;多方介入

      中國網
      2026-05-21 20:23:40
      四年升級三代!比亞迪第三代元PLUS配置打到“天花板”,630Km長續航或成A級SUV標桿

      四年升級三代!比亞迪第三代元PLUS配置打到“天花板”,630Km長續航或成A級SUV標桿

      車矩陣更懂車
      2026-05-21 23:29:25
      造車3年燒光183億,“網紅神車”牛皮都吹破了,被央視痛批破產

      造車3年燒光183億,“網紅神車”牛皮都吹破了,被央視痛批破產

      毒sir財經
      2026-05-04 23:03:29
      小米YU7首戰Model Y八敗兩勝!雷軍直言:輸給全球銷冠不丟人

      小米YU7首戰Model Y八敗兩勝!雷軍直言:輸給全球銷冠不丟人

      快科技
      2026-05-21 20:39:10
      尊重歷史,青海馬家軍在陜西山西河南跟日軍血戰八年,是真的嗎?

      尊重歷史,青海馬家軍在陜西山西河南跟日軍血戰八年,是真的嗎?

      鶴羽說個事
      2026-05-12 22:36:35
      男人搞定50歲女人最好方法,喂飽了她兩個需求,她就會主動依你

      男人搞定50歲女人最好方法,喂飽了她兩個需求,她就會主動依你

      心理觀察局
      2026-05-04 08:20:08
      杜蘭特主動示好?火箭有望追逐歐文,重塑籃網組合!5隊參與競爭

      杜蘭特主動示好?火箭有望追逐歐文,重塑籃網組合!5隊參與競爭

      熊哥愛籃球
      2026-05-21 21:02:27
      1998年數萬華人遭屠殺,中國為何沒出兵?26年后答案讓人沉默

      1998年數萬華人遭屠殺,中國為何沒出兵?26年后答案讓人沉默

      哄動一時啊
      2026-02-17 22:21:25
      意甲官方最佳陣:40歲魔笛在列 冠軍國米3人入選 無阿坎吉惹爭議

      意甲官方最佳陣:40歲魔笛在列 冠軍國米3人入選 無阿坎吉惹爭議

      智道足球
      2026-05-21 19:54:55
      霍爾木茲海峽,突傳大消息!美伊談判,最新動向!黃金、白銀、美股飆漲!原油暴跌

      霍爾木茲海峽,突傳大消息!美伊談判,最新動向!黃金、白銀、美股飆漲!原油暴跌

      證券時報e公司
      2026-05-20 22:59:24
      外圍大漲 A 股暴跌:量化再成踩踏式行情放大器

      外圍大漲 A 股暴跌:量化再成踩踏式行情放大器

      作家出版人姚茂敦
      2026-05-21 17:01:35
      俄羅斯主動松口歸還北方四島,只需一個條件,日本為何堅決不同意

      俄羅斯主動松口歸還北方四島,只需一個條件,日本為何堅決不同意

      嘻嘻笑
      2026-05-20 20:31:49
      巨嬰!孫楊采訪中途突然打斷主持人說到飯點了,直接拿手機點起外賣

      巨嬰!孫楊采訪中途突然打斷主持人說到飯點了,直接拿手機點起外賣

      818體育
      2026-05-19 17:52:24
      蘋果關閉舊版驗證,iOS 26.5已無法降級!iOS 27發布進入倒計時

      蘋果關閉舊版驗證,iOS 26.5已無法降級!iOS 27發布進入倒計時

      科技獸
      2026-05-21 23:22:26
      中南財經政法大學法學院校友捐贈總額超470億元?工作人員:PPT上數字分隔符小數點誤寫成了逗號 實為470多萬元

      中南財經政法大學法學院校友捐贈總額超470億元?工作人員:PPT上數字分隔符小數點誤寫成了逗號 實為470多萬元

      閃電新聞
      2026-05-20 15:58:18
      安布丨馬爾蒂尼回歸米蘭只有一個條件

      安布丨馬爾蒂尼回歸米蘭只有一個條件

      米蘭圈
      2026-05-21 09:16:32
      玄學提醒:你永遠不要操心你孩子的命運,看完這段話讓你釋懷

      玄學提醒:你永遠不要操心你孩子的命運,看完這段話讓你釋懷

      金沛的國學筆記
      2026-05-13 10:55:09
      3批禁足名單匯總:201人被罰!133人遭終身禁足 13隊扣分+梅州2次

      3批禁足名單匯總:201人被罰!133人遭終身禁足 13隊扣分+梅州2次

      我愛英超
      2026-05-21 16:00:37
      何小鵬起勢成功:26.98萬的GX開賣,換維打擊9系SUV

      何小鵬起勢成功:26.98萬的GX開賣,換維打擊9系SUV

      超電實驗室
      2026-05-20 23:41:36
      2026-05-22 00:00:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13055文章數 142651關注度
      往期回顧 全部

      科技要聞

      小米YU7 GT正式發布:售價38.99萬元

      頭條要聞

      叔侄倆將溺亡男子送回家離開 3天后男子被發現已腐爛

      頭條要聞

      叔侄倆將溺亡男子送回家離開 3天后男子被發現已腐爛

      體育要聞

      常住人口7000的小鎮,擁有了一支德甲球隊

      娛樂要聞

      反轉!金秀賢與金賽綸未成年時交往不實

      財經要聞

      潮水退去,裸泳的一定不止五糧液

      汽車要聞

      后驅+閃充+激光雷達 第三代元PLUS上市售11.99萬元起

      態度原創

      親子
      藝術
      手機
      數碼
      公開課

      親子要聞

      5歲小女孩來月經,竟是因為這件事情!

      藝術要聞

      崔雪冬 2026年油畫新作

      手機要聞

      AYANEO Pocket AIR Mini安卓掌機Arcade Home聯名款發布,739元起

      數碼要聞

      4799 小米17 Max發布 耳機手環全家桶亮相!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 色综合久久精品亚洲国产| 在线中文字幕第一页| 精品成人免费国产片| 就去干成人网| 亚洲中文字幕aⅴ天堂| av无码精品一区二区乱子| 亚洲老鸭窝一区二区三区| 日日碰狠狠躁久久躁婷婷| 欧美粗大猛烈老熟妇| 亚洲AV优女天堂波多野结衣| 18禁男女爽爽爽午夜网站免费| 我要看特黄特黄的亚洲黄片| 性色综合| 亚洲av观看| 国产成人片视频一区二区| 久久精品aⅴ无码中文字字幕重口 国产成人艳妇aa视频在线 | 97精品久久天干天天| 成人精品老熟妇一区二区| 久久岛国片| 51精品国产人成在线观看| 综1合AV在线播放| 午夜性爽视频男人的天堂| 人人超碰在线| av网站可以直接看的| 一本加勒比hezyo无码资源网 | 手机在线a视频| 亚洲视频在线观看一区二区三| 日韩一区国产二区欧美三区| 99激情网| 性欧美性另类巨大| 国产在线无码视频一区二区三区| 国产美女av一区二区三区| 久久久喷潮一区二区三区| 18禁亚洲一区二区三区| 亚欧在线视频| 国产精品美女一区二三区| 一本大道香蕉久在线不卡视频| 国产精品妖精视频| 男人和女人在床的app| 国产地址二永久伊甸园| 三级黄片一区二区三区|