![]()
本文第一作者來自國防科技大學數智建模與仿真國家級重點實驗室(State Key Laboratory of Digital Intelligent Modeling and Simulation)2024 級博士生原方,通訊作者為國防科技大學曾俊杰助理研究員、李慶倫博士,并由尹全軍研究員、秦龍副教授、沈思淇長聘副教授(廈門大學)、謝毓湘教授、楊俊強副研究員共同合作完成。研究團隊長期聚焦建模仿真、強化學習等相關方向研究。
訓練強化學習智能體時,一個常見問題是:有些 level 太簡單,智能體跑幾遍就會;有些 level 又太難,智能體幾乎得不到有效反饋。前者只是在重復已有能力,后者則會把訓練預算消耗在無效探索上。真正有價值的訓練環境,往往位于二者之間。它剛好超過智能體當前能力邊界,但又沒有難到完全學不會。換句話說,強化學習訓練也存在某種「最近發展區」:高效訓練的關鍵,不只是生成更多 level,而是找到當前階段最值得學的 level。
Unsupervised Environment Design(UED)正是圍繞這一問題展開。UED 不再把訓練環境看作固定數據集,而是通過自動生成、選擇或重放 level,動態塑造訓練分布,讓智能體在持續學習中獲得更好的泛化能力。但 UED 面臨一個核心難題:系統需要知道,哪些 level 真正推動了智能體學習。
近日,來自國防科技大學、廈門大學等機構的研究者提出了PACE(Parameter Change Environment Design)。PACE 使用 level 誘導的策略參數變化作為訓練價值信號,直接衡量該 level 是否帶來實際學習進展。該工作已被 ICML 2026 接收。
![]()
- 論文題目:PACE: Parameter Change for Unsupervised Environment Design
- 論文鏈接:https://doi.org/10.48550/arXiv.2605.01358
UED:讓訓練環境自己形成課程
UED 的出發點并不復雜。傳統強化學習通常先給定一批訓練環境,再讓智能體在其中反復學習。但訓練環境并非越多越好,也不是越難越好。如果 level 太簡單,智能體很快進入「舒適區」,只能鞏固已經掌握的行為;如果 level 太難,智能體又會進入「恐慌區」,長期得不到有效獎勵。兩種情況都會削弱學習效率和最終泛化能力。
在 UED 之前,Domain Randomization 已經表明,環境多樣性有助于提升泛化能力;但這類方法通常只是靜態地隨機采樣環境參數,難以根據智能體當前的學習狀態動態調整訓練內容。
UED 進一步將「訓練什么」納入學習過程:系統不再把訓練環境視為固定背景,而是動態生成、選擇或重放 level,并根據某種評價信號決定哪些 level 更值得保留、重放或進一步編輯。理想情況下,這些 level 應該持續貼近智能體當前能力邊界:既不輕易被解決,也不完全超出可學習范圍。
現有 UED 方法通常需要一個 score 來評價 level。常見做法包括 regret、GAE、MaxMC 等。這些信號在實踐中有效,但它們更多從可解性差距、價值估計誤差或回報估計出發,沒有評估「這次訓練到底帶來了多少策略改進」。另一類方法更直接,例如 Marginal Benefit 會比較策略更新前后的表現變化,因此更接近真實學習進步。但它需要額外 rollout 來估計更新前后的回報,計算開銷更高,估計方差也更大。
因此,UED 的核心問題就變成了:如何簡單而準確地判斷一個 level 是否真正推動了智能體的學習?
PACE:用參數變化衡量學習進步
PACE 的核心判斷很直接:如果一個 level 真正促成了學習,那么智能體在這個 level 上訓練后,策略參數應該發生有意義的變化。也就是說,PACE 不再把 level 的價值建立在 regret、GAE 或 Monte Carlo return 等間接信號上,而是直接觀察該 level 誘導的策略更新。
![]()
![]()
![]()
![]()
進一步假設這一步更新沿著局部梯度方向進行,即
![]()
![]()
將其代入一階展開,可得目標提升的近似形式:
![]()
這個近似關系說明:在局部梯度更新假設下,一個 level 帶來的目標提升與其誘導的策略參數變化平方范數成正比。因此,PACE 將 level score 定義為:
![]()
![]()
![]()
圖 1:PACE 工作流程圖。
基于這一 score,PACE 的運行過程可以分為兩個部分:level scoring和policy training(圖 1)。
![]()
![]()
![]()
整個過程不斷交替進行:新 level 被生成并打分,高價值 level 被寫入 buffer,buffer 中的 level 又被優先重放來訓練策略。由此,PACE 用策略參數變化構造出一種內生的學習進步信號,并用它驅動訓練課程隨智能體能力動態演化。
實驗結果:從迷宮泛化到開放式任務
![]()
![]()
![]()
![]()
圖 2:MiniGrid 上的零樣本遷移性能。
![]()
表 1:MiniGrid 上的整體泛化指標。
為了進一步檢驗 PACE 在更復雜任務中的適用性,論文還在Craftax上進行實驗。Craftax 是一個面向開放式強化學習的 JAX benchmark。隨著探索推進,智能體會遇到新的區域、機制和目標,任務分布也會持續變化,因此更能檢驗 UED 方法是否能在長訓練過程中持續提供有效課程。
![]()
![]()
表 2:Craftax 上 20 個未見過 levels 上的平均回報和標準差。
結語與展望
在強化學習智能體需要持續適應未見環境的背景下,如何準確識別真正推動學習的 levels 是 UED 的關鍵問題;PACE 通過參數變化這一簡單、低方差、計算友好的內生信號,將環境評價直接建立在 realized learning progress 之上,從而減少代理指標偏差、高方差估計和額外 rollout 開銷的影響,并為構建更穩定、更可擴展的自適應訓練課程提供了新的思路。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.