網易首頁 > 網易號 > 正文申請入駐

傳統UED瓶頸被打破，強化學習也能精準定位「最近發展區」

2026-05-21 19:33:33　來源: 機器之心Pro

天津舉報

分享至

本文第一作者來自國防科技大學數智建模與仿真國家級重點實驗室（State Key Laboratory of Digital Intelligent Modeling and Simulation）2024 級博士生原方，通訊作者為國防科技大學曾俊杰助理研究員、李慶倫博士，并由尹全軍研究員、秦龍副教授、沈思淇長聘副教授（廈門大學）、謝毓湘教授、楊俊強副研究員共同合作完成。研究團隊長期聚焦建模仿真、強化學習等相關方向研究。

訓練強化學習智能體時，一個常見問題是：有些 level 太簡單，智能體跑幾遍就會；有些 level 又太難，智能體幾乎得不到有效反饋。前者只是在重復已有能力，后者則會把訓練預算消耗在無效探索上。真正有價值的訓練環境，往往位于二者之間。它剛好超過智能體當前能力邊界，但又沒有難到完全學不會。換句話說，強化學習訓練也存在某種「最近發展區」：高效訓練的關鍵，不只是生成更多 level，而是找到當前階段最值得學的 level。

Unsupervised Environment Design（UED）正是圍繞這一問題展開。UED 不再把訓練環境看作固定數據集，而是通過自動生成、選擇或重放 level，動態塑造訓練分布，讓智能體在持續學習中獲得更好的泛化能力。但 UED 面臨一個核心難題：系統需要知道，哪些 level 真正推動了智能體學習。

近日，來自國防科技大學、廈門大學等機構的研究者提出了PACE（Parameter Change Environment Design）。PACE 使用 level 誘導的策略參數變化作為訓練價值信號，直接衡量該 level 是否帶來實際學習進展。該工作已被 ICML 2026 接收。

論文題目：PACE: Parameter Change for Unsupervised Environment Design
論文鏈接：https://doi.org/10.48550/arXiv.2605.01358

UED：讓訓練環境自己形成課程

UED 的出發點并不復雜。傳統強化學習通常先給定一批訓練環境，再讓智能體在其中反復學習。但訓練環境并非越多越好，也不是越難越好。如果 level 太簡單，智能體很快進入「舒適區」，只能鞏固已經掌握的行為；如果 level 太難，智能體又會進入「恐慌區」，長期得不到有效獎勵。兩種情況都會削弱學習效率和最終泛化能力。

在 UED 之前，Domain Randomization 已經表明，環境多樣性有助于提升泛化能力；但這類方法通常只是靜態地隨機采樣環境參數，難以根據智能體當前的學習狀態動態調整訓練內容。

UED 進一步將「訓練什么」納入學習過程：系統不再把訓練環境視為固定背景，而是動態生成、選擇或重放 level，并根據某種評價信號決定哪些 level 更值得保留、重放或進一步編輯。理想情況下，這些 level 應該持續貼近智能體當前能力邊界：既不輕易被解決，也不完全超出可學習范圍。

現有 UED 方法通常需要一個 score 來評價 level。常見做法包括 regret、GAE、MaxMC 等。這些信號在實踐中有效，但它們更多從可解性差距、價值估計誤差或回報估計出發，沒有評估「這次訓練到底帶來了多少策略改進」。另一類方法更直接，例如 Marginal Benefit 會比較策略更新前后的表現變化，因此更接近真實學習進步。但它需要額外 rollout 來估計更新前后的回報，計算開銷更高，估計方差也更大。

因此，UED 的核心問題就變成了：如何簡單而準確地判斷一個 level 是否真正推動了智能體的學習？

PACE：用參數變化衡量學習進步

PACE 的核心判斷很直接：如果一個 level 真正促成了學習，那么智能體在這個 level 上訓練后，策略參數應該發生有意義的變化。也就是說，PACE 不再把 level 的價值建立在 regret、GAE 或 Monte Carlo return 等間接信號上，而是直接觀察該 level 誘導的策略更新。

進一步假設這一步更新沿著局部梯度方向進行，即

將其代入一階展開，可得目標提升的近似形式：

這個近似關系說明：在局部梯度更新假設下，一個 level 帶來的目標提升與其誘導的策略參數變化平方范數成正比。因此，PACE 將 level score 定義為：

圖 1：PACE 工作流程圖。

基于這一 score，PACE 的運行過程可以分為兩個部分：level scoring和policy training（圖 1）。

整個過程不斷交替進行：新 level 被生成并打分，高價值 level 被寫入 buffer，buffer 中的 level 又被優先重放來訓練策略。由此，PACE 用策略參數變化構造出一種內生的學習進步信號，并用它驅動訓練課程隨智能體能力動態演化。

實驗結果：從迷宮泛化到開放式任務

圖 2：MiniGrid 上的零樣本遷移性能。

表 1：MiniGrid 上的整體泛化指標。

為了進一步檢驗 PACE 在更復雜任務中的適用性，論文還在Craftax上進行實驗。Craftax 是一個面向開放式強化學習的 JAX benchmark。隨著探索推進，智能體會遇到新的區域、機制和目標，任務分布也會持續變化，因此更能檢驗 UED 方法是否能在長訓練過程中持續提供有效課程。

表 2：Craftax 上 20 個未見過 levels 上的平均回報和標準差。

結語與展望

在強化學習智能體需要持續適應未見環境的背景下，如何準確識別真正推動學習的 levels 是 UED 的關鍵問題；PACE 通過參數變化這一簡單、低方差、計算友好的內生信號，將環境評價直接建立在 realized learning progress 之上，從而減少代理指標偏差、高方差估計和額外 rollout 開銷的影響，并為構建更穩定、更可擴展的自適應訓練課程提供了新的思路。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.