![]()
在現代強化學習系統(如訓練視覺語言動作模型 VLA 或大規模機器人控制策略)中,由于策略滯后(Policy Lag)導致數據 Off-policy 現象已成為難以避免的常態。無論是在數據被反復復用迭代的同步更新中,還是在采樣與訓練解耦的分布式 Actor-Learner 異步架構下,存在數據與當前策略的脫節問題。特別是在具身真機場景下,由于物理采集緩慢且高度依賴歷史數據回放,這種滯后程度更是被推向了極端。
![]()
近期,來自樹根科技與三一集團團隊聯合提出了GIPO算法,在機器人操控及大語言 / 視覺動作模型(VLA)強化學習訓練中,GIPO 既顯著緩解了數據短缺導致的策略滯后痛點,又有效改善了 PPO 硬截斷引發的 “利用率崩潰(Utilization Collapse)” 問題。
![]()
- GIPO 論文鏈接:https://arxiv.org/abs/2603.03955
- 論文標題 1:GIPO: Gaussian Importance Sampling Policy Optimization
- AcceRL 論文鏈接:https://arxiv.org/abs/2603.18464
- 論文標題 2:AcceRL: A Distributed Asynchronous Reinforcement Learning and World Model Framework for Vision-Language-Action Models
GIPO :用比例看問題,而不是用絕對差值看問題
核心公式
![]()
![]()
![]()
![]()
![]()
![]()
![]()
對數空間對稱性:一種優雅的平衡
![]()
![]()
![]()
平滑性與非零梯度:拯救 “死樣本”
![]()
偏差 - 方差的 “帕累托旋鈕”
![]()
![]()
![]()
![]()
Advantage-Aware GIPO
![]()
![]()
![]()
理論基石:策略性能下界與有限樣本保證
代理目標的理論下界
![]()
![]()
![]()
有限樣本控制與穩定性
在真實的 RL 訓練中,由于無法計算期望,只能從回放池中抽取有限的 Batch Size(假設為 N)來進行經驗估計(Empirical Estimation):
![]()
![]()
![]()
![]()
![]()
![]()
實驗結果: 方差 - 偏差平衡性能和 7B VLA 工業落地
方差 - 偏差平衡性能帕累托最優
![]()
分析結果展現了 GIPO 良好的方差 - 偏差平衡性:在嚴重滯后的場景(Case A, B)中,PPO 測算出的方差竟然是 0。但這根本不是因為 PPO 穩定,而是因為其硬截斷機制將所有樣本直接判斷為 “越界”,導致100% 的樣本梯度死亡。沒有梯度,自然沒有方差,這等同于模型停止了學習。
![]()
![]()
圖 2:2x2 網格世界中的偏差 - 方差權衡。GIPO(虛線)真正定義了帕累托前沿(Pareto Frontier),而 PPO 在高滯后場景下完全停止了學習
工業級驗證規模
在當前的具身智能領域,受限于高昂的物理交互成本與長視野連續控制的復雜性,能將策略優化算法直接部署到數十億參數模型上的研究并不多見。GIPO 團隊為了驗證其算法在真實世界擴展性(Scalability),投入了龐大的計算資源:模型基座使用了 7B 參數量的 OpenVLA-OFT 作為骨干網絡,整個評估過程耗費了超過10,000H200 GPU 小時,在 LIBERO 機器人多任務操作基準上,處理了超過 7.3 億次交互采樣。
為了評估算法對策略滯后的魯棒性,研究團隊設計了兩種數據場景,通過控制采樣器(Actors)與訓練器(Trainers)的比例來人為制造不同程度的數據滯后。新鮮場景(Fresh Regime):配置 10 個采樣器對 1 個訓練器(或類似高吞吐配置),數據收集快,回放池中的樣本非常接近當前策略。陳舊場景(Stale Regime):強制降低吞吐量(例如 1 個采樣器對 1 個訓練器),導致訓練器不得不反復咀嚼回放池中陳舊的歷史數據,制造類似于真機場景的策略滯后。
如圖 3 所示,在新鮮場景下,GIPO、PPO 與 SAPO 均能取得不錯的表現,GIPO 略占優或持平。然而,一旦切換到陳舊場景,算法之間的性能差距就會被拉開。在面對陳舊數據時,PPO 的學習曲線往往在早期就陷入停滯,最終收斂到一個較低的平均回報水平。SAPO 雖然引入了軟門控,但在處理高滯后數據時,依然表現出較大的波動和次優的樣本效率。而 GIPO 能更快逼近最優成功率,展現出很強的抗滯后能力和穩定性。
![]()
圖 3:LIBERO 機器人套件學習曲線。在 LIBERO-Spatial 和 LIBERO-10 等復雜任務中,GIPO 的優勢被進一步放大,展現了在數十億參數 VLA 任務中實戰價值
Metaworld 多種子實驗
在 MetaWorld Stale(陳舊數據環境)下,團隊對比了 8 種算法配置(包含優勢感知變體),覆蓋了 10 個不同的機器人操控任務。為了消除隨機性干擾,每一個配置 5 個隨機種子,總共運行 400 個獨立的訓練實例。在統計指標 IQM(Interquartile Mean,分位數均值) 排名中,GIPO 展示出了非常大的優勢,如下面的聚合排名表所示,GIPO 系列占據了前 6 名位置,其中 GIPO (1.0, 1.0) 平均歸一化得分(0.730)甚至達到了 PPO(0.180)的 4 倍之多。
![]()
![]()
GIPO 變體的 IQM 表現顯著高于 SAPO 與 PPO 基準。即便在策略滯后環境下,其展現出的成功率提升曲線依然保持著驚人的平滑度。同時,實驗結果有力地驗證了 “對數對稱性” 與 “優勢感知” 可以兼容,而且相得益彰。GIPO 的數學框架可以輕松嵌入非對稱邏輯,同時維持其獨有的理論穩定性上限。
值得注意的是,GIPO 的卓越性并不局限于應對滯后的 “救場”。在策略滯后輕微的新鮮場景下,GIPO 同樣展現出了優良的性能上限。在涵蓋 10 個任務、總計 250 次獨立訓練運行的大規模 MetaWorld Fresh 實驗中,GIPO 依然保持了領先優勢。如下表所示,即便是在通用配置下,GIPO 的 IQM(分位數均值)得分依然達到了 PPO 的兩倍以上。這意味著 GIPO 不僅能處理 “舊數據”,也能更好發揮 “新數據” 的價值,顯著提升了在線 RL 的學習效率。
![]()
大模型落地的 “穩壓器”:GIPO 助推 AcceRL 登頂 SOTA
![]()
如何高效地進行數十億參數規模的視覺 - 語言 - 動作(VLA)模型的強化學習訓練是行業公認的難題。為此,團隊推出了AcceRL—— 首個專為 VLA 模型設計的全異步、解耦式強化學習與世界模型框架。
AcceRL 通過物理隔離訓練、推理與采樣流,打破了傳統框架中的同步屏障,并首次引入了 “即插即用” 的可訓練世界模型,實現了驚人的200 倍(20,000%)數據效率提升,然而,這種優秀的工程性能對底層算法的穩定性提出了更高要求,這正是 GIPO 大顯身手的舞臺。
![]()
為什么 AcceRL 選擇 GIPO?
AcceRL 通過物理隔離設計大幅提升了系統的吞吐量。然而,這種 “全異步” 的分布式架構是一把雙刃劍:它在消除硬件閑置、實現吞吐量超線性擴展的同時,不可避免地帶來了劇烈的策略滯后(Policy Lag)。
在 AcceRL 的非阻塞管道中,訓練與采樣獨立進行,導致回放池中充斥著陳舊的 Off-policy 數據。實驗證明,在這種滯后場景下,標準 PPO 會頻繁觸發硬截斷機制,導致大量包含關鍵修正信號的樣本梯度直接歸零,淪為毫無貢獻的 “死樣本”,阻礙訓練效率。
GIPO 通過其標志性的平滑高斯信任權重,為 AcceRL 提供了一套具備數學保證的阻尼機制,使其能夠穩健地消化這些陳舊樣本,成為了整個框架處理異步偏差的核心優化引擎。此外 AcceRL 實現了利用世界模型想象生成強化學習訓練數據。雖然這些數據擴展了探索邊界,但也存在合成偏差。GIPO 利用對數空間對稱性,提取了這些想象數據中的改進信號,使得 “在想象中學習” 不再因梯度不穩定而崩潰。
如下圖所示,在針對算法目標的消融實驗中,配備 GIPO 的系統表現出了驚人的學習速度。GIPO 在約 8,000 步時達到的性能水平,標準 PPO 需要耗費 60,000 步才能觸及。這意味著在相同的硬件環境下,GIPO 將樣本利用效率提升了整整 7.5 倍。
![]()
圖 4:GIPO 和 PPO 在 AcceRL 中效果對比
登頂 LIBERO
在 LIBERO 的長視野(Long-horizon)操控任務中,GIPO 助力 AcceRL 展示了優秀的穩定性。相比于對早期誤差敏感的傳統監督微調(Success Rate 90.7%),AcceRL 在 GIPO 的支撐下實現了突破:在 LIBERO-Long 任務套件中,AcceRL 達成了99.1%的成功率。這種表現源于 GIPO 優異的偏差 - 方差權衡,它確保了模型在執行復雜多步動作時,能夠從輕微的擾動中恢復,維持了策略在長周期內的連續性與穩定性。
結語:算法美學與工程力量的共振
AcceRL 框架的成功,驗證了 GIPO 在大規模異步訓練中的底層基石作用。通過穩健地處理異策略偏差,GIPO 突破了分布式系統的穩定性瓶頸,為‘大規模 VLA + 異步 RL + 世界模型’這一架構提供了可靠的算法護航,并最終在 LIBERO 基準測試中取得了 SOTA 成績。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.