網易首頁 > 網易號 > 正文申請入駐

告別「利用率崩潰」：GIPO開啟大模型強化學習高效訓練新方法

2026-05-18 12:35:31　來源: 機器之心Pro

天津舉報

分享至

在現代強化學習系統（如訓練視覺語言動作模型 VLA 或大規模機器人控制策略）中，由于策略滯后（Policy Lag）導致數據 Off-policy 現象已成為難以避免的常態。無論是在數據被反復復用迭代的同步更新中，還是在采樣與訓練解耦的分布式 Actor-Learner 異步架構下，存在數據與當前策略的脫節問題。特別是在具身真機場景下，由于物理采集緩慢且高度依賴歷史數據回放，這種滯后程度更是被推向了極端。

近期，來自樹根科技與三一集團團隊聯合提出了GIPO算法，在機器人操控及大語言 / 視覺動作模型（VLA）強化學習訓練中，GIPO 既顯著緩解了數據短缺導致的策略滯后痛點，又有效改善了 PPO 硬截斷引發的 “利用率崩潰（Utilization Collapse）” 問題。

GIPO 論文鏈接：https://arxiv.org/abs/2603.03955
論文標題 1：GIPO: Gaussian Importance Sampling Policy Optimization
AcceRL 論文鏈接：https://arxiv.org/abs/2603.18464
論文標題 2：AcceRL: A Distributed Asynchronous Reinforcement Learning and World Model Framework for Vision-Language-Action Models

GIPO ：用比例看問題，而不是用絕對差值看問題

核心公式

對數空間對稱性：一種優雅的平衡

平滑性與非零梯度：拯救 “死樣本”

偏差 - 方差的 “帕累托旋鈕”

Advantage-Aware GIPO

理論基石：策略性能下界與有限樣本保證

代理目標的理論下界

有限樣本控制與穩定性

在真實的 RL 訓練中，由于無法計算期望，只能從回放池中抽取有限的 Batch Size（假設為 N）來進行經驗估計（Empirical Estimation）：

實驗結果：方差 - 偏差平衡性能和 7B VLA 工業落地

方差 - 偏差平衡性能帕累托最優

分析結果展現了 GIPO 良好的方差 - 偏差平衡性：在嚴重滯后的場景（Case A, B）中，PPO 測算出的方差竟然是 0。但這根本不是因為 PPO 穩定，而是因為其硬截斷機制將所有樣本直接判斷為 “越界”，導致100% 的樣本梯度死亡。沒有梯度，自然沒有方差，這等同于模型停止了學習。

圖 2：2x2 網格世界中的偏差 - 方差權衡。GIPO（虛線）真正定義了帕累托前沿（Pareto Frontier），而 PPO 在高滯后場景下完全停止了學習

工業級驗證規模

在當前的具身智能領域，受限于高昂的物理交互成本與長視野連續控制的復雜性，能將策略優化算法直接部署到數十億參數模型上的研究并不多見。GIPO 團隊為了驗證其算法在真實世界擴展性（Scalability），投入了龐大的計算資源：模型基座使用了 7B 參數量的 OpenVLA-OFT 作為骨干網絡，整個評估過程耗費了超過10,000H200 GPU 小時，在 LIBERO 機器人多任務操作基準上，處理了超過 7.3 億次交互采樣。

為了評估算法對策略滯后的魯棒性，研究團隊設計了兩種數據場景，通過控制采樣器（Actors）與訓練器（Trainers）的比例來人為制造不同程度的數據滯后。新鮮場景（Fresh Regime）：配置 10 個采樣器對 1 個訓練器（或類似高吞吐配置），數據收集快，回放池中的樣本非常接近當前策略。陳舊場景（Stale Regime）：強制降低吞吐量（例如 1 個采樣器對 1 個訓練器），導致訓練器不得不反復咀嚼回放池中陳舊的歷史數據，制造類似于真機場景的策略滯后。

如圖 3 所示，在新鮮場景下，GIPO、PPO 與 SAPO 均能取得不錯的表現，GIPO 略占優或持平。然而，一旦切換到陳舊場景，算法之間的性能差距就會被拉開。在面對陳舊數據時，PPO 的學習曲線往往在早期就陷入停滯，最終收斂到一個較低的平均回報水平。SAPO 雖然引入了軟門控，但在處理高滯后數據時，依然表現出較大的波動和次優的樣本效率。而 GIPO 能更快逼近最優成功率，展現出很強的抗滯后能力和穩定性。

圖 3：LIBERO 機器人套件學習曲線。在 LIBERO-Spatial 和 LIBERO-10 等復雜任務中，GIPO 的優勢被進一步放大，展現了在數十億參數 VLA 任務中實戰價值

Metaworld 多種子實驗

在 MetaWorld Stale（陳舊數據環境）下，團隊對比了 8 種算法配置（包含優勢感知變體），覆蓋了 10 個不同的機器人操控任務。為了消除隨機性干擾，每一個配置 5 個隨機種子，總共運行 400 個獨立的訓練實例。在統計指標 IQM（Interquartile Mean，分位數均值）排名中，GIPO 展示出了非常大的優勢，如下面的聚合排名表所示，GIPO 系列占據了前 6 名位置，其中 GIPO (1.0, 1.0) 平均歸一化得分（0.730）甚至達到了 PPO（0.180）的 4 倍之多。

GIPO 變體的 IQM 表現顯著高于 SAPO 與 PPO 基準。即便在策略滯后環境下，其展現出的成功率提升曲線依然保持著驚人的平滑度。同時，實驗結果有力地驗證了 “對數對稱性” 與 “優勢感知” 可以兼容，而且相得益彰。GIPO 的數學框架可以輕松嵌入非對稱邏輯，同時維持其獨有的理論穩定性上限。

值得注意的是，GIPO 的卓越性并不局限于應對滯后的 “救場”。在策略滯后輕微的新鮮場景下，GIPO 同樣展現出了優良的性能上限。在涵蓋 10 個任務、總計 250 次獨立訓練運行的大規模 MetaWorld Fresh 實驗中，GIPO 依然保持了領先優勢。如下表所示，即便是在通用配置下，GIPO 的 IQM（分位數均值）得分依然達到了 PPO 的兩倍以上。這意味著 GIPO 不僅能處理 “舊數據”，也能更好發揮 “新數據” 的價值，顯著提升了在線 RL 的學習效率。

大模型落地的 “穩壓器”：GIPO 助推 AcceRL 登頂 SOTA

如何高效地進行數十億參數規模的視覺 - 語言 - 動作（VLA）模型的強化學習訓練是行業公認的難題。為此，團隊推出了AcceRL—— 首個專為 VLA 模型設計的全異步、解耦式強化學習與世界模型框架。

AcceRL 通過物理隔離訓練、推理與采樣流，打破了傳統框架中的同步屏障，并首次引入了 “即插即用” 的可訓練世界模型，實現了驚人的200 倍（20,000%）數據效率提升，然而，這種優秀的工程性能對底層算法的穩定性提出了更高要求，這正是 GIPO 大顯身手的舞臺。

為什么 AcceRL 選擇 GIPO？

AcceRL 通過物理隔離設計大幅提升了系統的吞吐量。然而，這種 “全異步” 的分布式架構是一把雙刃劍：它在消除硬件閑置、實現吞吐量超線性擴展的同時，不可避免地帶來了劇烈的策略滯后（Policy Lag）。

在 AcceRL 的非阻塞管道中，訓練與采樣獨立進行，導致回放池中充斥著陳舊的 Off-policy 數據。實驗證明，在這種滯后場景下，標準 PPO 會頻繁觸發硬截斷機制，導致大量包含關鍵修正信號的樣本梯度直接歸零，淪為毫無貢獻的 “死樣本”，阻礙訓練效率。

GIPO 通過其標志性的平滑高斯信任權重，為 AcceRL 提供了一套具備數學保證的阻尼機制，使其能夠穩健地消化這些陳舊樣本，成為了整個框架處理異步偏差的核心優化引擎。此外 AcceRL 實現了利用世界模型想象生成強化學習訓練數據。雖然這些數據擴展了探索邊界，但也存在合成偏差。GIPO 利用對數空間對稱性，提取了這些想象數據中的改進信號，使得 “在想象中學習” 不再因梯度不穩定而崩潰。

如下圖所示，在針對算法目標的消融實驗中，配備 GIPO 的系統表現出了驚人的學習速度。GIPO 在約 8,000 步時達到的性能水平，標準 PPO 需要耗費 60,000 步才能觸及。這意味著在相同的硬件環境下，GIPO 將樣本利用效率提升了整整 7.5 倍。

圖 4：GIPO 和 PPO 在 AcceRL 中效果對比

登頂 LIBERO

在 LIBERO 的長視野（Long-horizon）操控任務中，GIPO 助力 AcceRL 展示了優秀的穩定性。相比于對早期誤差敏感的傳統監督微調（Success Rate 90.7%），AcceRL 在 GIPO 的支撐下實現了突破：在 LIBERO-Long 任務套件中，AcceRL 達成了99.1%的成功率。這種表現源于 GIPO 優異的偏差 - 方差權衡，它確保了模型在執行復雜多步動作時，能夠從輕微的擾動中恢復，維持了策略在長周期內的連續性與穩定性。

結語：算法美學與工程力量的共振

AcceRL 框架的成功，驗證了 GIPO 在大規模異步訓練中的底層基石作用。通過穩健地處理異策略偏差，GIPO 突破了分布式系統的穩定性瓶頸，為‘大規模 VLA + 異步 RL + 世界模型’這一架構提供了可靠的算法護航，并最終在 LIBERO 基準測試中取得了 SOTA 成績。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.