清華AIR DISCOVER Lab 投稿量子位 | 公眾號 QbitAI
具身人工智能領域,正向著以視覺為中心的感知范式,發生全面而深刻的轉型。
作為機器人感知世界時信息密度最高、與自然人機交互最契合的模態,視覺是解鎖通用機器人智能、實現仿真到真實無縫遷移的核心密鑰。
但當研究者們試圖沿著這條路徑向前探索時,卻始終需要在“看得真”和“訓得快”之間做艱難取舍:
高保真視覺渲染帶來了巨大計算與內存開銷;人工建模總是耗時耗力低效循環;現有平臺的兼容性缺陷不斷限制著創新邊界,嚴重束縛了具身智能研究的想象力。
為了攻克這些制約具身智能領域發展的核心難題,清華大學智能產業研究院(AIR)DISCOVER Lab聯合謀先飛技術、原力靈機、求之科技和地瓜機器人,提出了GS-Playground通用多模態仿真框架。
【此處無法插入視頻,遺憾……可到量子位公眾號查看~】
作為一套專為視覺中心的機器人學習打造的新一代仿真基礎設施,GS-Playground首次實現了高吞吐量并行物理仿真與高保真視覺渲染的深度融合,在保證物理仿真所需的高精度與強穩定性的同時,提供了大規模視覺驅動策略訓練與仿真到現實遷移所需的渲染效率與環境支撐。
該成果已被機器人領域國際頂級學術會議RSS 2026(Robotics: Science and Systems)錄用。
![]()
Figure 1. GS-Playground Overview
通用全場景原生兼容:打造統一的具身智能仿真訓練底座
GS-Playground設計之初,便定位于通用型全場景具身智能仿真平臺,平臺核心搭載了團隊自研的跨平臺并行物理引擎,原生支持CPU/GPU雙后端與Windows/Linux/macOS全系統運行,可無縫適配全品類機器人形態,包括市面上常見的四足機器人、 全尺寸人形機器人、多自由度工業機械臂,全部實現開箱即用的原生適配,無需額外的二次開發工作。
在此基礎上,平臺全面覆蓋機器人運動控制、自主導航、高接觸精度操作三大核心任務場景。
在接口設計上,平臺API全面兼容行業通用的MuJoCo MJCF格式,可實現現有仿真項目的零摩擦快速遷移,最大程度降低研究者的適配成本。
自研高性能并行物理引擎:為接觸密集型機器人學習提供穩定底層動力學
對于視覺中心的機器人學習而言,“看得真”只是第一步,真正決定策略能否遷移到真實世界的,是仿真系統能否在復雜接觸、摩擦、碰撞與多剛體耦合中,持續給出穩定、可信的物理反饋。
針對這一核心瓶頸,GS-Playground從底層自研了一套高性能并行物理引擎,采用廣義坐標下的速度-沖量動力學公式,將接觸與摩擦統一建模為混合互補問題(MCP),并通過投影高斯-賽德爾(PGS)求解器實現穩定求解。
相比依賴軟接觸正則化的傳統方式,這一設計更強調靜摩擦保持、高剛度約束與大時間步穩定性,尤其適合足式運動、機械臂抓取和密集多體接觸等高動態任務。
為了支撐大規模并行訓練,團隊進一步引入約束島并行化接觸流形熱啟動機制:
前者將彼此獨立的剛體交互系統拆分為多個約束島并行求解,后者利用上一幀已收斂的接觸沖量作為當前幀初值,將穩定堆疊場景中的PGS迭代次數從50次以上降低到10次以內,大幅提升復雜接觸場景下的收斂效率。
實驗結果充分驗證了這一自研物理引擎的穩定性與吞吐優勢。
在Franka Panda動態抓取搖晃測試中,GS-Playground CPU后端在0.002s與0.01s兩種時間步下,均實現90/90的完整保持成功率,顯著優于MuJoCo、IsaacSim與Genesis等主流方案;
在27自由度人形機器人復雜多體交互基準中,當單環境擴展到50個機器人時,GS-Playground CPU后端仍能保持1015 FPS的穩定吞吐,相比MuJoCo實現32倍加速,相比MjWarp實現約600倍提升。
【此處無法插入視頻,遺憾……可到量子位公眾號查看~】
自研內存高效Batch 3DGS渲染技術:打破保真與效率的行業不可能三角
數千個高保真3DGS場景同時渲染帶來的內存與算力挑戰,一直是制約視覺驅動機器人大規模訓練的核心卡點。
針對剛體仿真環境,團隊首先設計了專屬優化的高效剪枝策略
該策略可將高斯點數量減少90%以上,同時峰值信噪比(PSNR)下降幅度不足0.05,視覺差異幾乎無法被視覺運動策略感知。
這一技術在大幅降低顯存占用的同時,幾乎無損地保留了場景的視覺質量,為大規模高保真并行仿真奠定了核心基礎。
在此基礎上,團隊研發了面向批處理深度優化的批量3DGS渲染器,實現了多場景大規模高斯渲染的并行處理。
在單張NVIDIA RTX 4090 GPU上,渲染器在640×480分辨率下可實現最高10000 FPS的突破性吞吐量,最多可同時渲染2048個場景,不僅顯著提升了單位算力的渲染效率,更能完美適配大批次強化學習的訓練工作流,讓大規模并行訓練不再受限于渲染性能。
![]()
Figure 2. Rendering throughput comparison between GS-Playground and Isaac Sim’s ray-tracing renderer across varying resolutions
此外,團隊還提出了剛性連桿高斯運動學(RLGK)機制,將3D高斯簇與物理引擎中的對應剛體進行精準綁定,確保視覺表征與物理對象的位姿能偶實時同步更新,實現了零額外開銷的狀態同步。
即便是在機器人快速運動、頻繁接觸交互的動態場景中,渲染器依然能夠實現無偽影的動態畫面輸出,從根源上解決了動態場景中的渲染時間一致性與視覺偽影問題,保障了訓練數據的穩定性與可靠性。
【此處無法插入視頻,遺憾……可到量子位公眾號查看~】
自動化“Sim-Ready”Real2Sim工作流:降低 Real2Sim門檻
傳統仿真場景的構建,始終是機器人研發流程中效率最低、成本最高的環節之一。
無論人工建模多么精細,卻始終無法完全復刻真實環境的視覺細節與物理特性,感知與物理的雙重鴻溝成為了制約sim-to-real跨域遷移的核心卡點。
針對這一行業痛點,GS-Playground設計了一套全自動化的“圖像到物理”Real2Sim工作流,僅需輸入單張RGB圖像,即可在數分鐘內完成仿真就緒(Sim-Ready)數字資產的全流程創建,實現了真實場景到數字孿生的快速轉換,同時保證視覺真實感與物理一致性。
![]()
Figure 3. GS-Playground System Architecture
- 左:自動化圖像到物理仿真管線,通過目標分割、背景補繪、三維高斯濺射 / 網格重建,從RGB輸入構建可直接用于仿真的資源。
- 中:物理與渲染仿真核心,包含CPU/GPU物理后端、集成傳感器與激光雷達仿真,以及經過剪枝優化與剛性連桿運動學適配的批量三維高斯濺射渲染。
- 右:下游應用,包括操作任務、導航任務以及大規模并行強化學習。
基于這套成熟的自動化工作流,團隊還構建了Bridge-GS數據集,在Bridge-v2數據集的基礎上,補充了場景與物體級的3DGS表征、物體級網格模型、6D位姿數據與校準后的相機參數,為行業提供了標準化的高質量仿真數據集。
同時團隊在InteriorGS數據集上完成了完整的泛化性驗證,充分證明了該管線對不同室內場景的強適配能力與泛化性能。
【此處無法插入視頻,遺憾……可到量子位公眾號查看~】
全鏈路端到端驗證:實現零微調的無縫仿真到真實遷移
基于三大核心技術的深度協同,GS-Playground完整構建了從真實場景重建、大規模并行訓練,到真機部署的全鏈路端到端閉環,真正實現了“重建即訓練、訓練即部署”的研發流程革新。
在策略訓練與真機遷移的核心能力上,平臺可穩定支持數千個并行環境同時運行,為四足機器人、人形機器人、工業機械臂等全品類機器人,提供大規模視覺強化學習訓練支撐。
僅在GS-Playground仿真環境中完成訓練的視覺驅動策略,無需任何額外的微調與適配,就能直接部署到真實機器人上穩定運行:
- 四足和人形機器人的運動策略均可zero-shot部署到真機;
- 視覺導航任務實現了零樣本的真機直接部署;
- 機械臂抓取任務在零微調的前提下,真實場景成功率達到90%。
![]()
Figure 4.Real-world deployment of policies trained in GS-Playground
這一系列實驗結果,充分證明了平臺實現了真正無壁壘的仿真到真實遷移,也驗證了其在打通具身智能感知與物理跨域鴻溝上的核心價值。
開源賦能:與全球社區共同推動具身智能創新
GS-Playground作為行業內首個實現高吞吐量并行物理仿真與高保真批量3DGS渲染深度融合的全棧仿真框架,從根源上突破了長期制約視覺驅動機器人學習的算力、顯存與資產生成三大核心瓶頸。
其自動化Real2Sim工作流,大幅降低了高保真仿真環境的構建成本;
全維度的實驗驗證也充分證明,平臺在足式運動、自主導航、機器人操作等機器人主流任務中,能夠同時彌合物理與感知層面的仿真到現實鴻溝,實現真正的零微調真機部署。
未來,GS-Playground還將持續迭代優化,不斷拓展能力邊界。
清華大學智能產業研究院DISCOVER Lab始終致力于推動具身智能領域的前沿研究與技術創新,我們將正式開源GS-Playground的全棧框架,提供一套高性能、易使用、高泛化性的核心基礎設施,助力大規模端到端視覺驅動機器人策略學習的進一步發展與產業落地。
項目主頁:
https://gsplayground.github.io
論文鏈接:
https://arxiv.org/abs/2604.25459
倉庫鏈接:
https://github.com/discoverse-dev/gs_playground
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.