網易首頁 > 網易號 > 正文申請入駐

國產GPU開始造世界！國內首個全棧具身智能仿真平臺來了

2026-05-19 14:58:44　來源: 量子位

北京舉報

分享至

金磊發自凹非寺
量子位 | 公眾號 QbitAI

沒有新的GPU，沒有新的智算卡。

但一家國產GPU廠商，卻在一整場發布會的時間里，做了一件非常物理的事兒——

發布首個全棧國產化的具身智能仿真平臺。

先來看效果。

這只名叫小飛的機器狗，緩緩走上了舞臺。

在走到舞臺中央后，只見屏幕里仿真世界的小飛側空翻了一下，隨即，物理世界的小飛便做出了一模一樣的動作。

轉個身，再來一次，動作依舊是像粘貼復制的似的。

小飛的運動策略是這樣的：

100%是在仿真世界中訓練出來，并無損遷移到真實物理世界的。

那么它背后這家國產GPU玩家是誰？這個具身智能仿真平臺又叫什么？

不賣關子。

正是由摩爾線程新鮮發布的MT Lambda。

剛才小飛的一套操作，可以理解為：

這是首次在全國產的硬件平臺上訓練出的運控策略，完整部署到全國產的端側芯片上，第一次實現了Sim-to-Real（仿真到現實）的真機驗證。

至此，摩爾線程也就成為了國內唯一打通“大模型訓練 — 仿真模擬 — 端側部署”全鏈路的GPU企業。

如果說大模型的爆發是依靠海量互聯網數據“喂”出來的，那么具身智能的爆發，則迫切需要一個極度真實的虛擬世界。

而現在，國產GPU，開始自己動手造世界了。

更像是一套物理AI訓練的流水線

若我們把MT Lambda拆開來看，其實，它更像一條圍繞機器人訓練展開的流水線。

最上層，是兩個平臺：MT Lambda-Lab和MT Lambda-Sim。

MT Lambda-Lab更偏具身策略開發與訓練，面向強化學習、模仿學習、VLA模型等任務。

對于開發者來說，這一層要解決的是“怎么讓智能體學會做事”的問題，即動作策略怎么訓練、行為怎么迭代、模型怎么在復雜任務中逐步變得更穩定等等。

MT Lambda-Sim則更偏高保真物理仿真與渲染，負責場景構建、傳感器模擬、數據生成和仿真驗證。

它關心的是另一個問題：機器人看到的世界、碰到的物體、執行動作后的反饋，能不能盡可能接近真實世界。

這兩者合在一起，就構成一條具身智能開發的主鏈路：數據合成—策略訓練—仿真驗證—端側部署。

為什么這條鏈路重要？因為現實世界太貴了。

張建中在發布會上，便提到了訓練一個好的智能體的三大痛點：

首先缺少大量高質量數據，靠人采集、靠遙操作采集，成本都很高；
其次，真機訓練風險和代價很高，不可能讓機器人或機器狗每天反復摔倒、損壞；
第三，真實場景往往不可控，也不容易泛化，實驗室里能跑，換個環境就可能失效。

這幾句話其實點出了具身智能行業當下最現實的矛盾，即模型進化很快，物理場景積累很慢。

大模型可以吃互聯網數據，但機器人吃的是現實世界的數據。一個杯子從桌邊滑落，一塊布料被夾爪抓起，一輛車在雨夜里遇到突發障礙，這些任務很難用簡單文本描述完整。它們涉及光照、材質、摩擦、碰撞、運動軌跡和傳感器反饋。要讓機器人真正學會行動，就必須把這些復雜場景低成本、大規模、可復現地生產出來。

MT Lambda的底層能力，就圍繞三類引擎展開：物理、渲染、AI。

先看物理引擎。

MT Lambda集成了MuJoCo-Warp-MUSA、Newton-MUSA等開源后端，也包括摩爾線程自研的AlphaCore物理引擎。

它們基于MUSA架構進行并行求解，支持高精度、可微分的物理計算。在典型仿真負載下，整體仿真吞吐效率可實現約30倍提升。

這意味著什么？

對于機器人來說，物理引擎的價值遠遠不止讓畫面里的東西動起來。機械臂抓起一個柔性物體，指尖接觸時有力的反饋；四足機器人落地時，不同地面材質會改變受力和姿態；自動駕駛仿真里，車輛、行人、障礙物之間的運動關系要符合真實物理規律。仿真如果不準，訓練出來的策略就容易在現實中翻車。

再看渲染引擎。

MT Lambda搭載MT Photon光子引擎，融合光線追蹤與混合渲染能力，同時引入3DGS和自研AI生成式渲染能力，用來提升仿真畫面的真實感、細膩度和渲染效率。

這部分尤其關鍵。具身智能既要算動作，也要看世界。攝像頭、深度相機、激光雷達、觸覺傳感器等多模態輸入，都會影響機器人如何判斷環境。渲染越真實，合成數據越接近真實數據，Sim to Real的鴻溝就越有機會縮小。

現場講到與光輪智能合作時，張建中提到，MTT S5000具備RT Core光線追蹤核心，可以帶來接近3倍的圖形渲染能力提升；在相關測試中，使用MTT S5000 RT Core硬件光線追蹤加速渲染，可獲得2.7倍性能提升。

最后是AI引擎。

MT Lambda集成深度適配PyTorch的Torch-MUSA框架，配合muSolver、muFFT等加速庫，支持VLA模型開發部署，并融合強化學習和模仿學習訓練范式。

放到具身智能里，AI引擎對應的是機器人大腦的訓練：它要把視覺、語言、動作連接起來，把環境反饋變成下一步決策。

為什么摩爾線程能把“算、仿、渲”裝進一個Lambda？

其實，這也是全功能GPU價值被放大的地方。畢竟，全功能GPU在國內本身便是稀缺的。

因為具身智能對芯片的要求，遠不止AI矩陣計算。

機器人訓練要跑VLA模型、強化學習和模仿學習，這是AI智算；要模擬碰撞、摩擦、動力學和復雜接觸，這是科學計算和物理AI；要生成足夠真實的訓練畫面和傳感器數據，這是3D渲染；未來還會涉及大量視頻數據的采集、傳輸、生成和回放，這又離不開超高清視頻編解碼。

TPU、NPU或者一些GPGPU路線，往往更聚焦AI計算或通用計算的某一類任務。它們在特定場景里可以把效率做到很高，但具身智能的問題更雜，既要訓練數字大腦，也要構建物理世界，還要把真實畫面和傳感器反饋一起納入訓練閉環。

摩爾線程之所以能把MT Lambda做成物理、渲染、AI三大引擎一體的平臺，底層原因正在于它從成立以來堅持的全功能GPU路線。

按照摩爾線程給出的定義，全功能GPU依托自研MUSA架構，在單顆芯片中同時支持AI計算、圖形渲染、物理仿真、科學計算和超高清視頻編解碼。

換句話說，MT Lambda并非是在一堆割裂工具之上硬拼出來的套件，而是長在全功能GPU和MUSA統一架構上的平臺能力。

對于具身智能來說，這種“算、仿、渲”一體化，恰好對應了機器人訓練的真實需求，即一邊跑AI模型、一邊算物理碰撞、一邊渲染真實畫面。

過去，開發者可能需要在不同硬件、不同軟件棧之間切換：AI訓練用一套平臺，圖形渲染用另一套平臺，物理仿真又要接第三套工具。數據在不同系統之間搬來搬去，效率低，調試難，誤差也會累積。

MT Lambda想做的，是把這些原本割裂的環節盡可能放回同一套底座上。對于開發者而言，更理想的狀態是少花時間和底層適配搏斗，把更多精力放在算法、任務和場景本身。

云端、端側、生態，也開始閉環了

如果說MT Lambda解決的是怎么訓練和仿真，那么摩爾線程另一條線索，是把云端、端側和生態一起補上。

云端，是夸娥（KUAE）智算集群。

在大模型時代，集群首先被理解為訓練底座；但到了具身智能時代，它還像一個巨大的機器人訓練場。因為仿真數據一旦規模化，需求會迅速膨脹：

一條機械臂軌跡可能要生成多個機位、多種光照、多種材質、多種擾動下的畫面；自動駕駛世界模型每周可能生成海量測試里程；人形機器人訓練也需要大量并行環境反復試錯……

當數據進入百萬幀、千萬幀規模，底層算力的角色也會從加速器變成一條生產線。

摩爾線程的夸娥智算集群，核心加速單元包括MTT S5000。其中，MTT S5000基于第四代MUSA架構平湖，單卡AI稠密算力最高1000 TFLOPS，配備80GB顯存、1.6TB/s顯存帶寬，支持FP8到FP64全精度計算，同時也是國內極少數同時支持硬件級光線追蹤和AI訓推的國產GPU。

這類指標放到具身智能語境下，含義會更清楚：FP8、BF16、FP16等能力服務AI訓推，光線追蹤服務高保真渲染，物理仿真和科學計算能力服務復雜動力學求解。也就是說，具身智能需要多種能力在同一套架構中協同起來。

端側，則是長江SoC和E300 AI模組。

云端負責大規模訓練，仿真平臺負責試錯和驗證，但最終，策略還是要跑到機器人本體上。機器人在真實世界行動，很多時候不能完全依賴云端響應。它需要本地完成感知、決策和控制，尤其在低延遲、高可靠要求的任務中，端側算力是必須補齊的一環。

基于長江SoC的MTT E300 AI模組提供50 TOPS級本地算力，可直接部署于機器人終端，支持低延遲、高可靠的實時響應。換句話說，云端訓練出來的經驗，需要通過端側模組變成機器人身上的即時反應。

這就形成了一個更完整的閉環：云端做大規模訓練和并行仿真，MT Lambda完成策略開發、數據合成和仿真驗證，E300 AI模組負責把訓練結果帶到機器人終端執行。

更重要的是，摩爾線程這套布局已經開始進入真實生態驗證。

比如，與智源的合作中，RoboBrain 2.5基于MTT S5000千卡集群完成端到端訓練。相關驗證結果顯示，其訓練Loss走勢與H100集群結果高度重合，差異僅0.62%，并在部分任務表現更優；集群從64卡擴展至1024卡，實現90%以上線性擴展效率。

這類結果的意義在于，它驗證了國產算力集群作為具身模型訓練底座的可用性。

再比如，與光輪智能的合作，更多指向仿真數據量產。雙方依托摩爾線程全功能GPU與夸娥智算集群，結合光輪智能“求解—測量—生成”三位一體的仿真平臺，聯合打造高置信度仿真數據合成方案。光輪智能的高精度GPU物理求解器已適配MUSA架構，支持剛體、柔體、流體、顆粒等復雜物理過程的高精度實時仿真，相關案例中，核心物理參數仿真準確度達到99%以上。

與小馬智行的合作，則把場景擴展到自動駕駛。雙方基于MTT S5000和夸娥智算集群，推進世界模型及車端模型訓練的適配與驗證。小馬智行世界模型每周可生成超過100億公里測試數據，并衍生出大量極端場景。對于自動駕駛來說，長尾場景、極端險境和安全驗證，本來就是仿真最能發揮價值的地方。

此外，摩爾線程還與五一視界、光線云等伙伴推進物理AI仿真體系和具身仿真平臺建設。無論是4DGS模型訓練推理、合成數據生成，還是任務庫、仿真計算、虛實驗證閉環，本質上都在回答同一個問題：具身智能很難靠單家公司閉門造車，它需要算力、仿真、算法、場景方一起把生態跑通。

這也是摩爾線程這次發布比較值得關注的地方。

它把故事從“我有一顆芯片”，推進到“我能搭一套基礎設施”。

從底層MUSA架構和全功能GPU往上搭平臺，往下接端側，橫向拉生態。這個打法未必一夜之間改變產業格局，但它已經把國產GPU的戰場，從大模型訓推進一步推向了物理AI基礎設施。

要做的是國產具身智能基礎設施

具身智能現在很大的矛盾點在于，模型很快，但場景很慢。

在數字世界里，大模型可以靠海量文本、圖片、視頻數據持續進化；但在物理世界里，機器人要學會開門、搬箱子、抓柔性物體、穿過復雜路口，每一個動作背后都是真實成本。

真機采集貴，遙操作慢，設備損壞風險高，危險場景不能隨便試，長尾情況又難以窮盡。于是，仿真合成數據和Sim to Real閉環，就成了具身智能從實驗室走向產業的關鍵基礎設施。

這也是為什么“造世界”會成為具身智能競爭的核心命題。

這里的世界，核心價值不在于游戲意義上的好看，而在于能訓練機器人、驗證機器人、糾正機器人行為。它既要足夠真實，能反映光照、材質、碰撞、摩擦、傳感器噪聲；也要足夠高效，能大規模并行生成數據；還要足夠開放，讓不同模型、不同機器人、不同場景都能接入。

從這個角度看，摩爾線程的優勢很難只用某個單點參數概括，其“全功能GPU+MUSA生態”的技術路線，天然更貼近具身智能的復合需求。

全功能GPU提供AI計算、圖形渲染、物理仿真、科學計算和視頻編解碼等多類能力；MUSA提供統一軟件生態；MT Lambda把物理、渲染、AI三大引擎整合起來；夸娥智算集群負責大規模訓練和仿真；長江SoC與E300 AI模組把能力帶向端側；外部生態伙伴則補足數據、場景、仿真平臺和行業應用。

這條鏈路的價值在于，具身智能本質上是一項系統工程。

大模型公司可以先拼數字大腦，但機器人公司最終要面對的，是大腦如何控制身體、身體如何理解環境、環境如何被低成本復現。誰能用更低成本、更高效率，給機器人造出足夠真實、足夠可控、足夠大規模的訓練世界，誰就更有機會把具身智能從Demo帶到真實生產線、道路、家庭和城市空間。

當然，國產具身智能基礎設施的建設不會一蹴而就。

無論是仿真真實性、Sim to Real遷移效果、開發者生態成熟度，還是產業客戶的大規模采用，都需要持續驗證。摩爾線程這套方案能走多遠，也要看后續更多真實項目、更多開發者和更多機器人本體的反饋。

但至少從這次發布會看，國產GPU正在進入一個新階段。

它開始跳出能不能替代某塊卡的被動敘事，主動定義新的算力場景：發布會上升級的“小麥”是數字智能體；翻跟頭的機器狗“小飛”是物理智能體。當AI從屏幕走向現實，當智能體從會說話走向會行動，底層算力就必須同時理解模型、圖形和物理。

張建中在活動中有提到，希望摩爾線程的產品從夸娥到長江，能夠賦能所有智能體。

放在具身智能這條線上，這句話可以翻譯得更具體一點：云端有大訓練場，仿真里有虛擬世界，端側有小腦執行，生態里有真實場景。

大模型競爭拼的是誰能訓練出更強的數字大腦，具身智能競爭還要拼另一件事：誰能先造出一個足夠真實的訓練世界。

這一次，國產GPU已經開始下場造世界了。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.