網易首頁 > 網易號 > 正文申請入駐

超越VLA與世界模型,銀河通用發布LDA,全譜系數據跑通Scaling Law

2026-04-29 10:08:15　來源: 機器之心Pro

北京舉報

分享至

編輯｜+0

近期，具身智能領域儼然是神仙打架。

先是 Generalist AI 發布 GEN-1 引發行業震動，以極高的數據效率和閉環控制能力刷新了各項操作紀錄。

兩周之后，具身賽道的另一位重量級玩家 Physical Intelligence 也發布了新模型 π 0.7，主打「組合與泛化」，實現了對 VLA 架構的進一步升級。

盡管兩者的技術哲學迥異，但它們都在試圖解決同一個核心痛點：數據。

在語言模型的發展歷程中，GPT-2 之所以成為關鍵里程碑，是因為它讓語言模型不再依賴少量高質量標注數據，進入了持續 Scaling 的時代。

但在具身智能領域，這個問題尚未被真正解決：機器人，該怎么把這些亂糟糟的真實世界數據「吃」進去？

就在這一背景下，銀河通用聯合清華北大英偉達等眾多機構聯合發布了跨本體「隱式世界-動作基礎模型」LDA-1B，將目光投向了具身智能 Scaling Law 的這個終極命題：如何讓模型有效利用互聯網規模的異構數據。

簡單來說，LDA-1B 是一個在隱式空間中統一世界模型與 VLA 的基礎模型，憑借對異構數據的全面整合，它處理了超過 3 萬小時的各類具身數據，最核心的突破在于：無論是虛擬與現實的數據（虛實共融），人類操作與機器采集的記錄（人機混合），優質示范與低質量的「臟數據」（質量參差），甚至是有無動作標簽的素材，它都能實現統一且有效的利用。

換句話說：一個模型，開始能夠「充分利用全部數據，并讓所有數據各盡其用」。

LDA-1B 核心架構總覽：通過統一的隱空間動力學，實現對 3 萬小時海量異構數據的通用攝取。

在 RoboCasa-GR1 基準測試中，LDA-1B 以 55.4% 的成功率超越 GR00T-N1.6（47.6%）和 π 0.5，并在真實世界靈巧操作與長程任務中展現出顯著優勢。

值得一提的是，該研究論文已成功被機器人領域頂級會議 RSS 接收（今年僅有 210 篇錄用），目前該模型代碼已正式開源。

論文標題：LDA-1B: Scaling Latent Dynamics Action Model via Universal Embodied Data Ingestion
論文地址：https://arxiv.org/abs/2602.12215
項目鏈接：https://pku-epic.github.io/LDA/
代碼地址：https://github.com/jiangranlv/LDA-1B

喂什么，怎么喂？

要理解 LDA-1B 的突破，首先要看它吃下了什么。

長期以來，真實機器人數據規模有限，人類視頻缺乏動作標注，而仿真數據又面臨真實性約束，導致不同類型的數據彼此割裂。

這次銀河通用的突破，離不開其構建的完整數據基礎設施——銀河星數（AstraData）。基于這一體系，他們搭建了一個「五層數據金字塔」：囊括了互聯網數據（底層）、人類行為數據（次底層）、多本體合成仿真數據（中間層）、真實遙操數據（高層）以及真機自主運行數據（頂層）。

為了支撐這個 1.6B 參數的基礎模型，研究團隊基于這套體系構建了極具規模的通用具身交互數據集EI-30K

但在把數據喂給模型之前，有兩個棘手的問題必須解決。

第一個問題是格式與動作對齊。

機器人數據和人類數據來自不同設備，執行器更是五花八門（夾爪、靈巧手、吸盤）。團隊不僅將其全部轉換成標準的 LeRobot 格式，更首次系統性地提出了「統一末端執行器動作空間」的跨本體解決方案。

對于機器人，這被定義為 6-DoF 末端執行器位姿加上夾爪寬度或靈巧手關節；對于人類，則是 6-DoF 手腕位姿和完整的 MANO 手部參數。

這使得模型不再需要去死記硬背「某臺機器人的關節怎么動」，而是將所有動作統一映射到「手如何與物體發生作用」的物理本質上，為跨本體泛化掃清了障礙。

第二個問題是，數據質量良莠不齊，怎么用？

傳統做法是只用專家數據，把低質量的直接丟掉。LDA-1B 的選擇不一樣，它采用按質分配，讓每一類數據做它最適合的事：

高質量帶動作數據：全面參與策略學習和動力學訓練，享有最高權限。

次優 / 嘈雜動作數據：不參與策略學習，專門用于動力學和視覺預測訓練。動作做錯了沒關系，杯子掉在地上、重力導致的碰撞等物理規律是真實可靠的。它通過動力學分支從這些低質量數據中汲取有效信息，實驗顯示，加入 30% 的低質量軌跡后，模型任務成功率反而提升了 10%。

無動作純視頻：主要是人類第一視角視頻。它們全被投入到視覺預測任務中，讓模型在沒有動作標簽的情況下，純靠「看」來吸收關于物理世界如何自然演化的視覺先驗。

這帶來的變化非常大：低質量數據不再是廢料、無標注視頻也能直接參與訓練。

正是這種最科學的數據分工，讓具身智能的數據規模得以直接放大，也真正在邏輯上為通用機器人走向零售揀選、工業搬運和家庭服務等大規模商業部署鋪平了道路。

VLA 和世界模型，能不能不二選一？

有了海量數據，接下來就是用什么模型來消化它們。

過去幾年，主流答案是前文 π 0.7 所代表的 VLA：看圖、聽指令、輸出動作，鏈路干凈，響應也快。但它本質上是在做海量數據的模式匹配，缺乏真正的物理常識。一旦遇到重心偏移、摩擦力突變等沒見過的物理邊界情況，就極易翻車。

另一條路是世界模型。它不急著輸出動作，而是先在腦子里預測未來：如果我這么做，世界會怎么變？但在「如何表征這個世界」上，大多世界模型主要側重像素級視頻的生成，雖然視頻逼真，但物理動力學并不是學習的重點

LDA-1B 的思路，是干脆別選了，直接在隱空間里深度融合。

它引入了將 World Model 與 Action Model 統一的WAM框架。雖然這一方向如今已是大熱點，但早在 2025 年 3 月，銀河通用就發表了論文，在全球范圍內首次對 WAM 的概念進行了結構化定義。

LDA-1B 正是這一前瞻路線的自然延伸，它讓模型在統一框架下同時學習四類能力：策略學習、前向動力學、逆向動力學、視覺預測。

從命名就能看出這一點——Latent Dynamics Action Model：隱空間中建模世界的狀態變化，同時直接輸出可執行的動作策略。

怎么實現「一個模型，四種能力」？

具體到執行層面，LDA-1B 是如何讓一切運轉起來的？答案在于三個統一。

第一步：統一任務形式

在 LDA-1B 里，策略學習、前向動力學、逆向動力學與視覺預測全部被改寫成同一種形式：預測未來的狀態 + 預測未來的動作。

為了在同一個網絡里搞定這件事，模型引入了「任務嵌入（Task Embedding）」和「寄存器 Token（Register Token）」機制。

通過激活不同的 Task Embedding，模型可以在四種模式間靈活切換。比如專心做「策略控制」時，就用一個視覺 Register Token 占住未來畫面的坑位，全力推演動作；做「視覺預測」時則反過來。

這也就是說，模型不再死板地劃分「控制」和「建模」。通過巧妙的 Token 切換，所有的任務都被轉化成了同一道「填空題」的不同變種，在同一套網絡底層里自如流轉。

第二步：統一表征空間

統一任務之后，還有一個問題：在哪個空間里統一？

LDA-1B 的選擇是：不用像素，用 DINO latent。

傳統的像素級模型或使用 VAE 重構的隱空間，很容易將物體的幾何結構、外觀和動態變化糅合在一起（比如把算力浪費在預測背景墻紙的光影變化上），導致大規模訓練效率極低。

DINO 特征的特點是：對雜亂背景不敏感，但對物體的語義和空間幾何結構極度敏感。這讓模型在推演物理規律時，能專注于「物體的交互與狀態改變」，而不是外觀本身。

換句話說：LDA-1B 不是在「看世界」，而是在「理解結構化的世界」。這一步從根本上決定了它為什么能 Scale。

第三步：統一模型架構

統一任務 + 統一表征之后，最后一步：用什么模型去學？

LDA-1B 選擇了多模態 Diffusion Transformer（MM-DiT）。它同時處理兩條流：動作序列和未來視覺，通過共享注意力機制讓兩者互相影響。

一句話總結就是：動作和視覺是分開的，但「思考過程」是共享的。

這帶來一個很關鍵的效果：模型在預測動作時，會參考「未來世界會變成什么樣」；在預測世界時，也會考慮「動作會帶來什么影響」。

其本質就是：把因果關系寫進了注意力結構里。

三步加在一起——統一任務形式、統一表征空間、統一模型架構——讓模型在同一套框架里，同時學會「怎么動」和「世界會怎么變」。此時，它才真正擁有了一個統一的「大腦」：既能做敏銳的行動者，又能化身精準的預測家。

理論講完了，看看實戰效果

在實驗部分，LDA-1B 在多個維度上展現了這種一體化架構帶來的降維打擊。

得益于這種結構化隱空間帶來的一體化架構，LDA-1B 無論是在任務成功率還是泛化表現上，都以極具說服力的數據，直接秒殺了包括大參數 GR00T 、π 0.5 在內的一眾現有模型。

團隊做了個消融實驗：把 LDA-1B 里的 DINO 隱空間，換回傳統的 VAE 像素級重構，其他什么都不動。結果：成功率從 55.4% 跌到 20.0%，直接腰斬。所以 DINO 隱空間不是加分項，它是 Scaling Law 能在具身智能上跑通的前提。

走進工廠與家庭

到了真實世界（Galbot 和 Unitree 機器人），LDA-1B 在真實場景中所展現出的「靈性」，才是其最具震撼力的地方。

通過演示視頻的，我們可以清晰地看到該模型如何突破傳統具身智能的瓶頸，真正解決商業落地的痛點。

面對此前從未出現在預訓練數據集中的 Galbot 機器人，LDA-1B 展現了極強的少樣本跨本體泛化能力，這改變了以往機器人換個底座就要重新訓練周期的困境。

LDA-1B 僅需約 1 小時的后訓練數據，就能迅速理解新硬件的動力學特性。這種極高的適配效率，是模型能夠從實驗室走向零售門店、物流倉庫等多元環境的基礎。

在典型的長程任務中，機器人需要應對嚴格的步驟依賴：

接到指令后，機器人必須按序完成疊放、轉移、擺盤與加料，任意一步抓取或放置失誤都會導致后續全亂；用戶改變指令以后，也能理解意圖變更并實時調整動作序列，自主糾偏完成新目標。

同時，在高自由度靈巧手方面，面對摩擦力極度復雜的「翻牛排」任務，LDA-1B 憑借對物理常識的深刻理解，實現了超高成功率，證明它不是單純的動作模仿，而是真正掌握了接觸性任務的物理邏輯。

將一排杯子精確疊成金字塔形，每一層的堆疊都依賴上一層的穩定，對雙臂協同與力控提出極高要求。

傳統模型常因單步誤差累積導致全盤失敗，而 LDA-1B 憑借在隱空間進行的動力學推演，能夠預測動作的物理后果并實時糾偏。

結語

回頭看這一波具身智能的浪潮，軌跡和 LLM 的發展驚人地相似。

最早大家手工寫規則；后來發現大力出奇跡，開始用海量數據做行為克隆；而現在，單靠模仿已經摸到了物理常識的天花板。銀河通用的 LDA-1B 給出了一種很有意思的思路：通過一個統一的模型，把所有異構數據都用好，既能「深思熟慮」，又能「說動就動」，終于能像語言模型一樣，從海量異構數據中持續學習世界本身。

目前，銀河通用已將 LDA-1B 的核心算法與代碼體系全面開源，希望推動行業從封閉優化走向開放共建。更重要的是，這一能力并非孤立存在，它將作為核心的通用數據吞吐與跨本體學習能力，快速匯入銀河通用的全人形通用基礎模型——「銀河星腦（AstraBrain）」中。

在未來的路線圖里，團隊已經明確了幾個關鍵的進化方向：首先是嘗試將視覺表示與隱空間動力學進行端到端的聯合學習，不再受限于固定特征；其次是引入更豐富的感知模態，并探索如何自動優化不同質量數據在訓練中的分工角色。

文中視頻鏈接：https://mp.weixin.qq.com/s/ShFejS4jjsPwuUME9KYKnw

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.