<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      超越VLA與世界模型,銀河通用發布LDA,全譜系數據跑通Scaling Law

      0
      分享至



      編輯|+0

      近期,具身智能領域儼然是神仙打架。

      先是 Generalist AI 發布 GEN-1 引發行業震動,以極高的數據效率和閉環控制能力刷新了各項操作紀錄。

      兩周之后,具身賽道的另一位重量級玩家 Physical Intelligence 也發布了新模型 π 0.7,主打「組合與泛化」,實現了對 VLA 架構的進一步升級。

      盡管兩者的技術哲學迥異,但它們都在試圖解決同一個核心痛點:數據。

      在語言模型的發展歷程中,GPT-2 之所以成為關鍵里程碑,是因為它讓語言模型不再依賴少量高質量標注數據,進入了持續 Scaling 的時代。

      但在具身智能領域,這個問題尚未被真正解決:機器人,該怎么把這些亂糟糟的真實世界數據「吃」進去?

      就在這一背景下,銀河通用聯合清華北大英偉達等眾多機構聯合發布了跨本體「隱式世界-動作基礎模型」LDA-1B,將目光投向了具身智能 Scaling Law 的這個終極命題:如何讓模型有效利用互聯網規模的異構數據。

      簡單來說,LDA-1B 是一個在隱式空間中統一世界模型與 VLA 的基礎模型,憑借對異構數據的全面整合,它處理了超過 3 萬小時的各類具身數據,最核心的突破在于:無論是虛擬與現實的數據(虛實共融),人類操作與機器采集的記錄(人機混合),優質示范與低質量的「臟數據」(質量參差),甚至是有無動作標簽的素材,它都能實現統一且有效的利用。

      換句話說:一個模型,開始能夠「充分利用全部數據,并讓所有數據各盡其用」。



      LDA-1B 核心架構總覽:通過統一的隱空間動力學,實現對 3 萬小時海量異構數據的通用攝取。

      在 RoboCasa-GR1 基準測試中,LDA-1B 以 55.4% 的成功率超越 GR00T-N1.6(47.6%)和 π 0.5,并在真實世界靈巧操作與長程任務中展現出顯著優勢。

      值得一提的是,該研究論文已成功被機器人領域頂級會議 RSS 接收(今年僅有 210 篇錄用),目前該模型代碼已正式開源。



      • 論文標題:LDA-1B: Scaling Latent Dynamics Action Model via Universal Embodied Data Ingestion
      • 論文地址:https://arxiv.org/abs/2602.12215
      • 項目鏈接:https://pku-epic.github.io/LDA/
      • 代碼地址:https://github.com/jiangranlv/LDA-1B

      喂什么,怎么喂?

      要理解 LDA-1B 的突破,首先要看它吃下了什么。

      長期以來,真實機器人數據規模有限,人類視頻缺乏動作標注,而仿真數據又面臨真實性約束,導致不同類型的數據彼此割裂。

      這次銀河通用的突破,離不開其構建的完整數據基礎設施——銀河星數(AstraData)。基于這一體系,他們搭建了一個「五層數據金字塔」:囊括了互聯網數據(底層)、人類行為數據(次底層)、多本體合成仿真數據(中間層)、真實遙操數據(高層)以及真機自主運行數據(頂層)。



      為了支撐這個 1.6B 參數的基礎模型,研究團隊基于這套體系構建了極具規模的通用具身交互數據集EI-30K

      但在把數據喂給模型之前,有兩個棘手的問題必須解決。

      第一個問題是格式與動作對齊。

      機器人數據和人類數據來自不同設備,執行器更是五花八門(夾爪、靈巧手、吸盤)。團隊不僅將其全部轉換成標準的 LeRobot 格式,更首次系統性地提出了「統一末端執行器動作空間」的跨本體解決方案。



      對于機器人,這被定義為 6-DoF 末端執行器位姿加上夾爪寬度或靈巧手關節;對于人類,則是 6-DoF 手腕位姿和完整的 MANO 手部參數。

      這使得模型不再需要去死記硬背「某臺機器人的關節怎么動」,而是將所有動作統一映射到「手如何與物體發生作用」的物理本質上,為跨本體泛化掃清了障礙。

      第二個問題是,數據質量良莠不齊,怎么用?

      傳統做法是只用專家數據,把低質量的直接丟掉。LDA-1B 的選擇不一樣,它采用按質分配,讓每一類數據做它最適合的事:

      高質量帶動作數據:全面參與策略學習和動力學訓練,享有最高權限。

      次優 / 嘈雜動作數據:不參與策略學習,專門用于動力學和視覺預測訓練。動作做錯了沒關系,杯子掉在地上、重力導致的碰撞等物理規律是真實可靠的。它通過動力學分支從這些低質量數據中汲取有效信息,實驗顯示,加入 30% 的低質量軌跡后,模型任務成功率反而提升了 10%。

      無動作純視頻:主要是人類第一視角視頻。它們全被投入到視覺預測任務中,讓模型在沒有動作標簽的情況下,純靠「看」來吸收關于物理世界如何自然演化的視覺先驗。

      這帶來的變化非常大:低質量數據不再是廢料、無標注視頻也能直接參與訓練。



      正是這種最科學的數據分工,讓具身智能的數據規模得以直接放大,也真正在邏輯上為通用機器人走向零售揀選、工業搬運和家庭服務等大規模商業部署鋪平了道路。



      VLA 和世界模型,能不能不二選一?

      有了海量數據,接下來就是用什么模型來消化它們。

      過去幾年,主流答案是前文 π 0.7 所代表的 VLA:看圖、聽指令、輸出動作,鏈路干凈,響應也快。但它本質上是在做海量數據的模式匹配,缺乏真正的物理常識。一旦遇到重心偏移、摩擦力突變等沒見過的物理邊界情況,就極易翻車。

      另一條路是世界模型。它不急著輸出動作,而是先在腦子里預測未來:如果我這么做,世界會怎么變?但在「如何表征這個世界」上,大多世界模型主要側重像素級視頻的生成,雖然視頻逼真,但物理動力學并不是學習的重點

      LDA-1B 的思路,是干脆別選了,直接在隱空間里深度融合。

      它引入了將 World Model 與 Action Model 統一的WAM框架。雖然這一方向如今已是大熱點,但早在 2025 年 3 月,銀河通用就發表了論文,在全球范圍內首次對 WAM 的概念進行了結構化定義。





      LDA-1B 正是這一前瞻路線的自然延伸,它讓模型在統一框架下同時學習四類能力:策略學習、前向動力學、逆向動力學、視覺預測。



      從命名就能看出這一點——Latent Dynamics Action Model:隱空間中建模世界的狀態變化,同時直接輸出可執行的動作策略。

      怎么實現「一個模型,四種能力」?

      具體到執行層面,LDA-1B 是如何讓一切運轉起來的?答案在于三個統一。

      第一步:統一任務形式

      在 LDA-1B 里,策略學習、前向動力學、逆向動力學與視覺預測全部被改寫成同一種形式:預測未來的狀態 + 預測未來的動作。

      為了在同一個網絡里搞定這件事,模型引入了「任務嵌入(Task Embedding)」和「寄存器 Token(Register Token)」機制 。

      通過激活不同的 Task Embedding,模型可以在四種模式間靈活切換 。比如專心做「策略控制」時,就用一個視覺 Register Token 占住未來畫面的坑位,全力推演動作;做「視覺預測」時則反過來 。

      這也就是說,模型不再死板地劃分「控制」和「建模」。通過巧妙的 Token 切換,所有的任務都被轉化成了同一道「填空題」的不同變種,在同一套網絡底層里自如流轉。

      第二步:統一表征空間

      統一任務之后,還有一個問題:在哪個空間里統一?

      LDA-1B 的選擇是:不用像素,用 DINO latent。

      傳統的像素級模型或使用 VAE 重構的隱空間,很容易將物體的幾何結構、外觀和動態變化糅合在一起(比如把算力浪費在預測背景墻紙的光影變化上),導致大規模訓練效率極低。

      DINO 特征的特點是:對雜亂背景不敏感,但對物體的語義和空間幾何結構極度敏感。這讓模型在推演物理規律時,能專注于「物體的交互與狀態改變」,而不是外觀本身。



      換句話說:LDA-1B 不是在「看世界」,而是在「理解結構化的世界」。這一步從根本上決定了它為什么能 Scale。

      第三步:統一模型架構

      統一任務 + 統一表征之后,最后一步:用什么模型去學?

      LDA-1B 選擇了多模態 Diffusion Transformer(MM-DiT)。它同時處理兩條流:動作序列和未來視覺,通過共享注意力機制讓兩者互相影響。



      一句話總結就是:動作和視覺是分開的,但「思考過程」是共享的。

      這帶來一個很關鍵的效果:模型在預測動作時,會參考「未來世界會變成什么樣」;在預測世界時,也會考慮「動作會帶來什么影響」。

      其本質就是:把因果關系寫進了注意力結構里。

      三步加在一起——統一任務形式、統一表征空間、統一模型架構——讓模型在同一套框架里,同時學會「怎么動」和「世界會怎么變」。此時,它才真正擁有了一個統一的「大腦」:既能做敏銳的行動者,又能化身精準的預測家。

      理論講完了,看看實戰效果

      在實驗部分,LDA-1B 在多個維度上展現了這種一體化架構帶來的降維打擊。

      得益于這種結構化隱空間帶來的一體化架構,LDA-1B 無論是在任務成功率還是泛化表現上,都以極具說服力的數據,直接秒殺了包括大參數 GR00T 、π 0.5 在內的一眾現有模型。





      團隊做了個消融實驗:把 LDA-1B 里的 DINO 隱空間,換回傳統的 VAE 像素級重構,其他什么都不動。結果:成功率從 55.4% 跌到 20.0%,直接腰斬。所以 DINO 隱空間不是加分項,它是 Scaling Law 能在具身智能上跑通的前提。

      走進工廠與家庭

      到了真實世界(Galbot 和 Unitree 機器人),LDA-1B 在真實場景中所展現出的「靈性」,才是其最具震撼力的地方。

      通過演示視頻的,我們可以清晰地看到該模型如何突破傳統具身智能的瓶頸,真正解決商業落地的痛點。

      面對此前從未出現在預訓練數據集中的 Galbot 機器人,LDA-1B 展現了極強的少樣本跨本體泛化能力,這改變了以往機器人換個底座就要重新訓練周期的困境。



      LDA-1B 僅需約 1 小時的后訓練數據,就能迅速理解新硬件的動力學特性。這種極高的適配效率,是模型能夠從實驗室走向零售門店、物流倉庫等多元環境的基礎。

      在典型的長程任務中,機器人需要應對嚴格的步驟依賴:



      接到指令后,機器人必須按序完成疊放、轉移、擺盤與加料,任意一步抓取或放置失誤都會導致后續全亂;用戶改變指令以后,也能理解意圖變更并實時調整動作序列,自主糾偏完成新目標。

      同時,在高自由度靈巧手方面,面對摩擦力極度復雜的「翻牛排」任務,LDA-1B 憑借對物理常識的深刻理解,實現了超高成功率,證明它不是單純的動作模仿,而是真正掌握了接觸性任務的物理邏輯。

      將一排杯子精確疊成金字塔形,每一層的堆疊都依賴上一層的穩定,對雙臂協同與力控提出極高要求。



      傳統模型常因單步誤差累積導致全盤失敗,而 LDA-1B 憑借在隱空間進行的動力學推演,能夠預測動作的物理后果并實時糾偏。

      結語

      回頭看這一波具身智能的浪潮,軌跡和 LLM 的發展驚人地相似。

      最早大家手工寫規則;后來發現大力出奇跡,開始用海量數據做行為克隆;而現在,單靠模仿已經摸到了物理常識的天花板。銀河通用的 LDA-1B 給出了一種很有意思的思路:通過一個統一的模型,把所有異構數據都用好,既能「深思熟慮」,又能「說動就動」,終于能像語言模型一樣,從海量異構數據中持續學習世界本身。

      目前,銀河通用已將 LDA-1B 的核心算法與代碼體系全面開源,希望推動行業從封閉優化走向開放共建。更重要的是,這一能力并非孤立存在,它將作為核心的通用數據吞吐與跨本體學習能力,快速匯入銀河通用的全人形通用基礎模型——「銀河星腦(AstraBrain)」中。

      在未來的路線圖里,團隊已經明確了幾個關鍵的進化方向:首先是嘗試將視覺表示與隱空間動力學進行端到端的聯合學習,不再受限于固定特征;其次是引入更豐富的感知模態,并探索如何自動優化不同質量數據在訓練中的分工角色。



      文中視頻鏈接:https://mp.weixin.qq.com/s/ShFejS4jjsPwuUME9KYKnw

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      車臣部隊遭到開戰以來最重損失!烏克蘭襲擊俄最大炸藥廠

      車臣部隊遭到開戰以來最重損失!烏克蘭襲擊俄最大炸藥廠

      項鵬飛
      2026-05-01 21:13:25
      臺灣地區恐怕要大洗牌!島內正流傳著一個幾乎板上釘釘的預判

      臺灣地區恐怕要大洗牌!島內正流傳著一個幾乎板上釘釘的預判

      安安說
      2026-05-01 20:44:53
      新婚即翻車?阿Sa剛官宣結婚,老公被扒交友app約網紅,細節太尷尬

      新婚即翻車?阿Sa剛官宣結婚,老公被扒交友app約網紅,細節太尷尬

      攬星河的筆記
      2026-04-30 15:58:00
      季麟連事件反轉!藍營正式對趙少康出手,朱立倫陣營緊急改口

      季麟連事件反轉!藍營正式對趙少康出手,朱立倫陣營緊急改口

      阿離家居
      2026-05-01 20:55:22
      “只顧自己紋眉,不管女兒死活?”14歲女孩生日照,臉上全是槽點

      “只顧自己紋眉,不管女兒死活?”14歲女孩生日照,臉上全是槽點

      蝴蝶花雨話教育
      2026-04-25 00:45:03
      孫楊他媽是嫌孫楊“涼”得還不夠徹底嗎?

      孫楊他媽是嫌孫楊“涼”得還不夠徹底嗎?

      蔥哥說
      2026-04-30 21:24:28
      讓2追3!成都蓉城客場上演驚天逆轉,補時連進兩球擊敗上海申花

      讓2追3!成都蓉城客場上演驚天逆轉,補時連進兩球擊敗上海申花

      紅星新聞
      2026-05-01 22:55:32
      人到晚年才醒悟,每月3000退休金,別指望子女養老,親情也很現實

      人到晚年才醒悟,每月3000退休金,別指望子女養老,親情也很現實

      烙任情感
      2026-04-30 10:51:15
      調查發現:每天都走路的人,大多到了72歲后,身體或有6種變化

      調查發現:每天都走路的人,大多到了72歲后,身體或有6種變化

      觀星賞月
      2026-05-01 20:41:41
      東莞口腔醫院拒絕改名!

      東莞口腔醫院拒絕改名!

      聽心堂
      2026-04-29 10:35:17
      59歲歌手張宇患罕見病20年,妻子十一郎首度公開內情:無法徹底根治,嚴重到不唱歌連說話都可能出問題

      59歲歌手張宇患罕見病20年,妻子十一郎首度公開內情:無法徹底根治,嚴重到不唱歌連說話都可能出問題

      芒果都市
      2026-05-01 17:45:29
      弘一法師:當你開始冷漠、獨來獨往、殺伐果斷——恭喜,你重生了

      弘一法師:當你開始冷漠、獨來獨往、殺伐果斷——恭喜,你重生了

      杏花煙雨江南的碧園
      2026-04-30 13:15:03
      客場亮劍,全員開火!山東男籃16分勝遼寧,大比分1-1挺進決勝局

      客場亮劍,全員開火!山東男籃16分勝遼寧,大比分1-1挺進決勝局

      老周觀體育
      2026-05-01 22:48:38
      0-1,中國男足不敵歐洲勁旅,獲得意大利國家之杯第8名

      0-1,中國男足不敵歐洲勁旅,獲得意大利國家之杯第8名

      俯身沖頂
      2026-05-01 19:10:11
      炸了!美伊戰火重開,美軍航母突然遭襲!

      炸了!美伊戰火重開,美軍航母突然遭襲!

      大嘴說天下
      2026-04-30 19:07:44
      湯杯戰報:連爆大冷世界第2第6都輸了,梁王力助國羽大分2-0

      湯杯戰報:連爆大冷世界第2第6都輸了,梁王力助國羽大分2-0

      求球不落諦
      2026-05-01 18:07:27
      零跑7.1萬臺,理想3.4萬臺,小米超3萬臺!多家車企公布4月銷量!

      零跑7.1萬臺,理想3.4萬臺,小米超3萬臺!多家車企公布4月銷量!

      小南看車
      2026-05-01 15:12:55
      歌手張宇罹罕病消失8年!妻子曝近況,愿折壽換他痊愈

      歌手張宇罹罕病消失8年!妻子曝近況,愿折壽換他痊愈

      郭茂辰海峽傳真
      2026-05-01 22:11:00
      掘金最該送走他!1.2億場均8+3,約基奇體系的產物,都不如肯納德

      掘金最該送走他!1.2億場均8+3,約基奇體系的產物,都不如肯納德

      你的籃球頻道
      2026-05-01 14:36:23
      洛陽白馬寺發布鄭重聲明:不少游客因通過非官方第三方渠道購買非法倒賣的預約門票,導致無法正常入寺,切勿輕信

      洛陽白馬寺發布鄭重聲明:不少游客因通過非官方第三方渠道購買非法倒賣的預約門票,導致無法正常入寺,切勿輕信

      極目新聞
      2026-04-29 18:10:47
      2026-05-01 23:20:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12902文章數 142639關注度
      往期回顧 全部

      科技要聞

      DeepSeek發布多模態論文又連夜刪除

      頭條要聞

      8歲女孩跟隨鄰居長江游泳溺亡 鄰居曾抓住她又脫手

      頭條要聞

      8歲女孩跟隨鄰居長江游泳溺亡 鄰居曾抓住她又脫手

      體育要聞

      無奈!約基奇:這要在塞爾維亞 全隊早被炒了

      娛樂要聞

      馬筱梅產后身材恢復超好 現身戶外直播

      財經要聞

      GPU神話松動,AI真正的戰場變了

      汽車要聞

      限時9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

      態度原創

      家居
      旅游
      親子
      游戲
      教育

      家居要聞

      靈動實用 生活藝術場

      旅游要聞

      60秒看雄安|乘著巴士看城市風景線

      親子要聞

      弟弟嘴饞想吃藍莓,姐姐今天滿足他,不花錢免費吃真過癮

      LPL第二賽段:打破魔咒,讓一追二,IG三局戰勝WBG

      教育要聞

      五一首日熱度爆棚!秦淮區中招會傳來最新消息!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产香蕉视频在线观看| 秋霞人妻无码中文字幕| 亚洲中文字幕无码天然素人| 欧美国产综合视频| 亚洲一区二区三区久久综合| 蜜臀视频一区二区在线播放| 亚洲AV秘 无码一区二区久| 国产成人综合久久亚洲精品| 综合av网| 国产一区二区亚洲精品| 九九热精品视频在线| 国产精品免费久久久久影院仙踪林| 久久香蕉国产线看观看精品yw| 亚洲精品日韩中文字幕| 手机av中文字幕| 欧美黑人一区| 亚洲AV成人一区二区三区在线| 国产图区| 久操香蕉| 日韩激情成人| 国产精品色内内在线播放| 日本理伦片午夜理伦片| 夜爽8888视频在线观看| 国内久久婷婷精品人双人| 尤物永久免费AV无码网站| 亚洲国产毛片aaaaa无费看| 中文字幕日韩视频欧美一区| 亚洲一区二区三区自拍高清| 激情av一区二区| 日本三级理论久久人妻电影| 漂亮人妻洗澡被强bd中文| 亚洲AV中文无码字幕色本草| 国产免费看又黄又大又污的胸 | 亚洲中文无码永久免费| 亚洲精品国产精品乱码在线观看| 中文字幕在线免费观看| 国产剧情麻豆一区二区三区亚洲| 中文字幕在线看视频一区二区三区| 伊人久久大香线蕉综合观| 性欧美暴力猛交69hd| 男人天堂一区|