<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      港科大聯手社區開源StarVLA:一個框架揭秘所有主流VLA

      0
      分享至



      如果說 2017 年的 PyTorch 讓深度學習從 "少數派的煉丹爐" 變成了 "人人可用的工程平臺",那么具身智能(Embodied AI)正在等待屬于它自己的 "PyTorch 時刻"。

      過去兩年,VLA(Vision-Language-Action,視覺-語言-動作)模型幾乎是機器人領域最火熱的方向:從 Google 的 RT-2、Physical Intelligence 的 π?,到 NVIDIA 的 GR00T、OpenVLA、Cosmos…… 幾乎每隔幾周就有新模型刷屏。但走進任何一個機器人實驗室你都會發現一個尷尬的現實:

      • 想復現一篇論文?代碼不全、數據接口對不上;
      • 想公平對比兩種方法?訓練協議、評估基準各搞一套;
      • 想換個動作頭試試?整個工程幾乎要重寫一遍;
      • 想知道 "VLM 主干" 和 "World Model 主干" 到底誰更強?沒有人在同等條件下比過。

      整個 VLA 領域看似繁榮,實則像是一個個 "黑箱" 散落在不同實驗室里。

      最近,來自港科大和開源社區團隊推出了StarVLA開放研究平臺。與其說他們創造了一個全新的 VLA 模型,不如說他們做了一件更 “基礎設施” 的事:將當前主流的 VLA 范式、動作頭、訓練策略和評估基準,統一整合到同一個開源框架中,讓所有實驗都可以在公平、透明、可復現的條件下進行。

      值得一提的是,StarVLA 并非一蹴而就的新品,它早已在社區中經過充分檢驗,擁有超過 2.2k的 star,并獲得了廣泛認可,一直是社區最流行的框架之一,僅次于美國 NVIDIA 和 Physics Intelligent,在國內同類項目中中斷檔領先。

      這或許正是 VLA 領域所需要的 “PyTorch 時刻”—— 不再只是比誰的 demo 更炫,而是讓研究者們站在同一條起跑線上,將 VLA 真正作為一門可以科學驗證的學科來深入研究。



      • 論文標題:StarVLA: A Lego-like Codebase for Vision-Language-Action Model Developing
      • 論文:https://arxiv.org/pdf/2604.05014
      • 代碼:https://github.com/starVLA/starVLA
      • 支持基準:LIBERO / SimplerEnv / RoboTwin 2.0 / RoboCasa-GR1 / BEHAVIOR-1K / VLA-Arena / Calvin / DOMINO ...

      一、為什么說 VLA 需要一個 "PyTorch 時刻"?

      回顧深度學習的發展史,會發現一個規律:任何一個領域真正爆發,都離不開一個統一的、開放的、可復現的實驗平臺。

      • 計算機視覺之于 ImageNet + Caffe / PyTorch;
      • 自然語言處理之于 HuggingFace Transformers;
      • 大模型微調之于 LLaMA-Factory、DeepSpeed。

      而 VLA 目前正處在 ImageNet 之前的 "前夜":模型很多、demo 很炫、論文產出很快,但沒有人能告訴你,在嚴格控制變量的前提下,哪種設計真的更好

      舉幾個具體的 "靈魂拷問":

      • 自回歸動作分詞(FAST)、并行回歸(OFT)、Flow Matching(π?)、雙系統(GR00T)——這四種動作頭在同一個主干下的表現到底差多少?
      • VLM 路線(RT-2、π?)和 World Model 路線(Cosmos, DreamZero)——真的是兩條本質不同的路,還是只是 "輔助信號" 的選擇不同?
      • 多模態協同訓練、跨具身聯合訓練 ——到底有沒有用?提升有多大?
      • 在 LIBERO 上 SOTA 的方法,到 RoboCasa、RoboTwin, Behavior 上還能打嗎?

      在 StarVLA 之前,這些問題幾乎沒有人能給出系統性答案—— 因為根本沒有同時支持這一切的統一平臺。

      二、StarVLA 是什么?一個 "全棧式" 的 VLA 實驗平臺

      StarVLA 的設計哲學非常克制:不發明新方法,而是把別人發明的好方法,統一搬到一個屋檐下

      整個框架由四層可插拔模塊組成:



      每一層都可以自由替換、自由組合。 想做 "換動作頭不換主干" 的對比?改一行配置。想驗證 "協同訓練" 的效果?改一個開關。想把 LIBERO 上訓好的模型搬到 RoboTwin 上跑實機?同一個接口。

      這就是為什么我們說它是 VLA 領域的 "PyTorch 時刻"——它把之前需要重寫整個工程才能做的事,變成了改一行配置文件的事

      三、廣義 VLA 視角:所有方法,其實是一個公式

      在統一這些方法的過程中,作者還提出了一個非常漂亮的理論觀察。

      VLA 看似流派眾多 —— 有的基于語言模型,有的基于視頻生成模型;有的自回歸,有的擴散;有的單系統,有的雙系統 —— 但當你把它們都塞進同一個框架后會發現,它們在數學結構上可以用同一個公式表達:



      不同方法的本質區別,僅在于選用什么 "預訓練模型初始化" 以及 "輔助訓練的信號" 是什么:

      • VLM 路線:輔助信號是語言推理(讓模型繼續 "會說話");
      • World Model 路線:輔助信號是未來畫面預測(讓模型繼續 "會想象");
      • 極簡路線:干脆沒有輔助信號,純動作監督。

      作者把這個統一視角稱為"廣義 VLA"(Generalized VLA)。它意味著:與其糾結 "該選哪條路線",不如思考 "該選什么樣的輔助信號"。這一視角,為后續 VLA 的系統性研究提供了一個清晰的理論坐標系。



      VLM to VLA 和 World-Model to VLA 的統一架構

      四、幾個 "反直覺" 的實驗發現

      雖然 StarVLA 主打 "平臺" 而非 "刷榜",但作者在搭建過程中也 "順手" 做了一批嚴格控制變量的實驗,結果頗有意思:



      發現 1:極簡設置就能打出強基線

      不做任何數據增強、只用基準原始數據和公開預訓練權重,StarVLA 在 LIBERO 上僅用 30K 步就達到了 98.8% 的成功率, 在其他主流的 SimplerEnv, Robocasa-GR1, Robotwin 2.0, LIBERO-Plus 上也都有和主流大廠的模型具有非常接近的效果。

      而前人代表方法 OpenVLA-OFT, GR00T, PI 等 在同一基準上需要 175K 步 ——訓練步數減少了 6 倍

      這說明:以前很多論文堆的 "訓練 trick",可能并沒有想象中那么必要。一個干凈、統一的工程實現本身,就能釋放出巨大的性能空間。

      發現 2:數據 "雜" 反而更強 —— 通用模型超越專用模型

      把 LIBERO、SimplerEnv、RoboTwin、RoboCasa 四個基準的數據混在一起訓練同一個模型,結果在難度最高的類人操作基準RoboCasa-GR1 上,成功率從 48.8% 提升到了 57.3%。

      這意味著:跨任務、跨形態的多樣化數據并不會 "互相干擾",反而會帶來正向遷移。這是支持 "機器人大一統模型" 路線的一個重要經驗證據。



      發現 3:VLM 主干 vs World Model 主干,差距沒有想象中大

      在同一個 OFT 動作頭下分別接入 Qwen3-VL(VLM 路線)和 Cosmos-Predict2(World Model 路線),兩者的性能相當接近

      這是一個非常重要的初步結論:業界一直在爭論的 "哪條路線才是 VLA 的未來",可能本身就是個偽命題—— 真正決定性能的,也許并不是主干的 "血統",而是輔助信號、訓練策略和數據組合。



      發現 4:不做協同訓練,VLM 會在幾千步內 "失憶"

      把一個預訓練好的 VLM 微調成機器人策略時,它在幾千步內就會迅速丟失原有的視覺理解和語言推理能力—— 物體識別變差、空間定位崩壞、指令理解退化。

      加入多模態協同訓練后,模型可以同時保住 "動腦" 和 "動手" 兩種能力。這一現象在論文中以清晰的曲線圖呈現,給所有想要微調 VLM 做機器人的研究者提了一個醒。

      五、為什么這件事 "值得被看見"?

      VLA 是當前最受資本和學術界關注的具身智能方向之一,但它也是最容易陷入 "內卷式刷榜" 的方向:每家都報告自己 SOTA,但沒人能在公平條件下被驗證。

      StarVLA 的意義恰恰在于打破這種困境:

      ?對研究者:終于有了一個可復現、可控制變量的實驗平臺,做消融、做對比不再需要從零造輪子;

      ?對工程師:模塊化設計 + 統一接口,從 "換主干" 到 "換基準" 再到 "上實機" 全部打通;

      ?對整個領域:當所有方法都能在同一個框架里被公平地 "擺出來",VLA 的發展就從 "比誰聲音大",進入到 "比誰經得起驗證" 的科學階段。

      這正是一個領域走向成熟的標志 —— 也正是我們說它是具身智能的"PyTorch 時刻"的原因。

      六、開源信息

      StarVLA 由香港科技大學團隊聯合開源社區共同推出,目前全部代碼、訓練腳本、評估接口與預訓練權重已開源,并將持續迭代。



      • 論文:https://arxiv.org/pdf/2604.05014
      • 代碼倉庫:https://github.com/starVLA/starVLA (目前已經 2.2k star, 感謝大家)
      • 已支持基準:LIBERO、SimplerEnv、RoboTwin 2.0、RoboCasa-GR1、BEHAVIOR-1K
      • 已集成方法:[QwenVL and Wan] X [FAST、OFT、π?、GR00T] 各式各樣的 backbone X action header …

      如果你正在做 VLA 研究、想搭一套機器人策略基線、或者只是想搞清楚 "這些花里胡哨的 VLA 模型到底差在哪"——這個倉庫,值得 Star 一下

      本文報道由港科大 StarVLA 團隊提供素材,面向關注具身智能與機器人大模型的讀者。歡迎在 GitHub 上參與討論與共建。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      王浩案重現?老人猝死公交車上,家屬索要巨額賠償,法院這樣判!

      王浩案重現?老人猝死公交車上,家屬索要巨額賠償,法院這樣判!

      北緯的咖啡豆
      2026-05-11 09:31:31
      河南住建廳:鄭州航空港區“11.15”結構坍塌事故”系生產安全責任事故

      河南住建廳:鄭州航空港區“11.15”結構坍塌事故”系生產安全責任事故

      澎湃新聞
      2026-05-12 14:00:26
      大風追蹤|“縣交警隊長被舉報工作日KTV飲酒”新進展:鎮雄縣紀委監委正開展工作,昭通市公安局回應

      大風追蹤|“縣交警隊長被舉報工作日KTV飲酒”新進展:鎮雄縣紀委監委正開展工作,昭通市公安局回應

      大風新聞
      2026-05-11 19:09:06
      日經亞洲突然爆出重磅消息!中國給國內所有芯片廠下一道"死命令"

      日經亞洲突然爆出重磅消息!中國給國內所有芯片廠下一道"死命令"

      阿七說史
      2026-05-11 15:23:09
      南京審計大學通報男生涉嫌偷拍他人隱私:成立專項工作組

      南京審計大學通報男生涉嫌偷拍他人隱私:成立專項工作組

      界面新聞
      2026-05-12 16:25:41
      奎因:生死戰會更具挑戰性,如果北京包夾我就把球傳給隊友

      奎因:生死戰會更具挑戰性,如果北京包夾我就把球傳給隊友

      懂球帝
      2026-05-12 15:00:05
      震碎三觀!12億仙人跳!!NBA還有這種事!

      震碎三觀!12億仙人跳!!NBA還有這種事!

      柚子說球
      2026-05-12 07:36:06
      穆帥:再說一遍我沒和皇馬談過;進不進歐冠不會影響我的未來

      穆帥:再說一遍我沒和皇馬談過;進不進歐冠不會影響我的未來

      懂球帝
      2026-05-12 07:05:06
      現實版《環太平洋》?宇樹科技發布載人變形機甲,企業回應:參考價390萬元,能量產

      現實版《環太平洋》?宇樹科技發布載人變形機甲,企業回應:參考價390萬元,能量產

      上游新聞
      2026-05-12 16:46:07
      21歲雙胞胎姐妹1死1重傷,兇手為妹妹男友,案發前數小時雙方在派出所調解,家屬起訴警方失職;嫌犯作案當天發布動態:狠角色我只扮演一次

      21歲雙胞胎姐妹1死1重傷,兇手為妹妹男友,案發前數小時雙方在派出所調解,家屬起訴警方失職;嫌犯作案當天發布動態:狠角色我只扮演一次

      大風新聞
      2026-05-12 08:55:33
      美國AI巨頭助烏克蘭,俄軍進入高危時刻

      美國AI巨頭助烏克蘭,俄軍進入高危時刻

      桂系007
      2026-05-12 17:32:49
      蘇州光纖巨頭,橫掃220億訂單!

      蘇州光纖巨頭,橫掃220億訂單!

      飛鯨投研
      2026-05-12 18:10:38
      維生素B12立大功!研究發現:老人吃維生素B12,或能緩解5慢性病

      維生素B12立大功!研究發現:老人吃維生素B12,或能緩解5慢性病

      健康之光
      2026-05-11 13:33:31
      重磅:匈牙利停止濫用歐盟否決權!烏克蘭6月開啟入盟談判

      重磅:匈牙利停止濫用歐盟否決權!烏克蘭6月開啟入盟談判

      項鵬飛
      2026-05-12 18:16:29
      從巴薩棄將到阿森納副隊長,用了10年時間,悍將敗也巴薩成也巴薩

      從巴薩棄將到阿森納副隊長,用了10年時間,悍將敗也巴薩成也巴薩

      足籃大世界
      2026-05-12 18:04:10
      村民被眼鏡王蛇咬傷打13支血清 專家:我國尚無專門血清,可用抗銀環蛇毒血清加抗眼鏡蛇毒血清

      村民被眼鏡王蛇咬傷打13支血清 專家:我國尚無專門血清,可用抗銀環蛇毒血清加抗眼鏡蛇毒血清

      封面新聞
      2026-05-11 19:00:03
      趕在特朗普訪華前,菲律賓人先送上一份“大禮”?南海風向恐要變

      趕在特朗普訪華前,菲律賓人先送上一份“大禮”?南海風向恐要變

      張斌說
      2026-05-12 18:25:29
      國乒回京曝光!王楚欽莎莎低調離開,梁靖崑兒子獻花王皓妻兒迎接

      國乒回京曝光!王楚欽莎莎低調離開,梁靖崑兒子獻花王皓妻兒迎接

      李喜林籃球絕殺
      2026-05-12 17:31:08
      被人追打瘋跑沖向武警大門,哨兵一出,當場腿軟不敢越線

      被人追打瘋跑沖向武警大門,哨兵一出,當場腿軟不敢越線

      阿芒娛樂說
      2026-05-12 13:14:02
      特朗普應邀訪華三天,中方準備了高規格禮遇,他想邀中方回訪美國

      特朗普應邀訪華三天,中方準備了高規格禮遇,他想邀中方回訪美國

      無人傾聽無人傾聽
      2026-05-11 16:48:33
      2026-05-12 19:08:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12976文章數 142648關注度
      往期回顧 全部

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      頭條要聞

      為見女兒最后一面老人第一次坐高鐵 買不到票求助特警

      頭條要聞

      為見女兒最后一面老人第一次坐高鐵 買不到票求助特警

      體育要聞

      總是掉鏈子的“倒霉蛋”,闖進了歐戰決賽

      娛樂要聞

      劉濤曬媽祖誕辰活動照 評論區變許愿池

      財經要聞

      黃仁勛真是被白宮徹底封殺了

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      時尚
      旅游
      數碼
      手機
      公開課

      征集|| 她們也太會買裙子了!邊看邊種草

      旅游要聞

      記者手記|杜尚別,再見卻是初見

      數碼要聞

      高性能筆記本進入18英寸時代,AMD銳龍在背后支持多少?

      手機要聞

      華為暢享90 Pro Max率先開更鴻蒙HarmonyOS 6.1.0.120 SP8

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 无码h肉动漫在线观看| 久久亚洲精精品中文字幕| 四虎亚洲精品无码| AV高清无码| 国产精品国产精品国产专区| 欧美伊人亚洲伊人色综| 欧美视频一区二区三区| 亚洲精品av一二三区无码| 国产麻豆精品自拍视频| 亚洲VA中文字幕无码久久| 国产精品专区在线| 亚洲欧美色综合影院| 一区二区亚洲人妻精品| 精品成人国产一区二区| 祁连县| 哟男哟女视频八区| 韩国三级中文字幕hd久久精品| ,国产乱人伦无码视频| 西西人体大胆午夜视频| 在线观看日本污污ww网站| 丰满少妇αⅴ无码区| 可以直接免费观看的av网站| 动漫av网站免费观看| 91精品国产91久久久久游泳池| 51精品国自产在线| 亚洲中文字幕永久在线全国| 久久99国产精品久久99软件| 国产午夜成人av在线播放| 欧美牲交a欧美牲交aⅴ| 亚洲wwww| 国产av精品一区二区三区| 国产在线不卡精品网站| 洮南市| 免费在线看黄网址| 九九热视频在线免费观看| 国产精品精品软件男同| 最近中文字幕在线中文视频| 久久精品a一国产成人免费网站| 色欲av永久无码精品无码蜜桃| 久久91这里精品国产2020| 欧美精品一区在线看|