網易首頁 > 網易號 > 正文申請入駐

人形機器人交付元年，行業從卷模型轉向拼數據

2026-05-07 10:47:56　來源: DeepTech深科技

北京舉報

分享至

2026 年 4 月，斯坦福 HAI 發布的《AI Index Report 2026》揭示了具身智能的殘酷現狀：機器人操控在仿真環境中的成功率高達 89.4%，但在真實家庭場景中驟降至 12%。

這 77 個百分點的“遷移鴻溝”（Sim-to-Real Gap）成為行業當下所有動作的注腳：特斯拉在 2025 年 Q4 財報會上坦言，Optimus 目前的首要任務并非干活，而是通過實地運行進行數據采集；“十五五”規劃綱要明確提出統籌布局具身智能實訓場；不到一年時間，國內在建或建成的具身智能訓練場接近 30 家。

最強勢的玩家、最高層的政策、最密集的基礎設施投入，全部圍著同一件事打轉：那 77 個百分點要靠什么補上。

去年比模型，今年比數據

步入 2026 年，具身智能的行業敘事發生了變換。

最直觀的體現，在于全球權威機構對“人形機器人數據”地位的重新定義。《麻省理工科技評論》在 2026 年度 AI 洞察中，將其列為當下最重要的命題。其核心邏輯在于：大語言模型靠海量文本學會了生成語言，那人形機器人能不能靠海量運動數據學會在真實世界里干活？

然而，描述人類運動方式的數據集遠不像互聯網文本那樣現成。智元機器人創始人之一、覓蜂科技 CEO 姚卯青曾在 4 月的一場發布會上給出一組對比數據，大語言模型 GPT-5 訓練語料折合約 100 億小時，而全行業匯聚的高質量具身數據僅約 50 萬小時，差距以萬倍計。

樂聚機器人技術總監王松也曾深度剖析具身智能行業的核心痛點。他指出，當前人形機器人產業發展面臨本體與小腦技術趨于成熟，但“大腦”進化嚴重受阻于數據的困境。真機數據是模型落地的最后一步，也是關鍵一步，而訓練場則是規模化、系統化生產真機數據的基礎設施。

為了湊出這個數據集，全行業開始走出實驗室：在中國的訓練場，工人穿戴外骨骼和 VR 設備重復著枯燥的動作；在阿根廷和印度，零工們通過拍攝家務視頻換取報酬......

這種集體轉向并不是偶然。“我們可以參考自動駕駛做一個粗略的對照。訓練一個 L4 級自動駕駛模型，所需數據量通常以百萬小時計；而人形機器人的自由度、操作復雜度、場景多樣性比自動駕駛高出 1 到 2 個數量級，對應的數據規模差距也在這個量級。也就是說，訓練一個具備開放世界泛化能力的具身基座模型，所需真機數據量大致在數百萬到上千萬小時之間。”王松表示。

那能不能用仿真來補？

仿真擅長足式運動等剛體動力學任務，但在“接觸豐富”（contact-rich）的場景下力有不逮。2025 年的一項研究指出，仿真器難以建模零件形變、非線性摩擦及柔性物體（如衣物、流體）的物理特性。工業精密裝配或家庭折疊衣物時，由于建模成本和算力開銷甚至高于真機采集，仿真無法完全替代現實。

在真實部署的“最后一公里”，真機數據仍是跨不過的門檻。仿真環境是理想化的，而現實充滿變量：光照改變、物體移位或杯子重了 50 克，都可能導致模型失效。補齊 77% 的成功率缺口，依靠的不是更大規模的模型，而是覆蓋多變量、多樣本的真機數據。

這一行業共識，在樂聚的實踐中得到了最直接的驗證：400 條高質量真機數據訓練效果遠超 1,300 條低質量數據，模型迭代時長由 7-10 天縮短至 2-3 天，整體飛輪效率提升 3 至 4 倍，設備部署成功率從不足 60% 提升至 90% 以上。

此外，樂聚率先跑通了真機數據的商業化閉環。依托規模化訓練場體系，數據服務成為獨立業務，落地服務一汽、海晨物流、兆豐等實體企業。其以真實產業場景、成熟商業交易，切實證明：真機數據既是技術迭代的核心抓手，也是具身智能走向規模化商用的關鍵支撐。

機器人的“練兵場”

采集真機數據并不容易，單臺機器人動輒數十萬的成本、關節磨損的維護開銷，以及低效的遙操作，使得數據采集成為一種高壁壘的行為。

這也是為何數據“訓練場”已從企業內部設施演變為具身智能產業的公共基礎設施。2025 年以來，建設具身智能訓練場這一產業共識正在快速轉化為國家層面的戰略部署，“十五五”規劃綱要明確提出統籌布局具身智能實訓場，推進虛實融合協同訓練。

根據中國信通院聯合清華大學電子工程系發布的《具身智能發展報告（2025年）》，國內已建成或計劃在建的訓練場已接近 30 家。石景山人形機器人數據訓練中心作為目前全國最大的中樞，通過“采集-清洗-標注”的全流程閉環，年產高質量訓練數據超 600 萬條；上海張江則聚焦異構機器人訓練，計劃形成千萬級數據集，力圖打破不同本體間的數據孤島。

頭部企業在這場數據飛輪競爭中表現尤為激進。

比如，樂聚在全國參與建設了十個訓練場，年產真機數據 2,500 萬條。數據覆蓋輪臂、靈巧手、全身運控全維度，橫跨工業、商服、家庭、康養四大類，共 219 種場景、1,751 個任務、5,592 個物體。

LET 數據集全平臺下載量突破 100 萬次。60,000 分鐘真機數據免費開源，另有數萬小時真機數據已交付行業客戶——從開源影響力到商業變現，一面服務開源生態，一面服務具身基模數據產業。

根據公開信息，其近期發布的訓練場 2.0，提出了 LET 三級數據體系，覆蓋輪臂、靈巧手與全尺寸人形，并要求全信號同步誤差控制在 10ms 以內，并通過 1:1 還原智能制造和智慧物流場景，極大地縮短了模型在現實環境中的進化周期。這種“訓練場模式”不僅壓低了單條數據的生產成本，更實現了跨本體、跨場景的知識遷移。

而更深層的戰略在于與模型廠商的深度綁定。作為螞蟻靈波等核心團隊的合作伙伴，樂聚為其 LingBot-VLA 模型提供了覆蓋多種構型的萬小時真機數據。這種合作不僅讓樂聚的數據深度嵌入了主流算法的成長路徑，也讓其硬件本體成為了模型訓練的標配載體。加上近期推出的科研框架 2.0，通過降低動作采集門檻來賦能整個科研圈，樂聚的野心已經很明顯：不只是賣機器人，而是要成為具身智能時代那個不可或缺的基座平臺。

搶灘真機數據

其他公司如智元試圖通過獨立實體覓蜂科技來解決行業的數據荒漠問題；宇樹招股書顯示，計劃將近一半的募資投向模型和數據；京東規劃建設大規模數據采集中心，計劃兩年內儲備千萬小時級優質數據......

海外巨頭的動向同樣印證了這一趨勢。特斯拉在工廠內部署大規模 Optimus 真機測試與數據采集體系，以真實產線場景反哺模型迭代；Figure AI 則通過真實工業產線長期部署與多樣化真實世界環境數據采集，構建了高效的數據飛輪，持續反哺模型的迭代升級......

要訓練一個真正通用的機器人“大腦”，高質量的真機數據是必不可少的燃料。《2026 全球具身智能產業投資風向標》中明確提到， 2026 年是具身智能的交付元年，投資應聚焦具備“真機數據閉環”的團隊；最早構建“場景-數據-成本”自強化飛輪的企業，將獲得定義未來的非對稱優勢。

當然，在現階段，仿真數據在大規模預訓練和策略探索中依然不可替代，行業仍需面對真機與仿真的閉環對齊、數據隱私、以及跨平臺復用等現實難題。但目前的共識已經非常明確：要補上那 77 個百分點的成功率差距，不能只靠增加模型的參數規模，必須靠覆蓋更多場景、更多變量、甚至更多失敗樣本的真機數據。

真機數據的稀缺是行業最大的制約，但同時也是最大的機會點。在這一輪競速中，誰能率先通過訓練場模式實現高效、低成本的數據獲取，誰就更有機會率先跑通通用人形機器人的量產之路。

1.https://www.caict.ac.cn/kxyj/qwfb/bps/202601/P020260130541978285206.pdf

2.https://www.ndrc.gov.cn/fggz/fzzlgh/gjfzgh/202603/U020260317369114704096.pdf

3.https://hai.stanford.edu/assets/files/ai_index_report_2026.pdf

4.https://www.technologyreview.com/2026/04/21/1135656/humanoid-data-robot-training-ai-artificial-intelligence/

5.http://jjckb.xinhuanet.com/20260202/47b05862a0e340abab5a516775917bc0/c.html

運營/排版：何晨龍

注：封面/首圖由 AI 輔助生成

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.