全球看中國，靈初智能用10萬小時人類數(shù)據(jù)寫下具身智能的中國答案

2026-05-14 12:44:08　來源: 機器之心Pro

河北舉報

分享至

機器之心發(fā)布

2026 年，“世界模型” 正在成為具身智能行業(yè)的高頻詞。越來越多公司開始將自己的技術(shù)路線表述為機器人世界模型，試圖用可學(xué)習(xí)的環(huán)境模型提升機器人訓(xùn)練效率。

靈初智能（PsiBot）也常被放入這一敘事中。但在靈初聯(lián)合創(chuàng)始人陳源培看來，世界模型并不是靈初的核心方向，而是服務(wù)于數(shù)據(jù)遷移的工具。“我覺得做世界模型不算轉(zhuǎn)型。世界模型只是個工具。我們從 Day one 開始，就是在做人類數(shù)據(jù)。”

靈初真正關(guān)注的問題是：真實人類操作數(shù)據(jù)，能否規(guī)模化轉(zhuǎn)化為機器人訓(xùn)練數(shù)據(jù)？

在靈初成立前，陳源培已經(jīng)開始探索用人類手部運動數(shù)據(jù)訓(xùn)練靈巧操作。這項工作后來發(fā)表于 CoRL 2024，也成為靈初押注 human data 路線的重要技術(shù)來源。如今，靈初在更大規(guī)模的數(shù)據(jù)實踐中給出了一個更明確的判斷：在 10 萬小時量級上，人類數(shù)據(jù)已經(jīng)可以大幅替代真機采集數(shù)據(jù)。

這一路線里，VLA、世界模型、強化學(xué)習(xí)、外骨骼手套都不是單獨的終點。它們共同指向同一件事：構(gòu)建一套從人類數(shù)據(jù)到機器人 policy 的轉(zhuǎn)化管線。

Morgan Stanley Research 統(tǒng)計顯示，截至 2026 年 4 月底，2026 年全球人形機器人 VC 融資額已超過 2025 年全年。資本加速進入后，具身智能行業(yè)的數(shù)據(jù)、模型與落地能力正在被重新定價。

一、從 Day One 開始的人類數(shù)據(jù)路線：從 robot-centric 到 human-centric

具身智能的數(shù)據(jù)問題，本質(zhì)上是規(guī)模、質(zhì)量和遷移效率之間的權(quán)衡。

過去幾年，行業(yè)主流路線之一是 teleoperation。通過同構(gòu)或近似同構(gòu)的遙操作設(shè)備，讓人直接控制機器人或影子臂采集數(shù)據(jù)。這類數(shù)據(jù)與機器人本體更接近，遷移難度低，訓(xùn)練鏈路相對直接。

但 teleoperation 的問題也很明顯：采集成本高、設(shè)備重、場地依賴強、操作員需要訓(xùn)練，很難獲得足夠大的數(shù)據(jù)規(guī)模。對于試圖訓(xùn)練通用機器人能力的公司來說，素材場式的數(shù)據(jù)生產(chǎn)方式很快會遇到上限。

另一類路線是 ego data，即用攝像頭采集人類第一視角操作數(shù)據(jù)。它的成本更低，也更接近真實人類行為，但新的問題隨之出現(xiàn)：人和機器人之間存在天然 gap。人的關(guān)節(jié)結(jié)構(gòu)、骨骼自由度、動作習(xí)慣、視覺視角都與機器人不同。直接把這類數(shù)據(jù)用于機器人訓(xùn)練，往往會遇到遷移效率低、噪聲大、動作不規(guī)范等問題。

靈初的判斷是：遷移問題可以通過模型和算法管線解決，但數(shù)據(jù)規(guī)模問題必須在采集方式上解決。

“我們當(dāng)時設(shè)計這套手套，一個很核心的原因就是能盡量不影響人的日常工作。比如讓一個收銀員戴上我們的手套工作，他基本上不會有什么影響。但你讓他拿著兩個夾爪工作，掃碼都掃不了。”

這意味著，靈初想進入的不是專門搭建的機器人素材場，而是真實勞動場景：物流、倉儲、收銀、工廠等持續(xù)產(chǎn)生人類操作行為的場景。

這一路線與 UMI 等 robot-centric 方案形成對比。Robot-centric 方案通過形態(tài)更接近機器人夾爪的設(shè)備采集數(shù)據(jù)，遷移效率更高，但操作者動作會受到限制，很難進入真實勞動場景。靈初選擇 human-centric，接受更高的遷移難度，換取更大的數(shù)據(jù)規(guī)模上限。

目前，靈初并行采集兩類人類數(shù)據(jù)。

第一類是外骨骼手套數(shù)據(jù)。它通過機械連接捕捉手部和手臂動作，不依賴 IMU，精度更高，也可以記錄更完整的雙手雙臂自由度。

第二類是純視覺數(shù)據(jù)，也就是英偉達和模型廠商押注的 EGO 路線：通過頭部和腕部攝像頭記錄人類操作過程，不使用手套，成本更低，規(guī)模化能力更強，但動作精度相對弱一些。

在靈初的設(shè)計里，手套的自由度盡可能做高，并不只是為了適配自家的靈巧手，而是為了提升數(shù)據(jù)的跨本體遷移能力。換句話說，靈初想采集的不是綁定某一個機器人硬件的數(shù)據(jù)，而是未來可以遷移到不同機器人本體上的人類操作數(shù)據(jù)。

二、W0 和 R2：用世界模型完成人類數(shù)據(jù)到機器人 policy 的遷移

人類數(shù)據(jù)路線的核心難點，不是采集，而是遷移。

人類動作天然帶有噪聲和不規(guī)范性，人的動力學(xué)也不同于機器人。靈初的解決方式是：用強化學(xué)習(xí)，在世界模型中完成遷移。

靈初的系統(tǒng)主要由兩個模塊構(gòu)成：W0 和 R2。

R2 是 policy，最終部署到機器人上，負責(zé)實際執(zhí)行操作。W0 是 world model，更準(zhǔn)確地說，是一個 action-conditioned world model：給定當(dāng)前狀態(tài)和動作，預(yù)測下一幀狀態(tài)。

在訓(xùn)練階段，W0 扮演可學(xué)習(xí)的仿真器。R2 不直接在真實機器人上大量試錯，而是在 W0 構(gòu)建的環(huán)境里通過強化學(xué)習(xí)在線迭代。W0 提供環(huán)境反饋，R2 在其中不斷探索，把人手動力學(xué)遷移到機器人動力學(xué)上，并生成新的訓(xùn)練數(shù)據(jù)，再反哺 R2，形成閉環(huán)。

部署階段，W0 退場，機器人上只運行 R2。

“如果模型訓(xùn)好了，自然就不需要 W0 了。W0 是個仿真器，它是個提升的過程，不是部署的一部分。”

這也是陳源培不愿意把靈初簡單定義為 “世界模型公司” 的原因。在他的理解里，世界模型不是單獨的方向，而是數(shù)據(jù)轉(zhuǎn)化管線中的一個中間模塊。它的作用不是替代真實世界，而是幫助人類數(shù)據(jù)完成到機器人 policy 的遷移。

“算法本身沒那么重要，哪個好用就用哪個。我們更核心的還是人類數(shù)據(jù)，以及把這套數(shù)據(jù)轉(zhuǎn)移成高質(zhì)量機器人數(shù)據(jù)的管線。”

在這一體系中，數(shù)據(jù)質(zhì)量也不完全依賴人工審核。靈初將判斷權(quán)交給模型本身：一條數(shù)據(jù)能不能在世界模型里成功轉(zhuǎn)換，能不能讓 policy 跑通，就是篩選標(biāo)準(zhǔn)。能跑通的數(shù)據(jù)留下，跑不通的數(shù)據(jù)丟掉。隨著模型能力提升，數(shù)據(jù)篩選邊界也會動態(tài)變化。

陳源培認為，靈初在人類數(shù)據(jù)路線上的一個關(guān)鍵階段性結(jié)果，是 10 萬小時量級的內(nèi)部驗證。

“我們基本沒有真機的素材場，真機數(shù)據(jù)非常非常少，靠人類數(shù)據(jù)也能做出來跟那些采了幾萬小時 teleoperation 數(shù)據(jù)的公司差不多的效果。”

這指向一個更核心的問題：機器人基礎(chǔ)模型是否必須依賴大規(guī)模真機 teleoperation 數(shù)據(jù)？

陳源培的判斷是，真機數(shù)據(jù)仍然重要，但它不一定是唯一燃料。如果人類數(shù)據(jù)采集足夠規(guī)模化，遷移管線足夠有效，那么大量真機數(shù)據(jù)可以被人類數(shù)據(jù)部分替代。真機數(shù)據(jù)更像是校準(zhǔn)、驗證和少量 fine-tuning 的補充，而不是全部數(shù)據(jù)來源。

這并不意味著人類數(shù)據(jù)天然等同于機器人數(shù)據(jù)。相反，人類數(shù)據(jù)要真正可用，必須經(jīng)過采集系統(tǒng)、世界模型、強化學(xué)習(xí)、數(shù)據(jù)篩選和 policy 訓(xùn)練的完整管線。

靈初試圖建立的，是這套系統(tǒng)能力。

三、從數(shù)據(jù)集到落地：SynData、小全棧與路線邊界

截至 2026 年 5 月 13 日，靈初智能 SynData 數(shù)據(jù)集在 Hugging Face 上下載量已達約 1.46 萬次。

Hugging Face鏈接：https://huggingface.co/datasets/PsiBotAI/SynData

這是基于 R2 和 W0 體系的新一代大規(guī)模真實世界多模態(tài)數(shù)據(jù)集，覆蓋視覺、語言、動作等維度。依托自研外骨骼手套系統(tǒng)，SynData 能夠捕捉雙手雙臂完整自由度的高精度操作數(shù)據(jù)，同時結(jié)合裸手數(shù)據(jù)與自然人類交互行為，面向動作建模、操作學(xué)習(xí)、道具學(xué)習(xí)及多模態(tài)智能研究開放使用。

對靈初而言，SynData 是其技術(shù)路線的一次階段性外化：以真實人類操作數(shù)據(jù)為底座，通過世界模型和強化學(xué)習(xí)完成遷移，再訓(xùn)練出可部署到機器人上的 policy。

但從商業(yè)化階段看，陳源培并不認為行業(yè)已經(jīng)進入 “通用基模” 階段。

他把靈初當(dāng)前的位置分為幾層。

第一層是產(chǎn)能期。現(xiàn)階段，靈初的收入主體仍然來自硬件，包括外骨骼手套、采集系統(tǒng)以及素材場建設(shè)。數(shù)據(jù)收入預(yù)計要到明年才會逐漸成為主體。

第二層是調(diào) policy 期。當(dāng)前機器人進入具體客戶場景，仍然需要針對任務(wù)、環(huán)境和節(jié)拍要求調(diào)整 policy。“真正不需要調(diào)的通用基模，還要大概三五年左右。”

第三層才是基模期。這是目標(biāo)，但不是當(dāng)下。

這也解釋了靈初為什么選擇做 “小全棧”。陳源培對 “小全棧” 的定義是：以模型為核心往下做，關(guān)鍵環(huán)節(jié)自己掌握，但做到核心零部件為止。比如觸覺傳感器、精密減速器這類零部件，靈初選擇外采，不會自研。

原因并不是為了展示全棧能力，而是落地需要。“你要做落地，硬件的穩(wěn)定性、節(jié)拍要求，跟硬件高度耦合，現(xiàn)在沒辦法，只能自己做。” 在現(xiàn)階段，機器人落地不是單純的軟件問題。一個 policy 能否穩(wěn)定運行，取決于機器人本體、執(zhí)行器、傳感器、控制系統(tǒng)、任務(wù)節(jié)拍和場景約束。模型和硬件仍然高度耦合，只做模型很難完成真實交付。

對于行業(yè)其他路線，陳源培的判斷也比較明確。關(guān)于 Genesis 等近期受到關(guān)注的機器人 demo，他認為不需要神化，也不應(yīng)否定。“如果我們拿那套硬件訓(xùn)一下，他們那些 demo 我們也都能做出來。”

關(guān)于仿真，他相對悲觀。在他看來，仿真是重要工具，但如果期待仿真本身出現(xiàn)巨大突破，并單獨解決真實物理世界中的接觸、長尾和高精度操作問題，概率并不高。

那么，human data 路線會不會被證偽？

陳源培認為，如果這條路線最終被證偽，大概只有兩種可能：第一，仿真出現(xiàn)巨大突破，可以低成本生成足夠真實、足夠多樣、足夠可遷移的數(shù)據(jù)；第二，某家公司擁有足夠強的資金和工程能力，把真機數(shù)據(jù)飛輪真正跑起來。

相比之下，他認為第二種可能性更高。

在他看來，human data 路線真正要證明的，不是人類數(shù)據(jù)比真機數(shù)據(jù)更干凈，而是在規(guī)模、成本、遷移效率和泛化能力之間，是否能形成更優(yōu)的綜合解。

這一路線的護城河也不只是數(shù)據(jù)量。

“算法其實沒有秘密。但數(shù)據(jù)，包括整個數(shù)據(jù)梳理的管線、積累和處理的方法，會影響你很長一段時間。有些人踩了三年的數(shù)據(jù)，你想馬上追上來，非常難。”

數(shù)據(jù)之外，還有組織能力。

“整個組織的文化、結(jié)構(gòu)、價值觀，也很重要。”

從論文到公司，陳源培認為靈初做的一直是同一件事：讓人類數(shù)據(jù)能被機器人用起來。VLA、世界模型、強化學(xué)習(xí)都是工具，真正的方向是通用機器人能力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.