![]()
機器之心發(fā)布
2026 年,“世界模型” 正在成為具身智能行業(yè)的高頻詞。越來越多公司開始將自己的技術(shù)路線表述為機器人世界模型,試圖用可學(xué)習(xí)的環(huán)境模型提升機器人訓(xùn)練效率。
靈初智能(PsiBot)也常被放入這一敘事中。但在靈初聯(lián)合創(chuàng)始人陳源培看來,世界模型并不是靈初的核心方向,而是服務(wù)于數(shù)據(jù)遷移的工具。“我覺得做世界模型不算轉(zhuǎn)型。世界模型只是個工具。我們從 Day one 開始,就是在做人類數(shù)據(jù)。”
靈初真正關(guān)注的問題是:真實人類操作數(shù)據(jù),能否規(guī)模化轉(zhuǎn)化為機器人訓(xùn)練數(shù)據(jù)?
在靈初成立前,陳源培已經(jīng)開始探索用人類手部運動數(shù)據(jù)訓(xùn)練靈巧操作。這項工作后來發(fā)表于 CoRL 2024,也成為靈初押注 human data 路線的重要技術(shù)來源。如今,靈初在更大規(guī)模的數(shù)據(jù)實踐中給出了一個更明確的判斷:在 10 萬小時量級上,人類數(shù)據(jù)已經(jīng)可以大幅替代真機采集數(shù)據(jù)。
這一路線里,VLA、世界模型、強化學(xué)習(xí)、外骨骼手套都不是單獨的終點。它們共同指向同一件事:構(gòu)建一套從人類數(shù)據(jù)到機器人 policy 的轉(zhuǎn)化管線。
![]()
Morgan Stanley Research 統(tǒng)計顯示,截至 2026 年 4 月底,2026 年全球人形機器人 VC 融資額已超過 2025 年全年。資本加速進入后,具身智能行業(yè)的數(shù)據(jù)、模型與落地能力正在被重新定價。
一、從 Day One 開始的人類數(shù)據(jù)路線:從 robot-centric 到 human-centric
具身智能的數(shù)據(jù)問題,本質(zhì)上是規(guī)模、質(zhì)量和遷移效率之間的權(quán)衡。
過去幾年,行業(yè)主流路線之一是 teleoperation。通過同構(gòu)或近似同構(gòu)的遙操作設(shè)備,讓人直接控制機器人或影子臂采集數(shù)據(jù)。這類數(shù)據(jù)與機器人本體更接近,遷移難度低,訓(xùn)練鏈路相對直接。
但 teleoperation 的問題也很明顯:采集成本高、設(shè)備重、場地依賴強、操作員需要訓(xùn)練,很難獲得足夠大的數(shù)據(jù)規(guī)模。對于試圖訓(xùn)練通用機器人能力的公司來說,素材場式的數(shù)據(jù)生產(chǎn)方式很快會遇到上限。
另一類路線是 ego data,即用攝像頭采集人類第一視角操作數(shù)據(jù)。它的成本更低,也更接近真實人類行為,但新的問題隨之出現(xiàn):人和機器人之間存在天然 gap。人的關(guān)節(jié)結(jié)構(gòu)、骨骼自由度、動作習(xí)慣、視覺視角都與機器人不同。直接把這類數(shù)據(jù)用于機器人訓(xùn)練,往往會遇到遷移效率低、噪聲大、動作不規(guī)范等問題。
靈初的判斷是:遷移問題可以通過模型和算法管線解決,但數(shù)據(jù)規(guī)模問題必須在采集方式上解決。
“我們當(dāng)時設(shè)計這套手套,一個很核心的原因就是能盡量不影響人的日常工作。比如讓一個收銀員戴上我們的手套工作,他基本上不會有什么影響。但你讓他拿著兩個夾爪工作,掃碼都掃不了。”
這意味著,靈初想進入的不是專門搭建的機器人素材場,而是真實勞動場景:物流、倉儲、收銀、工廠等持續(xù)產(chǎn)生人類操作行為的場景。
這一路線與 UMI 等 robot-centric 方案形成對比。Robot-centric 方案通過形態(tài)更接近機器人夾爪的設(shè)備采集數(shù)據(jù),遷移效率更高,但操作者動作會受到限制,很難進入真實勞動場景。靈初選擇 human-centric,接受更高的遷移難度,換取更大的數(shù)據(jù)規(guī)模上限。
目前,靈初并行采集兩類人類數(shù)據(jù)。
第一類是外骨骼手套數(shù)據(jù)。它通過機械連接捕捉手部和手臂動作,不依賴 IMU,精度更高,也可以記錄更完整的雙手雙臂自由度。
第二類是純視覺數(shù)據(jù), 也就是英偉達和模型廠商押注的 EGO 路線:通過頭部和腕部攝像頭記錄人類操作過程,不使用手套,成本更低,規(guī)模化能力更強,但動作精度相對弱一些。
在靈初的設(shè)計里,手套的自由度盡可能做高,并不只是為了適配自家的靈巧手,而是為了提升數(shù)據(jù)的跨本體遷移能力。換句話說,靈初想采集的不是綁定某一個機器人硬件的數(shù)據(jù),而是未來可以遷移到不同機器人本體上的人類操作數(shù)據(jù)。
二、W0 和 R2:用世界模型完成人類數(shù)據(jù)到機器人 policy 的遷移
人類數(shù)據(jù)路線的核心難點,不是采集,而是遷移。
人類動作天然帶有噪聲和不規(guī)范性,人的動力學(xué)也不同于機器人。靈初的解決方式是:用強化學(xué)習(xí),在世界模型中完成遷移。
靈初的系統(tǒng)主要由兩個模塊構(gòu)成:W0 和 R2。
R2 是 policy,最終部署到機器人上,負責(zé)實際執(zhí)行操作。W0 是 world model,更準(zhǔn)確地說,是一個 action-conditioned world model:給定當(dāng)前狀態(tài)和動作,預(yù)測下一幀狀態(tài)。
在訓(xùn)練階段,W0 扮演可學(xué)習(xí)的仿真器。R2 不直接在真實機器人上大量試錯,而是在 W0 構(gòu)建的環(huán)境里通過強化學(xué)習(xí)在線迭代。W0 提供環(huán)境反饋,R2 在其中不斷探索,把人手動力學(xué)遷移到機器人動力學(xué)上,并生成新的訓(xùn)練數(shù)據(jù),再反哺 R2,形成閉環(huán)。
部署階段,W0 退場,機器人上只運行 R2。
“如果模型訓(xùn)好了,自然就不需要 W0 了。W0 是個仿真器,它是個提升的過程,不是部署的一部分。”
這也是陳源培不愿意把靈初簡單定義為 “世界模型公司” 的原因。在他的理解里,世界模型不是單獨的方向,而是數(shù)據(jù)轉(zhuǎn)化管線中的一個中間模塊。它的作用不是替代真實世界,而是幫助人類數(shù)據(jù)完成到機器人 policy 的遷移。
“算法本身沒那么重要,哪個好用就用哪個。我們更核心的還是人類數(shù)據(jù),以及把這套數(shù)據(jù)轉(zhuǎn)移成高質(zhì)量機器人數(shù)據(jù)的管線。”
在這一體系中,數(shù)據(jù)質(zhì)量也不完全依賴人工審核。靈初將判斷權(quán)交給模型本身:一條數(shù)據(jù)能不能在世界模型里成功轉(zhuǎn)換,能不能讓 policy 跑通,就是篩選標(biāo)準(zhǔn)。能跑通的數(shù)據(jù)留下,跑不通的數(shù)據(jù)丟掉。隨著模型能力提升,數(shù)據(jù)篩選邊界也會動態(tài)變化。
陳源培認為,靈初在人類數(shù)據(jù)路線上的一個關(guān)鍵階段性結(jié)果,是 10 萬小時量級的內(nèi)部驗證。
“我們基本沒有真機的素材場,真機數(shù)據(jù)非常非常少,靠人類數(shù)據(jù)也能做出來跟那些采了幾萬小時 teleoperation 數(shù)據(jù)的公司差不多的效果。”
這指向一個更核心的問題:機器人基礎(chǔ)模型是否必須依賴大規(guī)模真機 teleoperation 數(shù)據(jù)?
陳源培的判斷是,真機數(shù)據(jù)仍然重要,但它不一定是唯一燃料。如果人類數(shù)據(jù)采集足夠規(guī)模化,遷移管線足夠有效,那么大量真機數(shù)據(jù)可以被人類數(shù)據(jù)部分替代。真機數(shù)據(jù)更像是校準(zhǔn)、驗證和少量 fine-tuning 的補充,而不是全部數(shù)據(jù)來源。
這并不意味著人類數(shù)據(jù)天然等同于機器人數(shù)據(jù)。相反,人類數(shù)據(jù)要真正可用,必須經(jīng)過采集系統(tǒng)、世界模型、強化學(xué)習(xí)、數(shù)據(jù)篩選和 policy 訓(xùn)練的完整管線。
靈初試圖建立的,是這套系統(tǒng)能力。
三、從數(shù)據(jù)集到落地:SynData、小全棧與路線邊界
截至 2026 年 5 月 13 日,靈初智能 SynData 數(shù)據(jù)集在 Hugging Face 上下載量已達約 1.46 萬次。
![]()
Hugging Face鏈接:https://huggingface.co/datasets/PsiBotAI/SynData
這是基于 R2 和 W0 體系的新一代大規(guī)模真實世界多模態(tài)數(shù)據(jù)集,覆蓋視覺、語言、動作等維度。依托自研外骨骼手套系統(tǒng),SynData 能夠捕捉雙手雙臂完整自由度的高精度操作數(shù)據(jù),同時結(jié)合裸手數(shù)據(jù)與自然人類交互行為,面向動作建模、操作學(xué)習(xí)、道具學(xué)習(xí)及多模態(tài)智能研究開放使用。
對靈初而言,SynData 是其技術(shù)路線的一次階段性外化:以真實人類操作數(shù)據(jù)為底座,通過世界模型和強化學(xué)習(xí)完成遷移,再訓(xùn)練出可部署到機器人上的 policy。
但從商業(yè)化階段看,陳源培并不認為行業(yè)已經(jīng)進入 “通用基模” 階段。
他把靈初當(dāng)前的位置分為幾層。
第一層是產(chǎn)能期。現(xiàn)階段,靈初的收入主體仍然來自硬件,包括外骨骼手套、采集系統(tǒng)以及素材場建設(shè)。數(shù)據(jù)收入預(yù)計要到明年才會逐漸成為主體。
第二層是調(diào) policy 期。當(dāng)前機器人進入具體客戶場景,仍然需要針對任務(wù)、環(huán)境和節(jié)拍要求調(diào)整 policy。“真正不需要調(diào)的通用基模,還要大概三五年左右。”
第三層才是基模期。這是目標(biāo),但不是當(dāng)下。
這也解釋了靈初為什么選擇做 “小全棧”。陳源培對 “小全棧” 的定義是:以模型為核心往下做,關(guān)鍵環(huán)節(jié)自己掌握,但做到核心零部件為止。比如觸覺傳感器、精密減速器這類零部件,靈初選擇外采,不會自研。
原因并不是為了展示全棧能力,而是落地需要。“你要做落地,硬件的穩(wěn)定性、節(jié)拍要求,跟硬件高度耦合,現(xiàn)在沒辦法,只能自己做。” 在現(xiàn)階段,機器人落地不是單純的軟件問題。一個 policy 能否穩(wěn)定運行,取決于機器人本體、執(zhí)行器、傳感器、控制系統(tǒng)、任務(wù)節(jié)拍和場景約束。模型和硬件仍然高度耦合,只做模型很難完成真實交付。
對于行業(yè)其他路線,陳源培的判斷也比較明確。關(guān)于 Genesis 等近期受到關(guān)注的機器人 demo,他認為不需要神化,也不應(yīng)否定。“如果我們拿那套硬件訓(xùn)一下,他們那些 demo 我們也都能做出來。”
關(guān)于仿真,他相對悲觀。在他看來,仿真是重要工具,但如果期待仿真本身出現(xiàn)巨大突破,并單獨解決真實物理世界中的接觸、長尾和高精度操作問題,概率并不高。
那么,human data 路線會不會被證偽?
陳源培認為,如果這條路線最終被證偽,大概只有兩種可能:第一,仿真出現(xiàn)巨大突破,可以低成本生成足夠真實、足夠多樣、足夠可遷移的數(shù)據(jù);第二,某家公司擁有足夠強的資金和工程能力,把真機數(shù)據(jù)飛輪真正跑起來。
相比之下,他認為第二種可能性更高。
在他看來,human data 路線真正要證明的,不是人類數(shù)據(jù)比真機數(shù)據(jù)更干凈,而是在規(guī)模、成本、遷移效率和泛化能力之間,是否能形成更優(yōu)的綜合解。
這一路線的護城河也不只是數(shù)據(jù)量。
“算法其實沒有秘密。但數(shù)據(jù),包括整個數(shù)據(jù)梳理的管線、積累和處理的方法,會影響你很長一段時間。有些人踩了三年的數(shù)據(jù),你想馬上追上來,非常難。”
數(shù)據(jù)之外,還有組織能力。
“整個組織的文化、結(jié)構(gòu)、價值觀,也很重要。”
從論文到公司,陳源培認為靈初做的一直是同一件事:讓人類數(shù)據(jù)能被機器人用起來。VLA、世界模型、強化學(xué)習(xí)都是工具,真正的方向是通用機器人能力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.