網易首頁 > 網易號 > 正文申請入駐

對話靈初智能CEO 王啟斌：具身智能，正從"硬件浪潮"進入"數據浪潮"

2026-05-21 13:37:08　來源: 鈦媒體APP

北京舉報

分享至

近日，全球最大的開源 AI 社區 HuggingFace 上, 由靈初智能開源的SynData 數據集沖上了 Trending 榜全球第一。

此前，靈初智能采集了超過10萬小時的人類操作數據，涵蓋工業裝配、生活操作、物體抓取等多種場景和任務，其中1000小時已開源發布。截至2026年5月13日，SynData下載量已達約1.46萬次。

公開資料顯示，靈初智能創立于2024年，創始人兼 CEO 王啟斌曾就職于云跡科技和京東機器人，擁有消費電子與商用機器人（酒店配送、物流配送）的研發、交付與商業化落地經驗。聯合創始人陳源培，曾在全球范圍內首次實現利用強化學習在真實世界同時控制雙臂、雙手多技能操作。

與大多數注重本體運動控制開發的具身智能不同，靈初智能專注在人類數據路線上，試圖通過采集人類的真實行為數據，用于具身智能模型的訓練，以此讓機器人的靈巧操作實現更大的泛化性。

數據采集方式上，靈初智能摒棄了傳統遙操作和純仿真方案，采用多模態數據手套在真實場景中記錄人類的視覺、觸覺、關節角等信息，以獲取高信噪比的精細操作數據。

目前，靈初智能已部署100套數據手套設備，完成萬小時級真實數據驗證，2026年目標是將數據采集量級提升至百萬小時。

4月，靈初智能發布Psi-R2 與 Psi-W0，構成了“雙系統大模型架構”。其中，Psi-R2 的核心定位是一個 World Action Model（世界動作模型/VLA）。它的主要任務是：看懂指令，規劃動作，直接操控機器人干活。

Psi-W0 是一個 Action-Conditioned World Model（動作條件世界模型）。它不直接控制機器人，而是在后臺模擬物理世界的運行規律，專門用來評估、打磨和提升 Psi-R2 的策略。

“當前具身智能正從‘硬件浪潮’進入‘數據浪潮’，靈初智能要在這波浪潮里成為‘數據標準制定者’。”

靈初智能CEO 王啟斌表示，靈初智能的技術路徑主要分為三步。

第一步，把采集成本打下來。靈初智能自研的外骨骼手套已把采集成本降到傳統真機方案的十分之一，精度達到亞毫米級，這讓大規模人類數據采集真正可行。

第二步，用數據訓練出全球領先的模型。Psi-R2 是全球首個以 10 萬小時量級人類數據預訓練的 World Action Model，在 MolmoSpaces 榜單位列全球第一，用少于 100 條真機軌跡就能完成全新任務的泛化。

第三步，通過開源推動行業標準形成。靈初智能已開源全球最大人類手部操作全模態數據集首批 1000 小時，后續還會結合行業推動 Benchmark 建設，同步推動數據格式與評測指標的行業共識形成。

以下是與靈初智能CEO 王啟斌的對話內容，略經編輯：

Q：靈初的核心客戶是誰？制造業精密裝配、物流柔性打包之外，下一個重點落地場景是什么？

王啟斌：我們目前核心客戶是兩類：一是制造業客戶，核心是精密裝配環節，比如電子產品組裝、汽配零部件檢驗；二是物流行業，重點是服裝倉儲的揀選、分撥和打包。服裝物流 SKU 極其豐富，一個倉庫里可能有幾萬個 SKU，這個特點天然產生了大量多樣性數據，對我們訓練模型價值極高。

下一個重點場景，我們在認真評估零售門店的補貨和貨架整理，以及電商物流中的多品混合揀選。這些場景有幾個共同特點：任務高頻、可量化、客戶有迫切的降本需求，而且環境是半結構化的——不像全開放那么難，也不像固定工位那么簡單，正好是我們模型能力的甜區。同時，我們也有明確的海外物流客戶。

Q：在您看來，數據從人類中來，為什么比從遙操/仿真中來更有潛力？在這場定義權之爭中，行業目前是否存在一些數據觀點上的誤區？

王啟斌：人類在工廠、倉庫、家里每天執行的靈巧操作，天然攜帶三樣東西：真實的任務分解邏輯、手眼協調的精細反饋、以及面對意外情況時的自適應調整。這些是遙操和仿真都很難完整復現的。

遙操的問題在于：操作節奏慢、成本高，更關鍵的是，遙操的天花板是人盯著屏幕能做到的最好水平——而人在屏幕前的操作能力遠不如人在現場的自然操作。仿真的問題則是 Sim2Real Gap：在精細操作里，差一兩毫米就意味著任務失敗，仿真的物理模型再精確也有偏差。

行業目前有幾個明顯誤區：第一，認為數據量等于能力——其實任務多樣性比物體多樣性重要，物體多樣性又比場景多樣性重要，數量堆不出泛化；第二，認為遙操是黃金標準——我們的實驗表明，同等小時數的人類原生數據，在精細操作上的遷移效果顯著優于遙操；第三，對數據格式和模態的關注不夠——全模態（視覺+語言+關節角+觸覺）和只有視頻的數據差異是量級的。

Q：靈初已經積累了近 10 萬小時人類數據，手套采集成本降到了真機方案的十分之一。能否具體描述一下，一條真實的人類動作數據，從外骨骼手套采集，到最終讓機器人學會并優化一個新技能，中間經歷了怎樣的完整管線？目前有哪些數據或者現象證明這個數據飛輪正在加速，而不是線性堆砌？

王啟斌：完整管線大致是這樣的：操作員戴上我們的外骨骼手套，在真實場景里完成操作任務，手套以亞毫米級精度同步采集 3D 關節軌跡、觸覺信號和第一視角視覺流，同時配合語言標注。

數據回傳后，Psi-W0（世界模型）對每一條數據進行自動質檢和打分——它本質上是在"看這個動作是否合理"，分低的數據被過濾，高質量數據進入標注池。AutoLabeling 完成大部分標注工作，只有少量模糊樣本需要人工審核。最終干凈的數據進入 Psi-R2 的預訓練池。

遷移到新任務時，流程是：給 Psi-R2 少于 100 條該任務的真機演示軌跡做微調 → Psi-W0 在世界模型里做強化學習，生成大量合成的機器人數據來補充長尾情況 → 篩選高質量數據回流到預訓練池 → 下一代模型更強。這個循環每輪都在縮短。
飛輪加速的證據：最直觀的是新任務上手速度。半年前，一個新任務需要幾百條真機演示才能達到穩定；現在不到 100 條就能完成長程精細操作，比如裝配手機、工業包裝、疊紙盒。這說明預訓練質量在指數級提升，而不是線性堆砌。

Q：真機數據和仿真數據有沒有應用的黃金比例？另外，過去大家都講數據金字塔是真機數據＞仿真數據＞互聯網數據，現在頂層的真機數據是不是內部也會有一個小金字塔出現？如果有的話，又會是怎樣的排列？

王啟斌：仿真聲量下降，本質上是行業意識到 Sim2Real Gap 在靈巧操作里是結構性問題，不是調調參能解決的。但仿真沒有消亡，它的價值在于三個地方：一是探索性訓練，對沒有真實數據的長尾任務做前期預熱；二是大規模 RL 訓練，在世界模型里生成反事實樣本；三是安全邊界測試，模擬極端情況。我們的 Psi-W0 其實是用來做"基于真實物理感知的仿真"，和純虛擬仿真不同。

黃金比例這個問題，行業里沒有統一答案，我們內部也沒有固定配方——它取決于任務類型。精細操作類任務，真實人類數據權重要高得多；粗力矩任務，仿真數據的覆蓋可以更多。強求一個比例反而會造成誤導。

你說到真機數據內部的小金字塔，這個觀察很銳利。確實，在我們看來，頂層的真實操作數據內部也有層級：最高質量的是外骨骼采集的人類原生數據（高精度、全模態、天然攜帶任務意圖）；其次是傳統遙操數據（真實物理，但節奏慢、存在操縱偏差）；再次是機器人自主作業中回流的在線數據（最終目標，但質量參差需要篩選）。

靈初的策略是繞開傳統遙操，直接用人類原生數據做預訓練，再用少量真機演示做微調，本質上是把這個小金字塔的中層壓扁了。

Q：今年大家都在講 100 萬小時的數據量級，100 萬小時這個量級是怎么達成共識的？

王啟斌： 100 萬小時不是一個隨意定的數字。

類比 LLM 的發展，GPT-2 到 GPT-3 是數據量的躍升，帶來了涌現能力——機器人領域我們相信存在一個類似的臨界點，在那之后模型對未見過任務的 zero-shot 泛化能力會出現質的變化，而不只是量的累積。目前業界普遍把這個臨界點估計在百萬小時量級。

我們對 100 萬小時的節點預判是 2026 年底。路徑上我們在并行推進：工廠合作的集中采集、特定的數采廠、以及正在設計的分布式微支付采集網絡。

內部預演方面，我們有一些早期信號。當我們把訓練數據從 1 萬小時擴展到 10 萬小時時，模型在未見場景上的遷移成功率有一個非線性的提升——這給了我們信心。

按照這個趨勢，100 萬小時之后，我們預期新任務的 cold start 數據量可以從現在的不到 100 條繼續大幅壓縮，趨近于真正的 few-shot 甚至 zero-shot 部署。

Q：您曾把 2026 年具身智能的發展概括為三個交錯推進的小周期：硬件周期仍在延續，數據周期已經加速，場景周期剛剛啟動。那么，未來兩年最關鍵的勝負手會在哪個周期？

王啟斌：三個周期是真實存在的，但它們的時間軸是錯位的。硬件周期是整個行業共同在跑的賽道，門檻正在降低，整機成本還在快速下降，這給所有人都帶來了機會，但也意味著純硬件已經很難形成壁壘。場景周期剛剛啟動，大多數真正的商業訂單還處于小批量驗證階段，爆發要等數據和模型能力先到位。

未來兩年，我們的勝負手在數據周期。我們的判斷是：誰先建立起高質量、可持續的數據飛輪，誰就能在場景周期爆發時最快完成能力遷移。數據飛輪不只是數據量的積累，更是"采集-質檢-訓練-部署-回流"整個鏈路的效率。

取舍上：第一，把資源集中在模型、數據、靈巧操作上。整機是高資產、慢迭代的事，而我們需要快速迭代；第二，在場景選擇上聚焦，寧愿把物流倉儲做到極致，也不同時鋪多個場景；第三，暫時犧牲一部分商業收入的增速，來確保數據飛輪真正轉起來，而不是為了交付而交付。

Q：行業里"融資熱、落地難"的矛盾很突出。靈初估值一年漲了六七倍，同時您此前也提到過 2026 年底銷售額目標在幾個億。在資本預期和實際商業節奏之間，您會如何管理這種張力？

王啟斌：我對這個問題的態度是：不刻意管理資本預期，而是管好自己的經營節奏，然后如實透明地溝通。

估值漲了六七倍，背后是資本對這個賽道長期價值的判斷，不完全是對我們當下收入的定價。我們沒有因為估值高就去做超出能力的承諾。2026 年底幾個億的銷售額目標，是我們認真核算了交付管線和商業進展之后提出的，不是為了配合融資故事。

張力確實存在。資本希望看到快速的商業化驗證，而具身智能的真實落地周期比軟件要長——一個倉庫項目從接洽到穩定運行可能需要 6-9 個月。我們的做法是：對投資人坦誠區分"技術里程碑"和"商業里程碑"，前者可以比較快展示，后者需要更長時間。不混淆兩者，才能建立真正的信任。

我經歷過 2018 年機器人和自動駕駛的那輪周期，見過公司因為過度承諾商業節奏最后失去信譽。這一次我的原則是：寧可讓資本預期低一點，也不承諾我們沒把握做到的事。

Q：您親歷了 2018 年以來機器人和自動駕駛的周期，也見過行業預期的起伏。這一次具身智能的熱潮，您認為哪些底層條件已經發生了真正的變化？又有哪些風險是大家目前集體忽視的？

王啟斌：真正發生變化的有三點：第一，算法范式轉移。2018 年的機器人本質上還是規則驅動+有限感知，VLA 端到端模型的出現讓"從數據中學復雜操作"第一次真正可行；第二，中國供應鏈的成熟度。靈巧手、傳感器、執行器的成本和供應穩定性，今天比 2018 年好了一個數量級，這讓硬件創業門檻大幅降低；第三，大模型帶來的算力和推理基礎設施。具身大腦在邊緣端運行的成本曲線還在快速下降。

集體忽視的風險，我認為有兩個：第一，數據質量問題。行業里有一種錯覺，認為只要堆數據量，能力就會出來。但如果數據的精度、模態完整性、任務多樣性不夠，量大只會放大噪聲；第二，商業化時間線的樂觀偏差。大家普遍在說今明兩年是"商業化爆發元年"，但真實的工廠和倉庫客戶的決策周期很長，一個項目從 PoC 到大規模采購可能需要 2-3 年。過度承諾商業節奏會讓行業信譽受損，最終傷害整個賽道。（文 | 科技潛線，作者 | 饒翔宇編輯 | 楊林）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.