網易首頁 > 網易號 > 正文申請入駐

影身智能完成多輪融資，用原生3D數據重新定義機器人認知｜甲子光年

2026-04-20 11:07:27　來源: 甲子光年

北京舉報

分享至

像嬰兒一樣學習這個世界。

作者｜張麟

編輯｜栗子

當大模型從數字世界走向物理世界，一場關于“如何理解真實”的技術路線之爭激烈上演。

近日，「甲子光年」獨家獲悉，具身通用大模型與機器人公司“影身智能”宣布，已連續完成天使輪、天使+輪及Pre-A輪融資，累計融資金額近億元。

具體來看，影身智能天使及天使+輪由恒生電子領投，松禾資本、杭州潤苗基金、北京未來星、東莞人才基金跟投，浩觀資本擔任財務顧問；Pre-A輪由深高投領投，曉池資本與老股東卓源亞洲共同參與，藍橋資本擔任財務顧問；在此之前，公司曾于2024年完成數千萬元種子輪融資，投資方包括卓源亞洲、杭州西湖科創投等。

影身智能創始人&CEO閔偉是清華大學工學博士，前阿里巴巴機器人團隊技術負責人，在AI和機器人領域有20年研發經驗。他聯合清華同窗劉燁斌、孟子陽共同組成“科學家天團”，攜手攻克具身世界模型核心技術難題。前者是清華大學自動化系、腦與認知科學研究所教授，杰出青年科學家，長期致力于動態三維重建理論和關鍵技術創新；后者則是萬人計劃領軍人才，深耕機器人運控、定位與導航系統。

松禾創智基金執行事務合伙人、松禾資本管理合伙人汪洋表示：“影身智能擁有業內稀缺的、頂尖學術科研積淀與全鏈路產業落地能力兼備的復合團隊，技術路徑兼具顯著成本優勢與優秀場景泛化能力。”

2026年，具身智能開始告別技術性驗證，進入商業化落地的階段。在大模型領域，VLA才剛剛被具身智能應用不久，泛化性、物理世界推理能力方面的短板就已經暴露，世界模型開始受到關注。

世界模型在具身智能領域的興起，也意味著具身智能行業進入了數據驅動的時代。

而影身智能這家成立于2024年6月的公司，是全球首家以“原生3D動態世界模型”為核心技術路線的具身智能企業。在具身智能大模型行業經歷關鍵拐點的當下，影身智能的這一技術選擇，或將重新定義機器人理解物理世界的方式。

1.具身智能的范式轉移

如今的具身智能產業，正處于的繁榮的焦慮之中。

過去兩年，具身智能產業在大模型這一細分但極其重要的領域經歷了一場深刻變革。行業逐漸意識到，傳統的VLA（Vision-Language-Action）范式本質上是對 2D 像素的統計擬合，難以處理真實物理世界中的復雜空間關系與動態交互。為了跨越這一鴻溝，大量公司開始將目光轉向“世界模型”。

從智元發布的 Genie Envisioner 2.0，到螞蟻靈波開源的 LingBot-VA，再到英偉達與斯坦福聯手發布的 Cosmos Policy，世界模型正從實驗室的概念變為產業剛需。英偉達機器人主管 Jim Fan 甚至斷言：2026年將是大型世界模型為機器人技術和更廣泛的多模態 AI 奠定真正物理基礎的元年。

影身智能的核心產品同樣是其自研的原生3D動態世界模型。但在通往“物理真理”的路上，影身智能在數據獲取與模型訓練上，采用了一種與市場截然不同的“升維”思路——大多數公司的世界模型主要依賴互聯網海量的2D視頻進行訓練，而影身智能則試圖完全依靠3D數據。

影身智能基于3D數據實現的場景重建與泛化（截圖）

這種路線分歧，源于具身智能行業的一個共識——世界模型的數據是普遍稀缺的。

此前，大語言模型能夠輕松獲取海量的文本內容、自動駕駛模型有無數車輛持續完成道路數據采集，這都讓其能夠得到很好地訓練和快速迭代。但用在具身智能上的大模型，尤其是世界模型，沒有數據寶藏可挖。不成規模的產品落地和極度匱乏的交互，讓世界模型幾乎沒有現成的物理數據可用作訓練。

更重要的是，具身智能要面對的場景主要是非結構化場景，廚房、客廳、病房、工廠，每個場景都有其獨特的交互邏輯，如何用有限的數據完成世界模型泛化性的提升，是每一個從業者都在面臨的問題。

市場上的部分企業選擇給世界模型喂養互聯網視頻，希望在解決數據來源問題的同時，通過算法優化來讓世界模型能夠從中獲取到物理世界的運行邏輯。另一些企業傾向于利用遙操手段，精準采集機器人的交互行為，得到的數據將會是極其精準且能真實反映物理世界的。

但影身智能并不這么認為。一個很簡單的道理是，如果這幾種數據采集方法被證明是高效的，世界模型的效能提升不會這樣緩慢。

2.當模型準備好，數據還沒來

在具身智能領域，如果說“世界模型”是所有玩家競逐的圣杯，那么高質量、可規模化的交互數據則是通往圣杯的唯一階梯。然而，關于“階梯”該如何搭建，行業內正演化出截然不同的路徑。

影身智能創始人&CEO閔偉認為，文本信息是一維數據，視頻、圖片是二維數據，而世界模型需要的是三維數據，需要有三維坐標和幾何表征，否則訓練出的模型極易出現“物理幻覺”和“空間錯位”—比如認為手可以穿過桌面。

但并非所有人都認可這一觀點。

比如Google DeepMind，他們將世界建模視為一種序列預測問題，其推出的Genie世界模型主要以視頻生成為基礎進行自回歸。從結果看，Genie同樣能生成3D場景，但它的工作流程完全在2D視覺token空間中進行，處理的是視頻幀序列，而非3D結構。

這種技術路徑的優勢在于數據庫存量級大，缺點則是易出現嚴重的物理不合理問題。論文《Empowering LLMs with Physics-Based Task Planning for Real-Time Insight》中指出，Genie等世界模型雖然引入了視頻學習、多智能體動態和前向/逆向預測，但這些都仍然是黑箱預測邏輯，其所理解的世界“物理規律”完全從2D數據中學習，沒有明確的物理一致性保證。

另一個備受關注的方向，來自李飛飛團隊。他們推出的Marble世界模型，技術路徑強調“空間智能”（Spatial Intelligence），采用顯式3D重建方法，試圖從2D數據中還原出一個可交互的三維世界。盡管Marble在空間精確性和幾何合理性上更勝一籌，但受限于底層技術棧，其在復雜動態交互中仍無法徹底解決仿真結果的閃爍、畸變和穿模問題。

這是因數據物理表征缺失而產生的困局，會讓模型在執行高精度操控任務時“力不從心”。

甲子光年認為，無論是Genie還是Marble，本質上都是避開了三維數據的獲取難題，試圖通過更大數量級的二維數據（照片、視頻）作為代償，用算法逆向模擬出物理世界的深層規律。這幾乎代表了當前世界模型領域的兩大技術路線：像素生成派、3D重建派。

影身智能想走第三條路——直面難題，開辟原生3D路徑。閔偉認為，具身智能長久以來的“認知偏差”，本質上源于數據源頭的降維困境。在他看來，用2D數據訓練機器人，就像是讓人類僅通過觸碰照片來感知世界，“世界模型需要的是擁有精確三維坐標與幾何表征的3D數據，這是滿足真實物理交互、消除‘物理幻覺’的唯一入場券。”

閔偉告訴甲子光年：“世界模型的問題，歸根結底是數據問題。過去，三維數據采集昂貴且稀缺，所以大量公司才試圖從二維突破。我們要做的，就是用技術手段直接破解三維數據的生產難題，從源頭上拆除世界模型的桎梏。”

閔偉口中的技術手段，是他們獨創的“影身360”系統。而這一技術帶來的成就，是影身智能全棧自研的“原生3D動態世界模型”。

影身360系統本質上仍是一套三維數據采集系統，但其徹底顛覆了對高昂硬件的依賴。僅依靠極簡的家用級RGB攝像頭，即可實現實時的3D數據采集與重建。這種“以輕搏重”的方案，大幅降低了高精度傳感器的需求。

“影身360”實時數采-重建現場

影身智能科學家劉燁斌教授告訴甲子光年：“現在已有的三維數據采集方式，無論是激光采集還是攝像機陣列采集，都存在采集數據體量小、成本高以及環境局限性強等問題。”

通過持續的優化，目前影身360系統的攝像頭僅需4-5個，單個攝像頭價格僅百元級別，極大降低了三維數據采集的門檻。搭配影身智能自研的軟件算法，這套系統能夠實時地構建出自由視角的場景重建，為世界模型的訓練和后續機器人的落地應用搭建高效的數據基礎。

更為關鍵的是，這種數據采集和處理方式幾乎顛覆了世界模型的訓練范式。在此基礎上，影身智能的原生3D動態世界模型從預訓練階段，輸入的原始數據就是包含物理邊界、幾何表征和真實交互邏輯的三維數據。

這意味著該世界模型不再是被動地觀察“平面電影”，從而“想象”真實世界，而是原生感知三維空間中的深度、體積與動力學關系。通過這種信息升維，影身智能不僅解決了數據從哪來的問題，更解決了數據怎么用的問題，讓模型擁有了真正的“物理直覺”。

閔偉對甲子光年表示：“區別于繞彎路的二維映射，該模型直接以‘原生3D數據’為基礎，從數據源頭重構了模型的能力邊界。它能夠同步生成場景的三維幾何表征、預測視頻以及直接驅動物理本體的動作（Action）序列。這種從1維、2維到3維的升維進化，讓機器人獲得了泛化物理常識的能力。”

除了能夠對真實的物理世界理解的更加透徹，原生3D動態世界模型的另一個優勢，是訓練高效。

以視頻數據為例，其雖然有海量的數據資源，但同樣存在數據冗余和無效的情況，原因在于視頻的每一幀之間存在大量的圖像信息重合。

而三維數據的數據冗余更少、利用效率更高，在大模型訓練和機器人本體訓練時則更加高效。影身智能表示，其目前利用原生3D數據對世界模型進行訓練，生成同樣效果的仿真結果，效率是使用視頻訓練的20倍。

影身智能基于3D數據的L-UVA架構視頻泛化效果對比

閔偉給甲子光年打了一個很恰當的比喻：“一個嬰兒出生以后，即使每天的活動時間只有8小時，三年時間也不過8000小時，為什么就已經能夠很好地完成對世界的理解和交互了？原因就在于人類從出生開始就在接觸原生的三維數據和真實的物理世界。僅靠二維數據，大模型訓練百萬小時也難以達成同樣效果。”

因此，影身智能從數據源頭完成的升維，實際上也是對數據體量的降低以及世界模型訓練速度的加快，做出的布局。

3.落地是最好的試金石：為什么是制鞋？

技術再先進，不能落地就是空中樓閣。具身智能的行業本質，最終還是要回歸到產生商業價值。

目前市場上，具身智能的主要目標場景包括工業制造、物流倉儲、商業服務、家庭服務等。其中，“機器人進工廠”雖最具規模效應，卻也爭議最大。

質疑者認為，傳統工廠已有高度成熟的自動化方案。特別是機器人進入汽車工廠“打螺絲”等案例，往往被視為對成熟剛性生產線的重構，并未能充分證明具身智能在復雜、多變環境下的適配性與增量價值。

但影身智能的觀點是：現階段的機器人進工廠并非偽命題，關鍵在于進什么樣的工廠。

甲子光年了解到，影身智能目前落地的垂直領域是柔性智造行業，將矛頭直指工業界最難啃的“硬骨頭”——由柔性材料與柔性生產構成的“雙柔性”場景。

在過去，易形變材料（如皮革、織物）與高頻更迭的SKU（如鞋服款式）是傳統機械編程的禁區。自動化設備的“剛性邏輯”無法跨越物理世界的不確定性鴻溝。影身智能通過引入原生3D動態世界模型，賦予機器人理解物理空間與實時補償的能力，使產線從“死記硬背”進化為“實時感知、實時決策”，徹底捅破了柔性場景的自動化天花板。

具體而言，制鞋就是一個典型的“雙柔性制造”場景：一方面是材料的柔性（皮革、織物極易形變），另一方面是工序的柔性（鞋款迭代極快，SKU極多）。這種環境下，傳統的自動化產線對比人工效率毫無優勢，大量工序只能依靠人工完成。

以制鞋涂膠工藝為例，傳統自動化噴涂方案常因無法適應鞋型的復雜曲面變化和膠水的流體變化，而導致膠水外溢或噴頭堵塞，在多產品類型頻繁切換時，自動化設備良率低且調試周期長，只能靠人工解決。

影身智能的原生3D動態世界模型，恰恰為這一行業痛點提供了系統性解決方案。通過搭載原生3D動態世界模型，機器人能夠精確識別鞋體三維結構、物理邊界與幾何特征，可動態調整抓取力度與涂膠壓力。即使在不搭載靈巧手的情況下，也能實現毫米級精度的涂膠動作。

更深層的競爭力在于影身智能獨創的“V-4D-A”（視覺-4D-動作）架構。通過這一架構，公司打通了“3D數據獲取—模型訓練—物理運行—場景落地”的閉環。這意味著，機器人在生產線上的每一次作業，都在同步收集真實的物理世界數據，這些珍貴的“具身數據”又反向喂養、加速了模型的持續迭代。

閔偉表示，從這樣復雜的場景切入，首先是基于技術考量：“這是一個‘先難后易’的邏輯。相比路徑固定的汽車焊裝或環境相對松散的家居場景，輕工業柔性智造對世界模型的復雜度、操作精細度要求最高。拿下柔性智造，就意味著積累了最厚實的底層模型基座。后續向其他領域遷移時，將形成極強的‘降維打擊’能力。”

在技術邏輯之外，影身智能的選擇更具備深層的社會經濟意義。當前的制鞋行業正深陷“職業健康”與“用工結構性短缺”的雙重泥潭。

比如制鞋涂膠，人工刷膠雖然靈活，但存在嚴重的健康隱患。制鞋膠水通常是含苯類溶劑，工人在高溫、高揮發毒性環境下作業，職業健康風險極高，極易誘發苯中毒等職業病。廣西柳州市衛健委就曾報道，制鞋廠是苯中毒高發領域之一。而影身智能的具身智能解決方案，恰好可以將工人從高危作業環境中徹底解脫出來。

在用工層面，由于重復性勞動對年輕一代的吸引力急劇下降，制鞋、制衣等行業開始出現勞動力“斷層”，用工缺口正演變為結構性危機。2024年，耐克在越南的供應商Samho鞋廠就曾因安全與薪酬爭議出現近4000人的用工缺口，每月更有數百人流失。對這些企業來說，尋找確定性的自動化替代方案，已不再是提效的“可選項”，而是生存的“必選項”。

閔偉表示：“我們在選擇落地行業時，綜合考慮了技術門檻、勞動力缺口、場景必要性等多個因素，影身智能的目標就是讓機器人去到最能發揮價值的崗位。”

目前，影身智能通過將原生3D動態世界模型搭載到工業機器人本體上，可以實現8小時生產3000雙鞋的生產效率。面對不同款式、訂單的頻繁切換，機器人可自主識別操作，全程無需人工干預與調試。

4.通往通用人工智能的漸進之路

影身智能先選擇了柔性智造場景，但這絕非其終局。

影身智能的目標是打造通用人工智能（AGI）產品。從其目前的落地速度和數據閉環能力來看，這種從垂直深耕到通用泛化的路徑，極有可能會使其加速完成這一宏大目標。

在閔偉看來，通用人工智能有兩個關鍵點，一是邏輯世界的構建，也就是語言、推理能力的不斷提升。僅從這一點來看，目前的大語言模型的能力已經十分出眾。

另一個方向，就是物理世界的理解。通用人工智能需要能夠在真實的物理世界中完成對人、對物體的交互，要能夠在泛化場景中完成復雜任務。只有這兩點都具備時，通用人工智能的時代才會到來。

閔偉告訴甲子光年：“我們的世界模型的能力，會從復雜任務率先突破，泛化到更多簡單任務，場景應用也將因此更加多元。當我們可以落地家庭場景時，具身智能產品的能力也就會收到全社會的認可。”

從更加宏大視角來看，人類文明的每一次技術爆炸，本質上都是信息媒介的躍遷。在文字時代，人類將信息降維成符號；圖像與視頻時代：人類將信息壓縮至像素；在AI時代，人類正試圖在虛擬中重建真實。

而影身智能的原生3D動態世界模型，就是在用最接近真實世界的數據來讓具身智能產品完成交互與表達。

這種基于數據層的巨大革新，帶來的將是算法與模型層的全面進化。原生3D數據不僅是具身智能的數據源，更是信息革命的終極形態——在虛擬世界中無限逼近真實物理規律。

（封面圖來源：AI生成）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.