去年4月,人形機器人第一次和人類站在同一條賽道上跑馬拉松;今年4月,機器人已經跑得比人類還快。但跑得快之后呢?企業們給出的答案出奇一致——先去實習。
從春晚舞臺到保潔現場
![]()
過去兩年,登上春晚、參加比賽是機器人展示拳腳的最佳舞臺。宇樹科技的機器狗翻跟頭、人形機器人跳秧歌,流量拉滿,但質疑聲從沒停過:跑那么快有什么用?什么時候能干實事?
今年4月,敘事變了。智元機器人宣布新款A3人形機器人將通過"擎天租"平臺批量交付,上崗景區;自變量機器人與58同城合作,推出全球首個機器人保潔員,進入真實家庭與保潔阿姨協同作業。
社交媒體上已有用戶"嘗鮮"。有用戶反饋,機器人能做晾衣服、收納等復雜家務,但疊一件衣服要接近10分鐘;活動范圍有限,有臺階、門檻都進不去。整體評價依然是"機器人不如人"。
這種"不足"不是某家企業的難題,是整個行業的共同瓶頸。自變量CEO王潛直言:「今天在全世界范圍內,沒有任何一臺機器人可以在沒有遙控操作的情況下,獨立完成大部分的日常家務。」
宇樹科技創始人王興興也提過類似判斷:機器人在預設場景任務中成功率趨近100%,一旦場景變化或出現從未見過的事件,成功率會斷崖式下跌。他給出的時間表是:機器人做家務還要3-5年。
"小腦"發達,"大腦"缺鈣
業內有個形象的比喻:機器人雖然"小腦"發達,但"大腦"還在發育。
"小腦"指運動控制能力——武術、舞蹈、后空翻,這些復雜動作機器人已經玩得轉。"大腦"則是認知、決策能力,是"能干事"的基礎。當下最大的瓶頸就在這里:機器人無法理解真實世界的物理邏輯。
讓"大腦"真正長好,行業目前分三條技術路線:
VLA端到端是當下主流,也最成熟。它融合視覺等多模態感知信號與語言指令,直接生成機器人動作。簡單說就是"聽命令,直接干"——用戶說"我餓了",機器人找到食物遞過來。只要見過類似物體,它就能執行。
但弊端明顯:任務越復雜、場景越陌生,越容易"邏輯死機"。而且常用架構把視覺、語言、動作三個模塊獨立運行,數據每過一次邊界就有信息損耗和延遲。涉及精細動作時,"大腦"容易跟不上"小腦"。
世界模型路線被認為最接近人類思考模式。核心能力是理解物理世界運轉規律,預測下一刻發生什么。比如杯子從桌上掉落,模型能基于對運動、重力的認知估算方向,機器人據此扶穩或避開。
但成本挑戰巨大。英偉達的Cosmos世界基礎模型,經過了9000萬億個Token的訓練。數據需求、訓練成本都是天文數字。
大小腦分層是更具國內特色的路線。LLM大模型當"大腦"理解任務,VLA/動作模型當"小腦"負責精細控制。但拆分容易導致任務延誤,難以高精度操作;模塊越多,成本越高。
不過國內大部分企業在"小腦"環節已有積累,先立住長板、再補短板,比從零造"大腦"更務實。
三條路線,開始"混血"
每條路線各有優劣,難說誰是終局。更現實的趨勢是:深度融合。
智元Genie業務部生態及解決方案總監沈詠劍曾表示,世界模型與VLA不一定是替代關系,也可能融合或合作。今年以來,智元推出了世界模型迭代版本GE-Sim 2.0、新一代VLA基座大模型Genie Operator-2,以及第二代一體化具身大小腦系統GenieReasoner。
智元在傳統世界模型僅建模"狀態"的基礎上,提出了世界動作模型方向,將"狀態-動作-狀態演化"作為統一建模對象,并未只圍繞單一路線推進。
自變量則推出了世界統一模型架構的具身智能基礎模型,把大小腦塞進同一個模型,更有效消除模塊間的信息損耗與延遲。其模型WALL-B的特點是"干中學"——在反復失敗、嘗試中自我迭代。
自變量CTO王昊指出:「世界模型并非一個單獨的模塊,它本質上是一種能力,但這種能力不能簡單地累加,并不是在VLA后面再掛一個世界模型就能理解世界。」
智平方提出快慢雙系統融合方案:"快系統"負責全身控制,"慢系統"負責邏輯推理。面對復雜動態環境,既能快速反應,又能保持對長程任務的深度理解。
無論哪條路線,"大腦"要真正長好,繞不開兩件事:理解世界,以及讓思考跟上身體的反應速度。
泳池里學不會游泳
但這不是練得越多就越強。王昊舉了個扎心的例子:「一個人在泳池里學了10年游泳,但把他丟到大海,他還是有可能會淹死。」
實驗室數據太干凈,機器人待在象牙塔里,很難具備真正的獨立思考能力。最好的方法是到復雜的、充滿隨機性的環境中學習。
復旦大學計算機科學技術學院教授肖仰華曾對外表示:「訓練具身智能大模型,保守估計當前已有數據量與所需數據量之間至少還差兩個數量級。」
兩個數量級,意味著100倍的差距。出于對真實數據的渴求,機器人開始加速涌入真實場景。
優必選的人形機器人已經進入工廠。創始人周劍表示,優必選花了兩年時間,從新能源汽車制造場景切入,完成搬運、上下料、物料分揀、質檢等任務的POC實訓。
銀河通用的Galbot機器人開始參與藥房運營,自主識別訂單、抓取藥品、掃碼、打包;魔法原子的人形機器人變身"汽車銷售",在專賣店招攬顧客、講解車輛參數。
不同企業、不同場景,目標只有一個:在真實場景獲取真實數據,讓"大腦"在摸爬滾打中真正發育。
為什么急著當"打工仔"
機器人企業如此急切地把半成品推向市場,背后是一套殘酷的商業邏輯。
首先是數據饑渴。仿真數據能解決一部分問題,但真實世界的摩擦力、光照變化、人類行為的不可預測性,很難在虛擬環境中完整復現。每一個在真實場景中犯的錯,都是珍貴的訓練樣本。
其次是成本壓力。人形機器人硬件成本雖已大幅下降,但離消費級市場仍有距離。先切入B端場景——工廠、景區、藥房——用租賃或服務分成模式回血,是更現實的生存策略。
更重要的是技術驗證。實驗室里的Demo再驚艷,也證明不了商業價值。只有真正進入生產流程、面對真實用戶,才能知道"大腦"到底缺在哪塊。
58同城選擇合作機器人保潔,而非直接替代保潔阿姨,也是務實考量。現階段機器人更適合做"協同"而非"替代",在特定環節補充人力,同時積累家庭場景數據。
這種"人機協同"模式,可能是未來幾年的常態。機器人干得了的,比如地面清潔、物品遞送;干不了的,比如復雜收納、情感交互,繼續交給人類。邊界在實戰中慢慢清晰。
行業敘事從"炫技"轉向"務實",本身是一種成熟。春晚舞臺上的后空翻,證明的是可能性;工廠里的搬運、家庭中的保潔,驗證的是可行性。前者吸引眼球,后者決定生死。
當然,風險同樣明顯。過早商業化可能透支用戶信任——如果"嘗鮮"體驗太差,市場教育成本會大幅上升。企業需要在"盡快獲取數據"和"避免口碑崩塌"之間找平衡。
另一個隱患是技術路線鎖定。一旦某家企業在特定場景投入過重,可能被迫持續優化那條路徑,錯失更優解。深度融合是大趨勢,但融合需要資源和時間。
無論如何,2025年正在成為具身智能的"實習元年"。機器人從舞臺中央退下,穿上工裝,走進車間和客廳,在真實世界的混沌中學習思考。
這個過程注定笨拙、緩慢、充滿挫敗。但正如王昊那個泳池的比喻——大海才是目的地,泳池里練再久,也學不會真正的游泳。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.