智東西
作者 許麗思
編輯 漠影
33天后,你的家里或許就要迎來一位硅基新成員了!
它要面對的,可能是隨處散落的衣服、小孩隨手扔在地上的玩具、桌邊快要掉下去的杯子、剛被貓弄亂的客廳……這些你每天都要做、似乎永遠做不完的瑣碎家務。關鍵是,它還能24小時全天在線,把家務活越干越明白!
4月21日,自變量機器人在北京舉行發布會,宣布將于5月25日,讓搭載新一代自研具身智能基礎模型WALL-B的機器人入駐真實家庭。
WALL-B是全球首個基于世界統一模型(World Unified Model,WUM)架構的具身基礎模型,把視覺、聽覺、語言、觸覺、動作乃至物理預測放進同一個網絡里從零聯合訓練,讓機器人第一次有機會同時形成對環境、自身和任務的整體理解。
![]()
更重要的是,WALL-B突破了VLA只會模仿的天花板,開始具備對物理世界規律的認知,并能在真實交互中持續學習和自我進化,標志著具身基礎模型從VLA架構向原生多模態融合架構的重大跨越。
一、從WALL-A到WALL-B,機器人大腦從模塊拼裝進化成原生統一
最近,北京人形機器人馬拉松火爆全網,機器人在硬件本體、運動控制上進步飛速。但是熱鬧之外,人形機器人靈巧操作、泛化性等方面,卻存在不少困境,這也是機器人一直沒辦法進入真實場景干活的關鍵。
目前的具身大模型大都基于VLA架構,自變量早期也推出了基于VLA架構的第一代具身模型WALL-A,但把機器人送進家庭后,團隊漸漸看清了VLA的天花板。
VLA技術生態雖然比較成熟,但本質上是多個獨立模塊的拼接。信息就像流水線一樣逐級往下傳,每傳一次信息就損耗一次,最后機器人真正要執行的時候接收到的信息就不完整了。
這其實很像在蘋果M1芯片出現之前,Mac上各自獨立的CPU、GPU、內存一樣,信息在這三個芯片之間每搬運一次就會產生損耗、出現延遲。
另外,VLA能夠讓機器人模仿訓練數據的軌跡,但沒法搞懂物理世界規律。機器人只會死記硬背但沒掌握底層規律、不會變通,真干活了就會暴露出各種不足。自變量機器人CTO王昊總結道,“模仿是VLA的天花板”。
比如,當看到一個盤子懸在桌邊,機器人無法理解它會在重力作用下往下掉,自然也就不知道需要把它往回推。
![]()
從WALL-B到WALL-B,自變量實現了從VLA到WUM的架構革命,本質不是做一次普通迭代,而是把機器人大腦從模塊拼裝改成原生統一。
WALL-B就像蘋果M1芯片統一了內存架構一樣,將視覺、語言、動作、物理預測等所有能力,放在同一個網絡中從零開始聯合訓練,打通模塊之間壁壘,讓各個模塊從過去的分頭行動走向協同運轉。
機器人之前就像“傳話式”地處理任務,而從現在開始,模塊間的邊界和數據搬運損耗被消除了,它就能夠整體性地對環境、身體、任務等進行思考,像人類一樣去理解世界。
這種整體性性思考的能力,就像我們看到一個杯子快從桌邊掉下去的時候,往往腦子還沒完全反應完,手就已經先伸出去接了。因為人在那個瞬間,對環境、物體狀態、身體動作和接下來可能發生的后果,擁有一種整體性的理解。
二、基于世界統一模型架構,WALL-B讓機器人有世界觀、能自我進化
基于世界統一模型(WUM)架構,WALL-B實現了三項區別于行業現有模型的核心技術特征:
1、原生多模態
WALL-B從訓練第一天開始,就對視覺、聽覺、語言、觸覺、動作等多模態數據進行同步標注與聯合訓練。
機器人看到一個杯子快要從桌子掉下去的同時,它的手就伸了過去,一邊還調整力度把杯子穩妥放好。模型不再需要再像流水線一樣等不同模塊轉譯、傳話,才能進行下一步。
![]()
這種架構讓模型第一次擁有了原生本體感,讓機器人能感知自身尺寸與空間位置,判斷自身在環境中的狀態。
遇到狹窄的過道、半開的門、高處的物品時,機器人能清楚地判斷能不能通過、能不能夠得著東西、夠到了會發生什么。而很多掃地機器人甚至都不具備這個能力,它連自己鉆進去沙發底、桌底會不會被卡住可能都不太清楚。
WALL-B還讓機器人擁有了部件級理解能力,在看到一個杯子的時候,機器人能像人一樣感知到杯子把手朝向哪里、是什么材質、杯身有什么圖案、杯子里有沒有水、怎么拿握更合適。在一個家庭中認識了一個杯子后,換一個地方它還能認得,即便外形完全不同。
2、物理世界的“世界觀”
WALL-B讓機器人不止看見世界,還能讀懂世界,感知并預測重力、慣性、摩擦力、速度等基本物理規律。
機器人端起了一個裝滿水的杯子,能感知杯子里有水、重量會隨著液體晃動發生變化,手上的力度太小可能打滑,太大又可能把杯子捏翻,移動過快還會因為慣性把水灑出來。所以它會一邊拿、一邊動態調整手部力度和移動速度。
真正支撐零樣本泛化的,不是模型記住了多少任務,而是它開始理解這個世界的基本運行規律。今天能在一個家庭里判斷裝滿水的杯子該怎么端,明天就能在另一個完全陌生的環境里,處理材質不同、重量不同、形狀不同的容器。
機器人掌握的不再只是某一個動作模板,而是一套可以遷移到更多場景中的底層常識。
3、與世界交互并自我進化
目前,基于VLA模型的機器人在任務失敗后通常直接停止,返回錯誤信息,沒法從失敗中學習。而WALL-B的行為模式則完全不同:它在失敗后會調整策略再次嘗試,如果成功,則將這次成功的經驗直接更新到模型參數中。這是WUM架構區別于所有現有VLA模型的最根本特征。
機器人的學習方式從等人喂數據、等工程師重新訓練,變成了在真實世界里邊做邊學,越來越聰明。
王昊比喻,這就像人類學習如何用筷子一樣,會在實踐過程中不斷調整角度、力度,最后內化為自身的技能。
![]()
過去,我們看到許多會后空翻、跳街舞、寫毛筆字的機器人表現驚艷,但本質上仍是預設軌跡的“命令行機器人”,每一個動作都經過預先編程或遙控操作。
而家庭場景沒有人能提前把所有情況教完、預設好軌跡,機器人只有理解更底層的物理規律和空間關系,并能夠在持續的實踐中不斷進化,才可能真正落地在千變萬化的家庭場景中。
三、從糖水數據到牛奶數據,自變量靠真實家庭場景轉動數據飛輪
高質量真實數據的缺失,正是制約具身智能技術落地的核心一環。王昊認為,具身智能行業最大的秘密不是算法,不是架構,不是硬件,而是數據。
規模化、流水線式生產數據的數采工廠,雖然效率高,但依賴于預設場景、標準化任務,無法覆蓋真實世界中各種非標準、非重復、瑣碎的操作場景。
王昊把這類數據比喻為“糖水數據”,就像糖水除了甜之外對身體沒什么好處,這類數據雖然干凈、可控、量大,但和真實家庭里的復雜環境之間仍然隔著一道很深的鴻溝,基于這種數據訓出來的模型,在真實環境中會迅速失效。
這是因為,真實家庭不是一個標準化的實驗場,而是由雜亂物品、不同燈光、寵物穿行、孩子打斷和臨時任務等組成的生活現場。
與之相對的,王昊比喻為“牛奶數據”,牛奶是能夠給身體帶來實打實的營養的,真實家庭環境中采集的嘈雜、多變、充滿隨機性的數據,訓練價值更高,這也是自變量選擇的數據道路。
為了拿到這類數據,自變量團隊進入了數百個志愿者的真實家庭做模型訓練。每一戶的布局、燈光和混亂程度都不一樣。
真實家庭之所以重要,不只是因為更復雜,而是因為它讓任務規劃這件事本身也變得不可預設。王昊提到,機器人呢在進入任何一個家庭之前,很難知道具體要做什么任務、沒法提前規劃任務。
![]()
這種耗時耗力的“笨功夫”,卻恰恰形成了自變量最關鍵的壁壘,機器人只有在這種差異里訓練,才可能建立真正的泛化能力。
所以,自變量選擇用實驗數據打底,真實場景提質,前者讓模型擁有基本能力,后者讓模型學會在不確定、不可預測的環境中生存。
更重要的是,WALL-B能讓機器人能夠在與真實世界的持續交互中不斷產生新數據、回流新經驗,并推動模型完成自我進化,形成“進家庭—獲取數據—模型自我進化—再進更多家庭”的正向數據飛輪。
一旦這個飛輪真正轉起來,數據就會變成模型持續成長的燃料,像自變量這樣更早進入真實場景、積累更多高質量交互數據的企業,就能夠不斷擴大自身的領先優勢。
四、機器人1個月后入駐真實家庭,在工作中越變越聰明
前陣子,自變量和58同城合作,將搭載WALL-AS模型的機器人送入真實家庭,與保潔阿姨協同作業,在全球首次機器人進入家庭作業。
這次,王潛明確表示,將在5月25日,讓搭載WALL-B模型的機器人進入真實家庭干活。
對于機器人進入家庭后可能會帶來的隱私問題,王潛提到,自變量會采用視覺脫敏、透明授權、用途限定的方案來保證用戶的隱私安全。
![]()
機器人進家庭這件事的想象空間顯然不止賣一臺機器人,因為當機器人開始在家庭中長期駐留,它就不只是一個消費電子產品,更像是一個可持續更新的服務系統,可以通過服務訂閱、功能更新和模型升級,不斷提升它的能力。
對企業來說,這門生意不再是一次性賣機器,而是憑借持續服務和持續升級,與客戶形成長期付費關系。
王潛也承認,當前模型仍處于“實習生”階段,會犯錯,需要遠程協助,有時可能把拖鞋放到廚房、擦桌子擦到一半停下來思考。但其能夠實現24小時不間斷工作,且每工作一天都會因新數據的產生而變得更“聰明”。
結語:家庭這道終極考題,正成為機器人真正長大的地方
家庭既是具身智能最復雜、最瑣碎、最難標準化的地方,也是最能檢驗機器人是否真正具備通用能力的終極目標場景。
今天的機器人也許還走得慢、做得笨,還經常犯錯,但真正重要的變化是,它已經開始走進家庭,在這個充滿隨機性和不確定性的真實世界里,一邊干活、一邊學習,持續進化。
對于具身智能而言,這不只是一次場景落地,更像是一場真正意義上的啟程:機器人已經在最復雜的地方,開始了自己的成長。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.