田晏林 發自 凹非寺
量子位 | 公眾號 QbitAI
一家做視頻的公司,造了個機器人通用大腦。
這不是段子,是真事。
區別于傳統的專用機器人大腦,這個“大腦”既具備世界模型的預測推演能力,又能輸出行動指令,真正做到“知行合一”。
大腦模型名叫MotuBrain,4月中旬悄悄登頂兩個國際benchmark,卻無人知曉來歷,讓具身圈大佬們猜了三周。
剛剛,生數科技主動認領了。
沒錯,是那個做了Vidu、讓央視動漫用AI拍西游的公司。
兩個國際benchmark,一個測試“能不能看懂物理世界”,一個考驗“能不能真的動手干活”。
就像一個人一邊參加物理競賽,一邊考叉車實操證,4月中旬,MotuBrain兩門都拿了全場最高分。
成績單亮出來,還是實打實的登頂:
- 在WorldArena上,MotuBrain運動質量第一、動作平滑度第一;
- 在RoboTwin2.0上,它也是唯一一個在隨機環境下,平均分超過95的模型。
這是什么概念?過去幾年,能把其中一個測試做到極致已屬不易。
同時登頂?之前還沒人做到過。
但現在,生數科技告訴你:一個MotuBrain模型就夠了。
![]()
視頻公司跨界指揮機器人,聽起來蠻有趣。
實際內里也是大有乾坤:具身智能的未來需要World Action Model(世界動作模型),而后者必須建立在視頻模型對物理世界的理解之上。
一段汽車漂移的視頻,模型要看懂車為什么拐彎、輪胎為什么冒煙、下一秒會往哪走。
這也不難理解視頻公司闖入具身世界背后的邏輯了。
雙榜吊打,這個機器人大腦有多強?
MotuBrain悄無聲息地同時登頂WorldArena和RoboTwin2.0,不少具身大佬都被這個神秘模型勾起好奇心,瘋狂打聽到底是誰家做的。
有媒體扒出X平臺上倒是有個賬號,但剛注冊,簡介空空。
“子彈”飛了快三周,4月29日,生數科技主動跑出來認領:是我。
回頭來看,線索其實早就埋下了。
2025年12月,生數科技正式開源通用基座世界模型Motus,這是其在物理世界智能方向的一次試水。
四個月時間不到,生數又進化了。
MotuBrain作為全面升級的商業模型版本,繼承了Motus完整核心技術架構,并完成關鍵能力突破。
驗證實力的第一站:WorldArena。這是業界公認的World Model能力測試場。
它不看你模型生成的視頻好不好看,而是看你的模型能不能真正理解物理世界:
一個物體被推一下會朝哪個方向運動?兩個物體碰撞后會發生什么?連續動作的軌跡是否平滑、是否符合真實物理規律?
EWM Score是這個榜單的綜合評分,Motion Quality、Flow Score、Motion Smoothness這些維度分別考察動作的真實性、連續性和平滑度。
![]()
△數據統計截至4月21日
在這三個直接對應“動作質量”的維度上,MotuBrain全部拿下第一。
這意味著它不是靠某個單項指標刷分,而是在物理規律的理解和模擬上做到了全面領先。
RoboTwin2.0則是Action Model的硬核考場。
它給模型設置了50個不同的任務,覆蓋抓取、放置、推、拉、旋轉等多種操作類型,還分兩種環境進行測試:
一是Clean場景,標準實驗室環境,物體位置、光線、背景都是固定的;
二是Randomized場景,會引入隨機的擾動,比如物體位置隨機偏移,燈光顏色隨機變化,甚至桌子角度都可能微調。這考驗的是模型能不能泛化到沒見過的條件。
MotuBrain在兩個場景下,分別達到95.8和96.1,均排名第一。
它也是該榜單上唯一一個在隨機環境下,平均分超過95的模型。
拆開50個具體任務看,MotuBrain九成任務超過90分,一半任務更是拿到了滿分100分。這已經不是領先了,這叫斷崖式領先。
![]()
兩個頂級榜單,一個測“理解世界”,一個測“在世界中行動”。
想要同時取得成績,業內默認這是“統一場”級別的難題。
因為兩邊的技術棧和評估方式完全不同,能把其中一個做到極致就已經是頂級水平。
但MotuBrain雙榜吊打,至少在benchmark層面驗證了一件事:
把預測世界和驅動行動統一在同一個模型里,這條路是走得通的。
真機演示:AI干活開始“帶腦子”了
從榜單成績看,MotuBrain擁有更接近通用機器人大腦的能力特征,它不是單項任務的“偶然強”,而是跨任務、跨場景的泛化能力都強。
一段真機演示足以直觀印證。
從生數科技發布的Demo看,沒有復雜的上層VLM加持,也沒有預設動作腳本,卻將MotuBrain的4個核心能力完整呈現,看完只剩震撼!
這段不足3分鐘視頻,用3臺不同型號的仿人形機器人,演示了5種任務:插花、整理沙發、服務一場火鍋局、調酒、整理洗漱臺。
沒錯,MotuBrain的第一個能力就是一腦多型,它不是為某一種機器人量身定制,而是面向多機器人本體設計的統一智能底座。
它在不同形態、不同自由度、不同傳感器的機器人上都能跑,而且接入的機器人種類越多,數據和場景越豐富,模型表現越好。
僅從Demo展示的這三臺機器人身上,我們也能看到一個模型是怎么拿捏全場景任務的。
插花、整理沙發,別看在這幾項任務里算“簡單”的,恰恰是最考驗長程任務建模能力的操作。
我們能看到,機器人精準抓取三支花,分別穩穩插入花瓶后,順勢拿起澆水壺,對著花枝均勻噴灑清水,整個過程非常絲滑,沒有停頓。
![]()
也能看到它精準識別出散落的衣物和錯位的靠枕,先將衣物逐一拾起、規整放入洗衣籃,再將歪歪扭扭的靠枕擺回原位。
全程動作輕柔且高效,沒有出現衣物掉落、靠枕擺放歪斜的情況。
![]()
這就是MotuBrain一腦貫通能力的體現。
不同于傳統機器人僅能完成2-3個原子動作的Demo展示,MotuBrain的一個World Action Model可完成10個原子動作級別的復雜長程任務。
無論是插花還是整理沙發,機器人面對的不再是一個個孤立動作,而是一項需要持續推進的完整任務。
如果你以為這就夠了,先別急著叫好,大招還在后面。
最讓人眼前一亮的,當屬服務一場火鍋局。機器人被要求從鍋中舀取一份丸子放入碗中,同時倒一杯果汁。
這一次,它左右手同時“開工”,互不干擾、配合默契。
一個小細節是,起初勺子放在鍋里,機器人用左手握住勺柄,沒有立刻撈取,而是先判斷了一下漏勺中有沒有物體,然后重新伸向鍋中舀取丸子,盛入面前的碗中。
![]()
別小瞧這個不起眼的動作,需要機器人「理解」勺子是空的,同時能自主「預測」并重新執行撈取動作。
多數機器人是“看到什么就做什么”。而在這個取丸子場景里,如果換成傳統指令式機器人,它只會按腳本執行“舀→放”的動作。
一旦勺子初始是空的,它要么卡住,要么盲目重復,卻不知道“為什么空”。
但MotuBrain能做到:像人一樣“察言觀色”,握住勺柄的瞬間就通過視覺判斷出“勺里沒東西”,緊接著自主規劃新路徑,重新伸回鍋中精準舀取丸子。
直到確認勺子里有食材,它再穩穩端起,送入碗中,全程行云流水,無需人工干預或重新下指令。
理解世界、預測變化,并據此驅動更合理的行動,這就是MotuBrain的一腦預見能力。
不過此時,真機演示還未到高潮。
![]()
調配飲料的任務,才是細節拉滿。
只見「硅基調酒師」右手拿起飲料,精準倒入盎司杯中定容,放下飲料瓶后,左手迅速拿起牛奶瓶,將牛奶緩緩注入中間的玻璃空杯,動作輕柔且精準,全程沒有一滴灑漏。
待牛奶倒完,右手再次拿起盎司杯,將里面的飲料緩緩倒入牛奶杯中,最后還不忘取一片薄荷葉,輕輕放在飲品表面做點綴。
完成造型后,它還俏皮地捏了一下身邊的塑料小黃鴨,仿佛在向圍觀者“報喜”:雞尾酒做好啦!
一系列操作,展現了MotuBrain的一腦多能。
這一能力讓模型能夠在多任務場景中保持穩定表現,不依賴單一任務訓練。
相比于傳統做法,比如搬箱子用一個模型、開門用一個,疊衣服又一個……任務越多越臃腫。
MotuBrain直接把大量不同類型任務混在一起學,從抓取到多步操作全扔進去。
這樣做的好處是,隨著任務數量持續增加,任務之間的共享世界知識越多,MotuBrain的平均任務成功率也會同步提升。
因為它學到的是“操作的本質”,不是肌肉記憶。
![]()
這四個能力疊在一起,MotuBrain就有了為連續、智能、真實世界的行動而設計的機器人通用大腦。
把推演和行動揉進同一個模型
為什么MotuBrain能讓機器人有這樣的干活能力?答案藏在底層技術設計里。
過去一年,圍繞World Model和Action Model,行業已逐步形成幾條有代表性的技術路線:
一是直接行動派,也就是訓練一個VLA直接進行感知理解和執行。
二是先看后動派,先訓練一個視頻預測模型用來想象未來,再把想象的結果作為決策依據。聽起來有點像人類先在大腦里模擬一遍再動手。
![]()
MotuBrain走的是第三條路線——邊看邊動派,也就是World Action Model。
它把推演和行動融合在同一個模型里,沒有先后順序,決策的同時就在推演,推演的結果直接影響決策。
這三條路線沒有絕對的對錯,但World Action Model有兩個關鍵優勢:
它不需要等待機器人“想象”后再行動,響應速度更快;同時因為推演和行動共享同一個表征空間,預測的偏差和執行的偏差不會相互放大。
打個通俗的比方。人類司機開車,不是靠肌肉記憶去踩剎車。
你看到前車剎車燈亮起的那一剎那,大腦已經在預測“0.5秒后我離前車還有多遠”“現在踩剎車重了會不會追尾”“輕了會不會剎不住”。
這個預測和決策是同時發生的,不是反復琢磨路況,再踩剎車(那就來不及了……)
![]()
MotuBrain做的就是這件事。如果只用一個詞形容它,那就是:為行動而生。
傳統AI模型更像是“觀看者”或“分析者”,給它一張小貓的圖片,它能認出來;給它一段視頻,它能描述發生了什么。
但這類模型從不真正“行動”,也不需要對自己的判斷負責。
MotuBrain要解決的,也不是“機器人會不會做一個動作”,而是“機器人能不能連續完成一個任務”。
而想要做到這點,要求機器人必須真正理解真實世界中的運動和物理變化。它的行動必須是連續的、能適應變化的、可以跨本體、跨任務的。
在WorldArena評測中,MotuBrain在三個與“運動”直接相關的維度上全部拿下第一:
- Motion Quality:動作真實,不是“擺姿勢”。
- Flow Score:連續動作絲滑銜接,理解軌跡變化。
- Motion Smoothness:符合物理規律,無突兀跳變、急加速或抖動。
從技術層面看,MotuBrain的設計并不復雜,卻很有章法。每一步都像在給機器人“換腦子、塑認知”。
其技術根基源自Motus在去年12月確立的World Action Models。
核心思路很簡單:先給機器人的“視覺”(視頻)和“動作”(機械運動)做一套“統一翻譯系統”,徹底打通多模態信息壁壘。
也就是用UniDiffuser實現Video和Action的統一建模與調度。
一旦語言統一了,機器人只需訓練一次,就能自動學會五種本事:
舉個最直觀的例子,讓機器人取桌邊水杯。
- VLA模態:視覺識別目標+解析語言指令,完成感知到動作的初始觸發;
- 世界模型模態:觀測水杯邊緣位置與姿態,結合機器人動作輸入,預判物體位移、滑落等環境動態演化趨勢;
- 視頻生成模態:基于手部靠近水杯的前置幀,自主補全整個抓取動作的時序過程;
- 逆動力學模態:由“水杯從桌面轉移至手中”的結果,反向推演機械臂最優運動軌跡;
- 視頻動作聯合預測模態:執行抓取的同時,實時預判水杯下一時刻位置,動態微調手部姿態與發力邏輯。
這五種本事都來自同一套底層邏輯,不用分開訓練。
![]()
而且,相比傳統VLA只能吃特定本體上的純任務數據,Motus「不忌口」,能同時消化各種數據(純視頻、無標簽數據、機器人運動軌跡)。
它吃的數據越雜越多,機器人對真實世界的理解會越深,行動也就更靠譜。
因為它掌握的是跨任務的通用規律,不是單一動作的“模板”。
在此基礎上,MotuBrain做了更實用的升級,解決了機器人落地的核心痛點:
- 不挑相機:不管機器人裝了多少個攝像頭、角度如何,都能正常識別;
- 聽懂人話:把“指令”融入動作生成的核心,不是簡單“湊活執行”,而是真的理解指令意圖;
- 跨機器人通用:學會的本事能遷移到不同機器人身上,不用換一臺機器人就重新訓練;
- 能做復雜任務:它搭了一個視頻?動作?語言三流MoT架構,不用拆分步驟,讓模型可以完成10個以上連貫動作。
![]()
從左圖可以看出,隨著任務數量增加,Pi-0.5成功率持續下降,而MotuBrain成功率持續上升。
這說明它學到了跨任務的通用世界知識,這是VLA不具有的能力。
右圖呢?是MotuBrain在數據量上的Scaling Law曲線。
相比其他模型更陡峭,說明其數據效率非常高,僅用少量數據就可以取得很好的結果。
此外,任務數量的scaling law曲線比數據量更為陡峭,說明對于MotuBrain這種數據效率極高的模型來說,相比于增加數據量,增加任務的多樣性對成功率的提升效果更為顯著。
真機演示里,我們也能看出來,該模型已在多款仿人形機器人上驗證過,大模型運行不卡頓,不用額外輔助工具,僅憑自身能力,就能高成功率完成長程任務,還能左右手同時做不同事。
總結下來,MotuBrain真正厲害之處,不在于多復雜的技術堆砌,而在于用“統一建模”打通了機器人的“感知、理解、行動”,讓機器人真正從“機械執行”,走向“智能決策”。
左手Vidu,右手MotuBrain
如果只看MotuBrain這一個點,可能會覺得生數科技是突然殺進了具身智能賽道。
但如果把視線拉遠,會發現這是一條早有預謀的暗線。
今年4月,阿里領投,生數科技完成了近20億元人民幣的B輪融資。
這不是一筆小錢,投資機構看中的不是“又一家做視頻模型的公司”,而是一個更大的敘事:打通數字世界與物理世界的通用世界模型。
生數科技的布局是雙軌并行。模型的底層是其全球首創的U-ViT架構。
這個架構也是該公司整個戰略的技術基座,它做的事情很底層,也很關鍵:統一處理視覺、聽覺、觸覺等多模態信息。
![]()
不同類型的感知數據被塞進同一個模型框架里訓練,模型逐漸建立起對世界的統一認知:什么是物體,什么是運動,什么是因果關系。
就像人類嬰兒的大腦,不是分別長出一個視覺皮層和一個運動皮層,而是兩者協同發育、互相促進。
在這個基座之上,生數科技兵分兩路。
一條通往數字世界,另一條路通往物理世界。
![]()
先看第一條路,生數科技走的是世界生成模型(WGM)路線,產品就是大家熟悉的視頻大模型Vidu。
Vidu的能力不只是在給定提示詞后生成一段好看的視頻。在生成視頻的過程中,模型必須學會物理規律:水怎么流、光怎么反射、物體怎么碰撞。
一個生成“水滴落下”視頻的模型,如果它連重力加速度都不懂,生成的畫面就會很假。
所以,Vidu本質上是一個被訓練來“理解并生成物理世界”的模型。
![]()
△Vidu布局
它已經在商業化上證明了這一點:漫威《毒液3》的水墨風格宣傳片,完全基于Vidu生成;AI漫劇《明日周一》10人團隊45天產出50集,上線5天播放量破500萬。
而通往物理世界的路,MotuBrain正在鋪。
Vidu和MotuBrain,一個是數字空間的產出,一個是物理空間的執行,兩套產品,同一條根。
這套雙軌結構有一個天然的護城河:
絕大多數做機器人大腦的公司沒有視頻大模型的基礎,數據來源主要是仿真環境和真實機器人采集的數據,成本高、規模小。
而絕大多數做視頻模型的公司沒有機器人動作數據的積累,輸出可以很美,但無法驅動實體。
生數科技是極少數同時擁有這兩塊拼圖的玩家。
![]()
也因此,這些技術積累會直接反映在前述MotuBrain的成績單上。
當然,光有數據還不夠,模型層面的突破還需要場景驗證。目前,生數科技已經與無界動力、深樸智能、星塵智能達成戰略合作。
這些合作伙伴有的主攻工業制造與商業服務場景,有些瞄準類家庭商業場景與合作住宿場景。
合作內容不只是“把MotuBrain裝上去試試”,而是技術層面的聯合優化、數據層面的雙向飛輪、應用層面的規模化落地。
除了上述商業伙伴,更多戰略合作已在路上。
One more thing
具身智能行業的共識變了,大家已經不在意誰造出更靈巧的機器人,更關心誰先做出真正通用的機器人大腦。
資本正在密集涌向做“大腦”的公司,這就是最好的說明。
他們爭奪的不是一兩個爆款應用,而是下一代的操作系統入口,甚至更底層——通用物理世界的入口。
這個節骨眼上,剛完成近20億元B輪融資的生數科技,帶著雙榜第一的MotuBrain出現了。
當別人還在糾結該走World Model還是VLA時,生數科技用同一個模型同時做到了行業第一。
這至少說明了一件事:通用物理智能這條路,有人已經開始跑通了。
如果說視頻是理解世界的起點,那么讓AI真正走進物理世界才是所有玩家的終點。
Vidu畫出了一個虛擬世界,而MotuBrain正在奔向后者。
官網鏈接:https://www.shengshu.com/zh/motubrain
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.