![]()
作者:彭堃方
編輯:呂鑫燚
出品:具身研習社
VLA正在長出下一代“大腦”。
世界模型概念升溫過程中,行業開始反復提及同一個問題:VLA時代是不是已經結束了?
這種論調,不僅不懂技術演進的基本邏輯,也沒有看透具身智能模型發展的本質。
模型究竟該怎么走,歸根結底還是對任務的拆解。機器人進入真實場景,始終繞不開三件事:看見環境、理解指令、完成動作。只要這三件事還成立,視覺、語言、行動這組基本結構就不會憑空消失,真正變化的,只會是它們如何被組織、如何被增強,以及如何從“能動起來”繼續走向“動得更穩、更快、更像一個真正的智能體”。
4 月 23 日,在 2026 POWER Robot 未來大會主論壇上,智平方創始人兼 CEO 郭彥東給出的判斷很明確:VLA 沒有終結,反而正在持續變得更強,它仍是通往物理世界智能的最強主航道。在現場,郭彥東第一次把智平方對 VLA 演進路徑的理解完整擺到臺前:過去是統一感知、理解與行動的端到端 VLA,現在是融合世界模型能力的增強型 VLA,未來則會進一步邁向類腦機制的全新階段。
![]()
這次表態真正重要的地方,不只是為 VLA 站隊,而是把行業里那種“VLA 與世界模型二選一”的討論,重新拉回到更真實的技術演進邏輯里:世界模型不該是宣告 VLA 失效,而是在補足 VLA;而類腦機制也不是另起爐灶的平行路線,它將是下一代 VLA 的結構方向。
順著這條邏輯看,智平方這次同步對外披露的類腦架構 VLA 具身大模型 NeuroVLA,以及一站式具身智能模型開源社區 AlphaBrain Platform,就不再是兩個彼此獨立的動作,它可以看作同一個判斷的兩面:一面指向下一代“機器人大腦”會如何演進,另一面則指向這套能力將如何被開放、被復用、被快速帶進整個行業。
![]()
雖然郭彥東認為VLA一直站在主航道上,但過去一段時間行業內關于世界模型的討論甚囂塵上,以至于出現“VLA已經走到頭”的武斷之詞。
從技術的第一性原理出發,方能感受到該論調的偏見。在智平方看來,早期VLA解決的是“聽懂并動起來”的問題。世界模型的加入,則讓系統多了一步,在執行之前,先在“腦子里跑一遍”。
更重要的是,智平方對世界模型的理解并不是把它作為VLA之外的外接模塊。早在2023年下半年,智平方便率先提出,世界模型不應懸浮在VLA之外,而應深度內生于模型之中。順著這一判斷,智平方自研的大模型AlphaBrain在2025年11月吸納了新一代架構Video2Act的最新成果,實現了“先預測、后執行”。在第三方評測中,相較于硅谷同類標桿模型,AlphaBrain取得了超過30%的性能領先,也證明了環境理解與動作執行一體化路線的優勢。
所以換種思考,業內這波世界模型的熱度,與其說在替代VLA,不如說是在把VLA往前推了一步。模型從一個偏執行的系統,慢慢長出預測和規劃能力。
但當機器人真正進入真實環境之后,很快會遇到另一類問題:很多困難并不發生在“理解錯了任務”,而是發生在動作細節上。比如動作有沒有抖、節奏穩不穩、碰到干擾能不能立刻調整,這些問題更偏向“身體層面”。
于是,智平方更進一步提出了“類腦模型”。
![]()
在NeuroVLA論文中,團隊提到一個很關鍵的觀察:現有VLA在動態場景、節奏任務和精細操作上,和人類還有明顯差距,一個重要原因在于系統長期依賴低頻視覺反饋,缺少高頻本體感覺、短時運動記憶和實時調整機制。
換個更直觀的說法,機器人一直在長“大腦”,但本能式反應的“小腦”和“脊髓”這部分長期缺失。這里需要解釋一下,智平方所說的“小腦”“脊髓”業內過去僅拿來做locomotion,但很少有融入到manipulation(操作)之中的。
NeuroVLA做的事情,就是把這部分補上。它采用類似“大腦—小腦—脊髓”的分層結構:上層負責語義理解和規劃,中間層處理高頻反饋和動作修正,底層負責快速執行和反射。而這套結構帶來的變化,指向三個過去機器人長期難以補齊的能力:動態穩定性、超快反射和極低能耗。
比如,在執行精細操作時,機器人不再只是依賴低頻視覺反饋慢慢糾偏,而是可以通過高頻本體感覺持續修正動作;當外部碰撞突然發生時,安全反射可以在20毫秒以內觸發,而20ms什么概念?人類眨眼速度最快是100ms;更關鍵的是,底層“脊髓”層依靠事件驅動的神經形態計算,執行任務時平均功耗僅0.4瓦,相當于你未插手機的充電器保持待機的功率。
這意味著,機器人開始從靠大腦想明白再行動,走向了身體自己也會反應的新階段。過去我們討論機器人大腦,更多關心它能不能理解指令、拆解任務、規劃步驟;但進入真實物理世界后,很多能力其實發生在更低層:手臂穩不穩、碰撞能不能縮回、動作能不能省電、能不能長時間部署。NeuroVLA的意義就在這里,它讓VLA開始長出類似生物的本能反應。
從這個角度看,NeuroVLA更像是VLA的一次結構升級。它把系統從“理解+執行”,推進到“理解+預測+控制+糾偏+反射”的完整鏈條。
![]()
如果說NeuroVLA代表了智平方對下一代機器人大腦的判斷,那么AlphaBrain Platform則代表了另一層更現實的產業意圖:這套能力不能只停留在少數頭部團隊手里,而要變成整個行業可調用、可驗證、可迭代的基礎能力。
這次智平方沒有把最前沿的類腦模型藏起來,而是把NeuroVLA同步納入AlphaBrain Platform。按照郭彥東在大會上的介紹,AlphaBrain Platform不是傳統意義上只開源一個模型或一段代碼,而是打通“數據—訓練—模型—評測”的完整鏈路,試圖提供一個一站式、開箱即用的具身智能模型開源社區。
![]()
它真正有辨識度的地方,主要體現在三條線上。
第一條,是NeuroVLA,對應類腦路線。它把高頻本體感覺、短時運動記憶、實時運動調整和安全反射納入VLA體系,在機器人“想”之外,把“做”進化為某種生物本能。
第二條,是RL Token,對應“強化學習+VLA”的低門檻落地。它解決的是一個長期懸而未決的問題:大模型能理解,但很難真正把動作做到位。過去強化學習能提升動作表現,但成本高、門檻高,還容易把原有能力“練沒了”,很難成為規模化路徑。
RL Token的意義在于,把強化學習嵌入到VLA體系中,變成一種可以持續調用的能力。模型先具備通用理解,再圍繞具體場景做后訓練微調,讓動作在真實環境里一點點變得更穩、更準。這種路徑更接近工程現實:不推倒重來,而是在已有能力上持續打磨。更關鍵的是,它把成本和復雜度壓了下來。通過凍結VLA主體,只訓練輕量模塊,強化學習從“重資產實驗”變成“可復用工具”。這一步讓大模型開始真正接近落地,而不是停留在演示效果。
第三條,是可插拔世界模型架構,對應世界模型的工程化。行業對世界模型的討論已經很多,但真正難的部分是如何用起來。不同路線之間難以對比、難以集成,也很難放進同一套任務系統里驗證。可插拔架構把這個問題拆開處理。不同世界模型可以在同一任務中直接切換、測試和復現,開發者可以清楚看到每一條路線的差異,而不需要反復搭環境、改系統。
![]()
這一步的意義,在于把世界模型從研究能力,變成基礎設施。機器人在行動前的“預演能力”開始進入工程系統,同時也讓模型路線的競爭第一次有了統一的比較坐標。
所以,AlphaBrain Platform開源的不是一個單點模型,而是一整套“機器人大腦”的生產方式。它把數據、訓練、模型、評測這些原本分散在不同團隊、不同系統里的能力重新組織起來,讓行業可以在同一套框架下比較模型、復現實驗、迭代能力。
![]()
為什么這件事由智平方來做,其實并不算意外。
行業里常說它是“最像特斯拉的中國機器人公司”,這不是標簽,而是對路線契合的精準提煉。
一方面是他們的開源精神,AlphaBrain Platform社區是鮮明的例證。特斯拉開源Optimus 硬件,尤其是前段時間開源了新一代靈巧手專利,助力硬件端的最難卡點釋放。而智平方則是開源了軟件端最難的具身大模型。二者遙相呼應,在這一意義上“中國特斯拉”無可厚非。
但如果往深一點看,這個類比更多是在指一種結構:模型、硬件、場景三位一體。
特斯拉在自動駕駛和機器人上的路徑,很少把模型、硬件或場景單獨看,而是放在一個系統里不斷循環。機器人行業也正在往這個方向走。這個行業最終比拼的也不會只是模型參數、單機性能或某一個場景的訂單,那些能讓模型在硬件上跑起來,在場景里用起來,再通過真實數據持續長出來的智能才有可能得到延承。
智平方這幾年的路徑,也比較一致。
在模型上,從早期VLA,到快慢系統,再到世界模型融合,直到這次NeuroVLA,智平方的技術路線始終具有連續性。它沒有追逐概念,而是在VLA這條主航道上不斷補能力、補結構、補閉環。
在硬件上,智平方也并沒有把機器人本體看成模型的附屬品,而是堅持用大模型正向定義機器人本體。據了解,其核心零部件無故障運行時間超過5萬小時,并通過自建產線保障量產交付。
在場景上,智平方已經落地汽車、半導體顯示、生物科技、公共服務、新零售等十余個高價值場景,尤其是智慧店員艙體“智魔方”推出不到半年,已經在中國十余個省市實現常態化運營。
![]()
這也是AlphaBrain Platform值得關注的原因。一個只有模型的團隊開源模型,更多是技術交流;一個同時擁有模型、硬件和場景驗證的團隊開源“機器人大腦工具箱”,則更像是在開放一套經過真實世界檢驗的生產方法。
具身智能產業已經走到一個新階段。過去,大家需要證明機器人能動起來;現在,大家要證明機器人能在真實場景里穩定工作;再往后,機器人還要在工作中持續學習、持續糾偏、持續進化。
VLA沒有終結,它正在融合世界模型,“長出”小腦和脊髓,長出更接近身體智能的下一代結構。
而機器人大腦的競爭,也將從單純的模型能力之爭,走向體系能力、開源生態和真實場景閉環之爭。真正的智能,終究不是停留在屏幕里的推理能力,而是進入世界之后,仍然能夠穩定、敏捷、安全地改變世界。
最終能留下來的,不會只是“最聰明”的模型,那些在真實世界里,既能理解、又能行動,還能長期穩定運行的系統會更有生命力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.