網易首頁 > 網易號 > 正文申請入駐

從世界模型到類腦架構，“中國特斯拉”為何在VLA 主航道領航？

2026-04-29 18:52:21　來源: 具身研習社

北京舉報

分享至

作者：彭堃方

編輯：呂鑫燚

出品：具身研習社

VLA正在長出下一代“大腦”。

世界模型概念升溫過程中，行業開始反復提及同一個問題：VLA時代是不是已經結束了？

這種論調，不僅不懂技術演進的基本邏輯，也沒有看透具身智能模型發展的本質。

模型究竟該怎么走，歸根結底還是對任務的拆解。機器人進入真實場景，始終繞不開三件事：看見環境、理解指令、完成動作。只要這三件事還成立，視覺、語言、行動這組基本結構就不會憑空消失，真正變化的，只會是它們如何被組織、如何被增強，以及如何從“能動起來”繼續走向“動得更穩、更快、更像一個真正的智能體”。

4 月 23 日，在 2026 POWER Robot 未來大會主論壇上，智平方創始人兼 CEO 郭彥東給出的判斷很明確：VLA 沒有終結，反而正在持續變得更強，它仍是通往物理世界智能的最強主航道。在現場，郭彥東第一次把智平方對 VLA 演進路徑的理解完整擺到臺前：過去是統一感知、理解與行動的端到端 VLA，現在是融合世界模型能力的增強型 VLA，未來則會進一步邁向類腦機制的全新階段。

這次表態真正重要的地方，不只是為 VLA 站隊，而是把行業里那種“VLA 與世界模型二選一”的討論，重新拉回到更真實的技術演進邏輯里：世界模型不該是宣告 VLA 失效，而是在補足 VLA；而類腦機制也不是另起爐灶的平行路線，它將是下一代 VLA 的結構方向。

順著這條邏輯看，智平方這次同步對外披露的類腦架構 VLA 具身大模型 NeuroVLA，以及一站式具身智能模型開源社區 AlphaBrain Platform，就不再是兩個彼此獨立的動作，它可以看作同一個判斷的兩面：一面指向下一代“機器人大腦”會如何演進，另一面則指向這套能力將如何被開放、被復用、被快速帶進整個行業。

雖然郭彥東認為VLA一直站在主航道上，但過去一段時間行業內關于世界模型的討論甚囂塵上，以至于出現“VLA已經走到頭”的武斷之詞。

從技術的第一性原理出發，方能感受到該論調的偏見。在智平方看來，早期VLA解決的是“聽懂并動起來”的問題。世界模型的加入，則讓系統多了一步，在執行之前，先在“腦子里跑一遍”。

更重要的是，智平方對世界模型的理解并不是把它作為VLA之外的外接模塊。早在2023年下半年，智平方便率先提出，世界模型不應懸浮在VLA之外，而應深度內生于模型之中。順著這一判斷，智平方自研的大模型AlphaBrain在2025年11月吸納了新一代架構Video2Act的最新成果，實現了“先預測、后執行”。在第三方評測中，相較于硅谷同類標桿模型，AlphaBrain取得了超過30%的性能領先，也證明了環境理解與動作執行一體化路線的優勢。

所以換種思考，業內這波世界模型的熱度，與其說在替代VLA，不如說是在把VLA往前推了一步。模型從一個偏執行的系統，慢慢長出預測和規劃能力。

但當機器人真正進入真實環境之后，很快會遇到另一類問題：很多困難并不發生在“理解錯了任務”，而是發生在動作細節上。比如動作有沒有抖、節奏穩不穩、碰到干擾能不能立刻調整，這些問題更偏向“身體層面”。

于是，智平方更進一步提出了“類腦模型”。

在NeuroVLA論文中，團隊提到一個很關鍵的觀察：現有VLA在動態場景、節奏任務和精細操作上，和人類還有明顯差距，一個重要原因在于系統長期依賴低頻視覺反饋，缺少高頻本體感覺、短時運動記憶和實時調整機制。

換個更直觀的說法，機器人一直在長“大腦”，但本能式反應的“小腦”和“脊髓”這部分長期缺失。這里需要解釋一下，智平方所說的“小腦”“脊髓”業內過去僅拿來做locomotion，但很少有融入到manipulation（操作）之中的。

NeuroVLA做的事情，就是把這部分補上。它采用類似“大腦—小腦—脊髓”的分層結構：上層負責語義理解和規劃，中間層處理高頻反饋和動作修正，底層負責快速執行和反射。而這套結構帶來的變化，指向三個過去機器人長期難以補齊的能力：動態穩定性、超快反射和極低能耗。

比如，在執行精細操作時，機器人不再只是依賴低頻視覺反饋慢慢糾偏，而是可以通過高頻本體感覺持續修正動作；當外部碰撞突然發生時，安全反射可以在20毫秒以內觸發，而20ms什么概念？人類眨眼速度最快是100ms；更關鍵的是，底層“脊髓”層依靠事件驅動的神經形態計算，執行任務時平均功耗僅0.4瓦，相當于你未插手機的充電器保持待機的功率。

這意味著，機器人開始從靠大腦想明白再行動，走向了身體自己也會反應的新階段。過去我們討論機器人大腦，更多關心它能不能理解指令、拆解任務、規劃步驟；但進入真實物理世界后，很多能力其實發生在更低層：手臂穩不穩、碰撞能不能縮回、動作能不能省電、能不能長時間部署。NeuroVLA的意義就在這里，它讓VLA開始長出類似生物的本能反應。

從這個角度看，NeuroVLA更像是VLA的一次結構升級。它把系統從“理解+執行”，推進到“理解+預測+控制+糾偏+反射”的完整鏈條。

如果說NeuroVLA代表了智平方對下一代機器人大腦的判斷，那么AlphaBrain Platform則代表了另一層更現實的產業意圖：這套能力不能只停留在少數頭部團隊手里，而要變成整個行業可調用、可驗證、可迭代的基礎能力。

這次智平方沒有把最前沿的類腦模型藏起來，而是把NeuroVLA同步納入AlphaBrain Platform。按照郭彥東在大會上的介紹，AlphaBrain Platform不是傳統意義上只開源一個模型或一段代碼，而是打通“數據—訓練—模型—評測”的完整鏈路，試圖提供一個一站式、開箱即用的具身智能模型開源社區。

它真正有辨識度的地方，主要體現在三條線上。

第一條，是NeuroVLA，對應類腦路線。它把高頻本體感覺、短時運動記憶、實時運動調整和安全反射納入VLA體系，在機器人“想”之外，把“做”進化為某種生物本能。

第二條，是RL Token，對應“強化學習+VLA”的低門檻落地。它解決的是一個長期懸而未決的問題：大模型能理解，但很難真正把動作做到位。過去強化學習能提升動作表現，但成本高、門檻高，還容易把原有能力“練沒了”，很難成為規模化路徑。

RL Token的意義在于，把強化學習嵌入到VLA體系中，變成一種可以持續調用的能力。模型先具備通用理解，再圍繞具體場景做后訓練微調，讓動作在真實環境里一點點變得更穩、更準。這種路徑更接近工程現實：不推倒重來，而是在已有能力上持續打磨。更關鍵的是，它把成本和復雜度壓了下來。通過凍結VLA主體，只訓練輕量模塊，強化學習從“重資產實驗”變成“可復用工具”。這一步讓大模型開始真正接近落地，而不是停留在演示效果。

第三條，是可插拔世界模型架構，對應世界模型的工程化。行業對世界模型的討論已經很多，但真正難的部分是如何用起來。不同路線之間難以對比、難以集成，也很難放進同一套任務系統里驗證。可插拔架構把這個問題拆開處理。不同世界模型可以在同一任務中直接切換、測試和復現，開發者可以清楚看到每一條路線的差異，而不需要反復搭環境、改系統。

這一步的意義，在于把世界模型從研究能力，變成基礎設施。機器人在行動前的“預演能力”開始進入工程系統，同時也讓模型路線的競爭第一次有了統一的比較坐標。

所以，AlphaBrain Platform開源的不是一個單點模型，而是一整套“機器人大腦”的生產方式。它把數據、訓練、模型、評測這些原本分散在不同團隊、不同系統里的能力重新組織起來，讓行業可以在同一套框架下比較模型、復現實驗、迭代能力。

為什么這件事由智平方來做，其實并不算意外。

行業里常說它是“最像特斯拉的中國機器人公司”，這不是標簽，而是對路線契合的精準提煉。

一方面是他們的開源精神，AlphaBrain Platform社區是鮮明的例證。特斯拉開源Optimus 硬件，尤其是前段時間開源了新一代靈巧手專利，助力硬件端的最難卡點釋放。而智平方則是開源了軟件端最難的具身大模型。二者遙相呼應，在這一意義上“中國特斯拉”無可厚非。

但如果往深一點看，這個類比更多是在指一種結構：模型、硬件、場景三位一體。

特斯拉在自動駕駛和機器人上的路徑，很少把模型、硬件或場景單獨看，而是放在一個系統里不斷循環。機器人行業也正在往這個方向走。這個行業最終比拼的也不會只是模型參數、單機性能或某一個場景的訂單，那些能讓模型在硬件上跑起來，在場景里用起來，再通過真實數據持續長出來的智能才有可能得到延承。

智平方這幾年的路徑，也比較一致。

在模型上，從早期VLA，到快慢系統，再到世界模型融合，直到這次NeuroVLA，智平方的技術路線始終具有連續性。它沒有追逐概念，而是在VLA這條主航道上不斷補能力、補結構、補閉環。

在硬件上，智平方也并沒有把機器人本體看成模型的附屬品，而是堅持用大模型正向定義機器人本體。據了解，其核心零部件無故障運行時間超過5萬小時，并通過自建產線保障量產交付。

在場景上，智平方已經落地汽車、半導體顯示、生物科技、公共服務、新零售等十余個高價值場景，尤其是智慧店員艙體“智魔方”推出不到半年，已經在中國十余個省市實現常態化運營。

這也是AlphaBrain Platform值得關注的原因。一個只有模型的團隊開源模型，更多是技術交流；一個同時擁有模型、硬件和場景驗證的團隊開源“機器人大腦工具箱”，則更像是在開放一套經過真實世界檢驗的生產方法。

具身智能產業已經走到一個新階段。過去，大家需要證明機器人能動起來；現在，大家要證明機器人能在真實場景里穩定工作；再往后，機器人還要在工作中持續學習、持續糾偏、持續進化。

VLA沒有終結，它正在融合世界模型，“長出”小腦和脊髓，長出更接近身體智能的下一代結構。

而機器人大腦的競爭，也將從單純的模型能力之爭，走向體系能力、開源生態和真實場景閉環之爭。真正的智能，終究不是停留在屏幕里的推理能力，而是進入世界之后，仍然能夠穩定、敏捷、安全地改變世界。

最終能留下來的，不會只是“最聰明”的模型，那些在真實世界里，既能理解、又能行動，還能長期穩定運行的系統會更有生命力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.