網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

智平方創(chuàng)始人郭彥東給行業(yè)爭(zhēng)議定調(diào)，首個(gè)一站式具身模型開(kāi)源平臺(tái)

2026-04-24 21:54:30　來(lái)源: 機(jī)器人大講堂

安徽舉報(bào)

分享至

過(guò)去一年，隨著世界模型、物理模型等概念持續(xù)升溫，行業(yè)中出現(xiàn)了一種頗具爭(zhēng)議的聲音——VLA（視覺(jué)-語(yǔ)言-行動(dòng)）時(shí)代正在走向終結(jié)。甚至有人斷言：世界模型將取代VLA。

4月23日，在2026 POWER Robot未來(lái)大會(huì)主論壇的開(kāi)場(chǎng)演講上，智平方創(chuàng)始人兼CEO郭彥東博士用一場(chǎng)題為《AGI邁進(jìn)物理世界：通用智能機(jī)器人開(kāi)啟第四代智能終端時(shí)代》的演講，正面回應(yīng)了這一說(shuō)法。

這位橫跨微軟、OPPO、小鵬汽車(chē)，如今又投身具身智能創(chuàng)業(yè)的“AI+智能終端”代表人物，以其一貫的技術(shù)前瞻與產(chǎn)業(yè)視野，給出了一個(gè)清晰定調(diào)：VLA時(shí)代沒(méi)有結(jié)束，它正在持續(xù)變得更強(qiáng)！并且依然是通往物理世界智能的最強(qiáng)主航道。

郭彥東博士的這個(gè)定調(diào)，直接為這場(chǎng)階段性的爭(zhēng)議畫(huà)上了句號(hào)。

01.

VLA時(shí)代沒(méi)有終結(jié)，而是正在持續(xù)變得更強(qiáng)！世界模型不是顛覆者，而是加持者

針對(duì)“VLA是否過(guò)時(shí)”的行業(yè)爭(zhēng)論，郭彥東博士從第一性原理出發(fā)重新定義了這一問(wèn)題。他指出，任何能夠在真實(shí)世界中執(zhí)行任務(wù)的智能系統(tǒng)，都必須具備三項(xiàng)核心能力：對(duì)世界的感知、對(duì)邏輯的推理以及對(duì)行為的控制——這三個(gè)要素（視覺(jué)、語(yǔ)言、行動(dòng)）是永遠(yuǎn)存在的，變化的只是它們的組織方式。

因此，所謂范式之爭(zhēng)，本質(zhì)上并非替代關(guān)系，而是組織方式的持續(xù)演進(jìn)。世界模型、類(lèi)腦模型等新技術(shù)，并不是對(duì)VLA的顛覆，而是對(duì)其能力的增強(qiáng)與補(bǔ)全。“VLA不會(huì)消失，它會(huì)被不斷加持，變得越來(lái)越聰明，它是通往物理世界智能的最強(qiáng)主航道。”郭彥東博士在現(xiàn)場(chǎng)強(qiáng)調(diào)。

基于這一底層認(rèn)知，智平方將VLA的發(fā)展劃分為清晰的三階段路徑：從過(guò)去最初實(shí)現(xiàn)感知、理解與行動(dòng)統(tǒng)一建模的端到端VLA，到現(xiàn)在融合世界模型實(shí)現(xiàn)“行動(dòng)前預(yù)測(cè)”的增強(qiáng)型VLA，再到未來(lái)邁向類(lèi)腦機(jī)制的全新階段。

尤其是在最新階段中，VLA不再只是一個(gè)單一模型，而是演進(jìn)為具備分層結(jié)構(gòu)的智能系統(tǒng)——類(lèi)似人類(lèi)大腦、小腦與脊髓的協(xié)同機(jī)制，從而實(shí)現(xiàn)更高效的推理、更快速的響應(yīng)以及更穩(wěn)定的控制。這一方向，也被郭彥東博士認(rèn)定為未來(lái)具身智能最關(guān)鍵的技術(shù)演進(jìn)路徑。

在具體實(shí)踐層面，郭彥東博士首次系統(tǒng)披露了智平方在具身大模型領(lǐng)域的連續(xù)突破，其自主研發(fā)的 AlphaBrain，致力于為通用智能機(jī)器人提供“最強(qiáng)大腦”。

早在2024年6月，智平方就推出了AlphaBrain的初期版本，這也是全球創(chuàng)業(yè)公司中首個(gè)VLA大模型，在模型規(guī)模僅為谷歌同類(lèi)模型1/20的情況下，性能提升超過(guò)80%。2025年6月，智平方推出了快慢系統(tǒng)深度融合的新一代VLA架構(gòu)，成為業(yè)內(nèi)首個(gè)“異構(gòu)輸入+異步頻率”的雙系統(tǒng)VLA模型，性能直接超越國(guó)際標(biāo)桿Pi0達(dá)30%。

2025年11月，智平方發(fā)表融合世界模型的VLA具身大模型，實(shí)現(xiàn)“先預(yù)測(cè)、后執(zhí)行”。本次大會(huì)，智平方正式對(duì)外披露了全球首個(gè)類(lèi)腦架構(gòu)VLA具身大模型（NeuroVLA），再次引領(lǐng)突破。

在最新的類(lèi)腦VLA中，智平方通過(guò)引入生物啟發(fā)的分層計(jì)算結(jié)構(gòu)，首次提出將小腦和脊髓的部分融入操作當(dāng)中，實(shí)現(xiàn)模型毫秒級(jí)自適應(yīng)控制與接近生物反射速度的響應(yīng)能力，使機(jī)器人首次具備類(lèi)似“肌肉記憶”的持續(xù)進(jìn)化能力。這一突破，標(biāo)志著機(jī)器人從“執(zhí)行指令的工具”，向“在任務(wù)中不斷優(yōu)化自身的智能體”邁出關(guān)鍵一步。

持續(xù)領(lǐng)先、代際碾壓，智平方在短短三年內(nèi)完成了從范式驗(yàn)證到體系化創(chuàng)新的躍遷，成為其模型能力的真實(shí)寫(xiě)照。

02.

AlphaBrain Platform：全球首個(gè)一站式、開(kāi)箱即用的具身模型開(kāi)源社區(qū)

如果說(shuō)類(lèi)腦VLA代表了未來(lái)方向，那么與之同步發(fā)布的AlphaBrain Platform，則體現(xiàn)了智平方推動(dòng)行業(yè)整體躍遷的另一重戰(zhàn)略布局。

郭彥東博士在演講中宣布，AlphaBrain Platform作為全球首個(gè)一站式、開(kāi)箱即用的具身智能模型開(kāi)源社區(qū)，已正式向全行業(yè)開(kāi)放。與傳統(tǒng)僅開(kāi)放單一模型或代碼的開(kāi)源方式不同，AlphaBrain Platform直接打通了“數(shù)據(jù)—訓(xùn)練—模型—評(píng)測(cè)”的完整鏈路，“以全家桶式的貼心服務(wù)”，將原本只有少數(shù)團(tuán)隊(duì)具備的復(fù)雜系統(tǒng)能力，轉(zhuǎn)化為整個(gè)行業(yè)可共享的公共能力。

開(kāi)源地址：https://www.alphabrain-platform.com/

AlphaBrain Platform一次性開(kāi)源了當(dāng)前具身智能領(lǐng)域最前沿的三條技術(shù)路線：全球首個(gè)開(kāi)源類(lèi)腦VLA模型、全球首個(gè)基于RL Token的開(kāi)源VLA訓(xùn)練架構(gòu)、全球首個(gè)可插拔世界模型工具鏈。

以前，這些技術(shù)只存在于頂尖實(shí)驗(yàn)室和頂會(huì)論文里。現(xiàn)在，全部開(kāi)放，任你取用。

03.

類(lèi)腦模型：讓機(jī)器人擁有"肌肉記憶"

類(lèi)腦模型被公認(rèn)為VLA（Vision-Language-Action）的未來(lái)方向，傳統(tǒng)VLA模型"訓(xùn)練完成即固定"，無(wú)法在部署后繼續(xù)學(xué)習(xí)。智平方開(kāi)源的NeuroVLA，首次在類(lèi)腦控制任務(wù)上達(dá)到前沿水平。它引入脈沖神經(jīng)網(wǎng)絡(luò)動(dòng)作頭與R-STDP訓(xùn)練算法，支持部署階段的在線自適應(yīng)，使用前向傳遞方式，讓機(jī)器人具有肌肉記憶能力。

這意味著機(jī)器人第一次從"執(zhí)行指令的工具"轉(zhuǎn)向"在任務(wù)中不斷進(jìn)化的主體"。它不只是完成任務(wù)，而是在過(guò)程中變得更熟練、更穩(wěn)定。一個(gè)工人在流水線上重復(fù)同一個(gè)動(dòng)作，第一天可能需要5秒，一個(gè)月后可能只需要3秒——這就是肌肉記憶。現(xiàn)在，機(jī)器人也有了。

04.

RL Token：用一張4090就能做強(qiáng)化學(xué)習(xí)

RL Token是"強(qiáng)化學(xué)習(xí)+VLA"的黃金組合，也是讓大模型真正可落地的場(chǎng)景化利器。它將大模型的通用認(rèn)知與強(qiáng)化學(xué)習(xí)的特定場(chǎng)景優(yōu)化能力深度融合，讓大模型從"紙上談兵"的對(duì)話工具，真正轉(zhuǎn)變?yōu)槟茉诠S、家庭、倉(cāng)庫(kù)等具體場(chǎng)景中完成實(shí)際物理任務(wù)的自主系統(tǒng)。

但長(zhǎng)期以來(lái)，對(duì)VLA做強(qiáng)化學(xué)習(xí)面臨著算力門(mén)檻高、容易災(zāi)難性遺忘等難題。所謂災(zāi)難性遺忘，就是模型學(xué)了新技能，把老技能忘了。

智平方率先在LIBERO環(huán)境上完成驗(yàn)證，提出信息瓶頸編碼器與兩階段訓(xùn)練策略，使VLA主體在RL微調(diào)過(guò)程中完全凍結(jié)。所需訓(xùn)練參數(shù)從39億降至約1.37億，其中RL梯度更新僅涉及130萬(wàn)參數(shù)，僅需單張4090顯卡即可進(jìn)行強(qiáng)化學(xué)習(xí)后訓(xùn)練。

這個(gè)門(mén)檻的降低，對(duì)于高校實(shí)驗(yàn)室和小型團(tuán)隊(duì)而言，意義是革命性的。以前做強(qiáng)化學(xué)習(xí)需要數(shù)張A100，現(xiàn)在一張消費(fèi)級(jí)顯卡就夠了。

05.

世界模型：讓機(jī)器人學(xué)會(huì)"預(yù)演未來(lái)"

世界模型是當(dāng)前最火的"想象力引擎"，讓機(jī)器人在行動(dòng)前預(yù)演未來(lái)，做出更優(yōu)決策。人類(lèi)在做復(fù)雜決策時(shí)，會(huì)在腦海中模擬不同的可能性，這就是世界模型的本質(zhì)。

然而，世界模型的研究長(zhǎng)期停留在論文階段，不同模型之間難以對(duì)比、難以集成。智平方首次實(shí)現(xiàn)世界模型的可插拔化。平臺(tái)原生集成NVIDIA Cosmos Policy原始權(quán)重，同時(shí)支持Cosmos、Wan、V-JEPA三大世界模型Backbone一鍵切換，共享統(tǒng)一動(dòng)作解碼器。

這意味著機(jī)器人可以在行動(dòng)前"預(yù)演"多種可能路徑，選擇最優(yōu)解。開(kāi)發(fā)者可以自由對(duì)比不同世界模型的表現(xiàn)，極大降低研究門(mén)檻。這一長(zhǎng)期停留在論文中的能力，終于成為人人可用的工具。

06.

開(kāi)源不是終點(diǎn)，好用才是

過(guò)去幾年，具身智能領(lǐng)域不缺模型，也不缺論文。但一個(gè)尷尬的現(xiàn)實(shí)是：開(kāi)源模型很多，真正"好用"的很少。

很多開(kāi)源項(xiàng)目停留在"能跑通"的階段。開(kāi)發(fā)者想做真正的創(chuàng)新，往往要從數(shù)據(jù)處理開(kāi)始，一路搭建訓(xùn)練流程、對(duì)接不同模型、手動(dòng)完成評(píng)測(cè)驗(yàn)證。不同項(xiàng)目之間數(shù)據(jù)格式不統(tǒng)一、接口不兼容，大量時(shí)間消耗在重復(fù)的工程工作中。

AlphaBrain Platform改變的正是這一點(diǎn)。它不是簡(jiǎn)單開(kāi)源一個(gè)模型，而是把"數(shù)據(jù)—訓(xùn)練—模型—評(píng)測(cè)"整條鏈路全部打通，從而在五個(gè)維度上構(gòu)建起完整的技術(shù)壁壘。

在技術(shù)深度上，平臺(tái)集成了世界模型、類(lèi)腦模型等最前沿的技術(shù)路線，開(kāi)發(fā)者無(wú)需從零復(fù)現(xiàn)論文；在覆蓋廣度上，它同時(shí)支持RL、世界模型、傳統(tǒng)VLA、類(lèi)腦模型，是業(yè)內(nèi)唯一覆蓋所有主流技術(shù)方向的平臺(tái)。更重要的是，不同架構(gòu)與訓(xùn)練范式可以自由組合，跨領(lǐng)域的"化學(xué)反應(yīng)"只需修改幾行配置即可觸發(fā)。評(píng)測(cè)層面同樣如此,統(tǒng)一的數(shù)據(jù)格式、評(píng)估環(huán)境與測(cè)試標(biāo)準(zhǔn)，覆蓋LIBERO、RoboCasa、CALVIN、BEHAVIOR-1K等8大主流Benchmark，一鍵完成評(píng)測(cè)，好模型不再靠"嘴強(qiáng)"。而在生態(tài)建設(shè)上，平臺(tái)匯聚了全球頂尖機(jī)構(gòu)的開(kāi)源力量，橫跨學(xué)術(shù)界與產(chǎn)業(yè)界，共同構(gòu)建具身智能的開(kāi)放生態(tài)。

如果說(shuō)以前開(kāi)源一個(gè)模型是給你一個(gè)工具，那AlphaBrain Platform直接給你的是一套"頂配全家桶"——最前沿的模型、最趁手的工具、最標(biāo)準(zhǔn)的評(píng)測(cè)，一次配齊，開(kāi)箱即用。

Physical Intelligence（Pi）公司的Pi0模型開(kāi)源，是業(yè)內(nèi)單模型開(kāi)源的標(biāo)桿。但Pi做的是"單模型開(kāi)源"，智平方做的是"生態(tài)平臺(tái)"。

AlphaBrain Platform不僅開(kāi)源自己達(dá)到世界前沿水平的三個(gè)"全球首個(gè)"（類(lèi)腦、RL+VLA、世界模型），更開(kāi)放地集成了其他頭部模型，讓開(kāi)發(fā)者可以在同一平臺(tái)上自由選擇、組合、對(duì)比。

平臺(tái)統(tǒng)一了數(shù)據(jù)格式和評(píng)測(cè)基準(zhǔn)，覆蓋8大主流標(biāo)準(zhǔn)。這意味著，在這個(gè)平臺(tái)上發(fā)布的模型，都需要在同一套評(píng)測(cè)體系下接受檢驗(yàn)，模型之間的對(duì)比終于有了公平的基礎(chǔ)。

與Pi等公司的單模型開(kāi)源相比，AlphaBrain Platform更像一套完整的"全棧工具鏈"。前者給你一個(gè)可以用的模型，后者給你一整套可以創(chuàng)新的環(huán)境。對(duì)于整個(gè)產(chǎn)業(yè)而言，后者的價(jià)值更大，它讓資源有限的團(tuán)隊(duì)不必再重復(fù)搭建底座，可以直接把精力投入到真正有價(jià)值的算法創(chuàng)新上。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.