“VLA和世界模型都不是終局，會有物理世界獨有的模型”

2026-05-25 14:54:40　來源: 量子位

北京舉報

分享至

大模型的爆發(fā)，吃的是互聯(lián)網(wǎng)幾十年積累的數(shù)據(jù)紅利。

可當AI從數(shù)字世界邁向物理世界，螞蟻靈波科技首席科學家沈宇軍發(fā)現(xiàn)：機器人的數(shù)據(jù)，幾乎還是一片空白。

此前，他曾在公開演講中率先提出AIGA的概念——AI 2.0下半場，人工智能要從數(shù)字世界的“娛樂”走向物理世界的“干活”，從Content（內(nèi)容）生成走向Action（動作）生成。

在2026中國AIGC產(chǎn)業(yè)峰會的GenAI Talk環(huán)節(jié)，沈宇軍與量子位聯(lián)合創(chuàng)始人兼總編輯李根圍繞這一話題展開了一場深度對話，主題為《AI 2.0下半場：從AIGC到AIGA》。

也正是從“數(shù)據(jù)”這條主線出發(fā)，他拋出了一個讓現(xiàn)場做VLA、做世界模型的人都“小小一震”的判斷：

單獨的VLA和世界模型，都不會是具身智能的終局。

就像人類既能把各種信息融合在一起，也會預測未來事情的走向，從智能的角度，二者勢必要結合，缺一不可。

而它們最終會走向什么？沈宇軍目前給出的答案是——一個獨屬于物理世界的模型。

為了完整體現(xiàn)沈宇軍的思考，在不改變原意的基礎上，量子位對演講內(nèi)容進行了編輯整理，希望能給你帶來更多啟發(fā)。

2026中國AIGC產(chǎn)業(yè)峰會是由量子位主辦的行業(yè)峰會，近20位產(chǎn)業(yè)代表與會討論。線下參會觀眾超千人，線上直播觀眾近400萬，獲得了主流媒體的廣泛關注與報道。

核心觀點梳理

大模型踩中了互聯(lián)網(wǎng)過去幾十年的數(shù)據(jù)紅利，但機器人的物理世界數(shù)據(jù)還存在很大的空白，AI下半場更關鍵的是數(shù)據(jù)如何從數(shù)字世界過渡到物理世界
想要做存在于物理世界的通用機器人大腦，關鍵的一環(huán)是空間感知能力。如何把傳感器的輸入變成更好的信息傳遞給模型，從傳感器的輸入開始去理解這個世界，很關鍵。
對于VLA和世界模型的技術路線之爭，首先無論技術路線怎么演進，數(shù)據(jù)都是離不開的。其次，這兩條路都不會是終局。機器人數(shù)據(jù)量積累到一定程度的時候，二者一定會走向融合，催生出獨屬物理世界的模型。
判斷：1～2年后，會出現(xiàn)一些標桿樣例，讓模型真實投產(chǎn)；2～3年，該樣例會被批量復制，越來越多產(chǎn)業(yè)會應用模型；在這之后，機器人會嘗試以某種方式進入C端；然后逐漸真正普及到家庭。
人人都能為機器人產(chǎn)生數(shù)據(jù)的時候，就是具身智能的ChatGPT時刻。

以下為對話全文：

“大模型踩中了互聯(lián)網(wǎng)幾十年的數(shù)據(jù)紅利”

李根：AIGC上半場大家都在談焦慮，但看得更遠一點，方向確定后，剩下的就是實踐。我們每年都希望找一位既有學術前沿洞察，又是產(chǎn)業(yè)實踐者的嘉賓——既懂Know，也懂Know how。沈博就是這樣的嘉賓。我們先從過去到現(xiàn)在，AI 2.0從ChatGPT起步，經(jīng)歷了寫作、畫畫到編程，你怎么看這條路徑？

沈宇軍：大模型從ChatGPT的突破起步，最開始大家覺得好玩，后來慢慢走向實用，尤其是最近Coding能力的爆發(fā)。我本身做機器人行業(yè)，從這個視角看，大模型其實是踩中了互聯(lián)網(wǎng)過去幾十年積累的數(shù)據(jù)紅利。

怎么說呢？互聯(lián)網(wǎng)積累了海量的文字、圖像、視頻素材，這些數(shù)據(jù)恰好碰上了算力的發(fā)展，兩者融合到一起，在爆發(fā)的時候正好把互聯(lián)網(wǎng)幾十年的數(shù)據(jù)積累用起來了。

再進一步看，自動駕駛也發(fā)展了將近十幾年，慢慢積累了屬于自己的數(shù)據(jù)——從最初車上沒那么多傳感器，到現(xiàn)在人類開車時數(shù)據(jù)可以被自動記錄下來。反觀機器人行業(yè)，數(shù)據(jù)目前還是一個很大的空白。我們沒有幾十年的互聯(lián)網(wǎng)積累，也沒有十年的自動駕駛沉淀，機器人現(xiàn)在的數(shù)據(jù)非常短缺。

有人說AI終于走到下半場，從數(shù)字世界往物理世界走，我們也提出了AIGA（AI生成Action）的概念。但做模型的核心其實是在做數(shù)據(jù)。我覺得更關鍵的問題是：數(shù)據(jù)到底怎么演變？怎么讓數(shù)據(jù)真正從數(shù)字世界過渡到物理世界？

李根：所以物理空間的數(shù)據(jù)是空白，也是新大陸？

沈宇軍：對。過去一年本體廠商越來越多，本體本身發(fā)展得也不錯。今年能看到一個明顯的趨勢：各種各樣的數(shù)據(jù)采集方式開始涌現(xiàn)。這說明大家逐漸意識到，具身智能——具身是一部分，智能是一部分——要做智能就離不開數(shù)據(jù)。只是大家還沒想清楚：物理智能到底需要什么樣的數(shù)據(jù)？以及怎么盡可能地把數(shù)據(jù)標準化？

標準化是很重要的事。Call back一下，大模型的成功很大程度上得益于互聯(lián)網(wǎng)把數(shù)據(jù)標準化了。Coding、對話這些領域，互聯(lián)網(wǎng)已經(jīng)搞得非常好了，現(xiàn)在更多是去享受這個紅利。

但到了物理世界，從眼下五花八門的數(shù)采方式來看，大家雖然意識到了數(shù)據(jù)的重要性，卻還沒有找到那條最正確的路。我相信在不遠的將來，數(shù)據(jù)這件事也會逐漸收斂。

“AIGC還不夠，模型要能生產(chǎn)生產(chǎn)力”

李根：你們提出了AIGA的應用范式，能分享一下嗎？為什么提AIGA？

沈宇軍：還是從模型落地的角度來講。大家從最開始做Chat，到現(xiàn)在做Coding，模型正在慢慢往生產(chǎn)方向遷移。在數(shù)字世界，編程、內(nèi)容創(chuàng)作都是很好的生產(chǎn)方向。但我們畢竟活在物理世界，真正想要的有體感的服務，還是需要物理世界中的具體交互。

所以我們覺得只有AIGC可能還不夠。到最后，智能到底能不能幫我們解決一些具體的問題？大家都說Agent，Agent能在數(shù)字世界幫我們解決很多流程問題、調(diào)用一些工具，但很多讓人真正有體感的東西還是要有操作。比如我現(xiàn)在就是想喝一杯咖啡——這個場景可能有點老生常談了。

尤其我們做具身的，更希望這個模型不止能生產(chǎn)內(nèi)容，更能生產(chǎn)所謂的生產(chǎn)力。

李根：這個生產(chǎn)力有什么樣的想象力和落地場景？

沈宇軍：這應該是過去一段時間行業(yè)一直在探討的。比如，機器人已經(jīng)進入工廠、物流、倉庫，去搬貨、做分揀。我們也和本體廠商合作，在這些場景中做了一些探索。前不久，我們的機器人還進入了藥房的線下零售門店。

如果真的有幸能看到那么一天——機器人發(fā)展得非常好、非常智能——那生活中的方方面面都可以落地。舉個例子，剛才上臺前，需要工作人員把椅子搬上來，工作人員要專門在那里等著。如果時間上有調(diào)整，他就得一直在旁邊等著。

如果有一天這件事機器人能做，它站在那里也無所謂，它知道什么時候該上場，并且把事做好，那就能釋放出很多勞動力，讓大家去做更有價值的事情。我相信機器人會逐漸滲透到生活的方方面面。

李根：所以每一個需要人的地方，未來都可能有機器人替代或執(zhí)行？

沈宇軍：對，我覺得更多是把人釋放到更需要人的事情上，比如創(chuàng)造、文化這些更偏人類活動的方面，而不是去做枯燥重復的體力活。

“靈波的定位是做通用大腦，有點像手機的操作系統(tǒng)”

李根：螞蟻靈波的技術選擇和定位是什么？

沈宇軍：靈波的定位比較清晰：做智能側。怎么理解？

我打個不一定恰當?shù)谋确健悬c像手機的操作系統(tǒng)。在我們看來，機器人不管是進入企業(yè)還是進入千家萬戶，大家對硬件的訴求一定是不一樣的，不可能只有一款統(tǒng)一的機器人。就像大家用手機，華為、小米、蘋果，各有各的偏好，這是個性的需求。企業(yè)更是如此：有的地方需要力氣大的機器人，有的需要更敏捷的機器人。

但這些機器人有一個共同的需求：智能。智能不是工業(yè)機器人那種按固定軌跡、在固定時間做固定的事。生活中很多事是隨機的，智能的含義就是要能應對這些隨機性。像我剛才說的，大會時間調(diào)整了，它能不能知道什么時候該上場搬椅子？這是一個簡單的例子。

所以靈波的定位很清晰：我們希望做一個相對通用的“大腦”，讓所有機器人在這個大腦下更好地完成任務。

物理世界相比數(shù)字世界有兩個優(yōu)勢。

第一，模態(tài)肯定更多——有聽覺、溫度、觸覺等等。這些模態(tài)在數(shù)字世界不太好獲得，但不代表它們不重要，因為很多時候智能正是通過越來越多的模態(tài)疊加來實現(xiàn)的。現(xiàn)在數(shù)字世界講多模態(tài)，其實還是逃不開文本、圖像、視頻、聲音。你能讓它感受到“力”嗎？不太能。所以物理世界因為模態(tài)更豐富，反而可能催生出更強的智能。

第二，物理世界能拿到真實的反饋。在數(shù)字世界，任務大多是人為定義的——人給一個標準，希望模型給出某種輸出。但在物理世界，很多東西是大自然定義的：比如一個蘋果，你松手它一定會落地，不需要任何人定義，這是現(xiàn)實規(guī)律。因為有了與物理世界的連接，智能很可能能從現(xiàn)實里直接學習，甚至超出人為設定的損失函數(shù)或獎勵函數(shù)。

基于這兩點優(yōu)勢，物理智能的想象空間非常大。當然，目前變量太多，需要驗證的東西也太多，很多因素耦合在一起，行業(yè)會先分出很多派別，但慢慢一定會收斂。

“VLA和世界模型都不是終局，會有物理世界獨有的模型”

李根：總結一下，靈波做的是宇樹等本體廠商的補充，提供大腦/操作系統(tǒng)；物理AI可能催生更本質(zhì)的智能。現(xiàn)在大家對路線有不同探討，比如VLA、世界模型等。你怎么看？

沈宇軍：回答VLA之前，我先說一下對具身智能技術路線的整體判斷。

大家經(jīng)常討論怎么做模態(tài)融合，主要是VLA和世界模型兩條路。但我想提另一個點——靈波要做通用大腦，而且是存在于物理世界的大腦，我們布局中有一個很關鍵、但行業(yè)很少提到的環(huán)節(jié)：空間感知能力，也有人叫空間智能。

機器人生活在物理世界，輸入來自各種傳感器，不是簡單的文字或照片。物理世界有深度、距離、力等傳感器。把這些輸入變成有效信息，是具身智能非常重要的一環(huán)。但現(xiàn)在大家更熱衷于討論最核心的那塊——怎么把傳感器輸入變成更好的信息傳給模型，反而容易忽略輸入端。

我的看法是，不管最終核心模型的技術路線怎么變，從傳感器輸入開始更好地理解這個世界，是非常關鍵的。靈波在做具身大腦的過程中，很關鍵的一環(huán)就是從輸入端開始，做好空間感知。

再回到大家最愛聊的核心部分。今年1月底我們對外講了一些看法，兩條路線我們都摸過：VLA和VA（現(xiàn)在也叫WAM，世界動作模型）。

我的體感是：第一，核心還是數(shù)據(jù)。不管范式怎么變，把數(shù)據(jù)摸清楚是關鍵能力。現(xiàn)在大家喜歡提數(shù)據(jù)量——幾萬小時、十幾萬小時，甚至百萬小時。但只提數(shù)量不提質(zhì)量是不科學的。到底什么樣的數(shù)據(jù)是好數(shù)據(jù)？這很關鍵。

我們過去做VLA，很重要的一件事就是把數(shù)據(jù)這條路趟通——拿到一條數(shù)據(jù)，該怎么處理、該不該送給模型，這是核心鏈路。不管技術路線怎么演進，數(shù)據(jù)是逃不開的。

第二，我們兩條路都摸了，我的判斷是：兩條路線都不會是終局。為什么？因為VLA和世界模型解決的是不同問題。VLA擅長人機交互，它是從多模態(tài)模型往后延伸一步，相當于多模態(tài)模型在物理世界的應用。世界模型則像視頻生成模型往物理世界的應用，更擅長對未來的判斷。

我覺得人類這兩方面能力都具備：一方面能融合各種信息，另一方面對未來有預判，做事之前會大概想想結果會怎樣。對機器人而言，這兩種能力必須結合，缺一不可——不能只能預測未來卻無法融合模態(tài)，也不能只能融合模態(tài)卻無法預測未來。

在我看來，VLA在產(chǎn)業(yè)界更好落地、效率更高，所以做的人更多。但世界模型如果真能預測未來，對機器人一定有幫助。我判斷，當機器人數(shù)據(jù)量積累到一定程度時，這兩條路線一定會深度融合。

這種融合甚至不是像現(xiàn)在這樣——把數(shù)字世界的模型拿來做物理應用，而是可能催生出物理世界獨有的模型。這個模型從一開始就是基于物理世界更多模態(tài)設計的，專為機器人應用而生。它可能不能跟人對話，但能更好地執(zhí)行任務。

總結起來還是三點：第一，物理智能離不開傳感器輸入的空間感知，靈波會從輸入端開始，讓機器人更好理解世界；第二，不管技術路線如何演進，數(shù)據(jù)是逃不開的，我們要把機器人需要的數(shù)據(jù)研究明白，甚至推動制定標準；第三，現(xiàn)在大家討論的技術路線都不是終局，未來一定會有物理世界獨有的模型出現(xiàn)。

“人人都能為機器人產(chǎn)生數(shù)據(jù)時，就是具身智能的ChatGPT時刻”

李根：謝謝沈博如此不繞彎子，那么具身大腦的發(fā)展節(jié)奏和里程碑是什么？

沈宇軍：短期看有幾個變化。一是硬件會越來越收斂——不是形態(tài)收斂，而是供應鏈會收斂，變成模塊化的東西，不再完全耦合在一起。硬件和傳感器會越來越標準化。二是數(shù)據(jù)的標準也會越來越收斂。

這兩點收斂后，模型層面的技術路線爭論會越來越激烈。因為前兩樣定了，變量就在建模上。模型爭論一段時間后，范式可能也會收斂。模型收斂之后，會反向推動硬件進行一次升級——那時的硬件已經(jīng)不是上一代的了，而是專門為具身智能打造的下一代硬件。就像這樣的周期：硬件震蕩、收斂，然后模型迭代。這是可以期待的。

從產(chǎn)業(yè)落地角度看，也應該有一些期待。今年到明年，會有一些標桿案例讓模型真正投產(chǎn)，不再是demo，而是投入商業(yè)應用。2-3年后，這些案例會被批量復制，越來越多產(chǎn)業(yè)會用到模型。之后，機器人會嘗試以某種方式進入C端，可能不是所有事都能做，但能找到一個切入點。然后逐漸進入家庭，就像現(xiàn)在新能源車一樣普及開來。

李根：什么時候會出現(xiàn)具身智能的“ChatGPT時刻”？

沈宇軍：大模型的訓練是一個持續(xù)過程，從GPT 1.0、2.0到3.0。但Chat為什么成為標志性時刻？因為它真正走進了千家萬戶，人人都能用、都能體驗到。類比到具身智能，什么時候能讓大部分人參與進來，那就是我認為的具身智能的ChatGPT時刻。

參與有兩個層面。最直觀的理解是具身智能普惠到每個人——那個可能還比較遙遠。但在那之前還有一個階段：數(shù)據(jù)階段。就像現(xiàn)在大家開車，會為自動駕駛提供人類駕駛經(jīng)驗一樣。

什么時候能有一個數(shù)據(jù)標準，讓我們每天的行為都可以成為訓練機器人的數(shù)據(jù)？當人人都能為機器人產(chǎn)生數(shù)據(jù)的時候，在我看來，那就是具身智能的ChatGPT時刻。

李根：你覺得這個還有多長時間？

沈宇軍：現(xiàn)在已經(jīng)有好多做數(shù)據(jù)的公司出來了，只是流派不同。接下來一兩年，應該是做模型的公司和做數(shù)據(jù)的公司之間磨合的過程。因為數(shù)據(jù)標準一定是由模型來定義的，但模型提出的需求，硬件迭代也需要周期。經(jīng)過一兩年磨合，大概在2028年左右，可以期待每個人都能成為具身智能的數(shù)據(jù)提供方。

從那一刻開始，具身智能的腳步會走得更快一些。

李根：那會不會同時出現(xiàn)類似安卓和iOS的操作系統(tǒng)？

沈宇軍：對，現(xiàn)在已經(jīng)有這個區(qū)分了。靈波走的是通用大腦路線，也有一些公司比如特斯拉，既造自己的本體，也做自己的大腦——模型專門為本體服務。機器人就像手機一樣，大家不可能都用同一款，因為總有個性化訴求。所以我們比較堅定地走通用大腦模式。

李根：所以螞蟻靈波希望成為機器人時代的安卓系統(tǒng)？

沈宇軍：對，這是我們的一個美好愿景。

李根：總結一下，AI 2.0下半場隨著物理世界開拓而展開，范式從AIGC走向AIGA。數(shù)據(jù)是核心，技術路線正在收斂，2028年左右可能迎來具身大腦的收斂。螞蟻靈波志在成為其中的安卓。謝謝沈博！

沈宇軍：謝謝！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.