大模型的爆發(fā),吃的是互聯(lián)網(wǎng)幾十年積累的數(shù)據(jù)紅利。
可當AI從數(shù)字世界邁向物理世界,螞蟻靈波科技首席科學家沈宇軍發(fā)現(xiàn):機器人的數(shù)據(jù),幾乎還是一片空白。
此前,他曾在公開演講中率先提出AIGA的概念——AI 2.0下半場,人工智能要從數(shù)字世界的“娛樂”走向物理世界的“干活”,從Content(內(nèi)容)生成走向Action(動作)生成。
在2026中國AIGC產(chǎn)業(yè)峰會的GenAI Talk環(huán)節(jié),沈宇軍與量子位聯(lián)合創(chuàng)始人兼總編輯李根圍繞這一話題展開了一場深度對話,主題為《AI 2.0下半場:從AIGC到AIGA》。
也正是從“數(shù)據(jù)”這條主線出發(fā),他拋出了一個讓現(xiàn)場做VLA、做世界模型的人都“小小一震”的判斷:
單獨的VLA和世界模型,都不會是具身智能的終局。
就像人類既能把各種信息融合在一起,也會預測未來事情的走向,從智能的角度,二者勢必要結合,缺一不可。
而它們最終會走向什么?沈宇軍目前給出的答案是——一個獨屬于物理世界的模型。
![]()
為了完整體現(xiàn)沈宇軍的思考,在不改變原意的基礎上,量子位對演講內(nèi)容進行了編輯整理,希望能給你帶來更多啟發(fā)。
2026中國AIGC產(chǎn)業(yè)峰會是由量子位主辦的行業(yè)峰會,近20位產(chǎn)業(yè)代表與會討論。線下參會觀眾超千人,線上直播觀眾近400萬,獲得了主流媒體的廣泛關注與報道。
核心觀點梳理
- 大模型踩中了互聯(lián)網(wǎng)過去幾十年的數(shù)據(jù)紅利,但機器人的物理世界數(shù)據(jù)還存在很大的空白,AI下半場更關鍵的是數(shù)據(jù)如何從數(shù)字世界過渡到物理世界
- 想要做存在于物理世界的通用機器人大腦,關鍵的一環(huán)是空間感知能力。如何把傳感器的輸入變成更好的信息傳遞給模型,從傳感器的輸入開始去理解這個世界,很關鍵。
- 對于VLA和世界模型的技術路線之爭,首先無論技術路線怎么演進,數(shù)據(jù)都是離不開的。其次,這兩條路都不會是終局。機器人數(shù)據(jù)量積累到一定程度的時候,二者一定會走向融合,催生出獨屬物理世界的模型。
- 判斷:1~2年后,會出現(xiàn)一些標桿樣例,讓模型真實投產(chǎn);2~3年,該樣例會被批量復制,越來越多產(chǎn)業(yè)會應用模型;在這之后,機器人會嘗試以某種方式進入C端;然后逐漸真正普及到家庭。
- 人人都能為機器人產(chǎn)生數(shù)據(jù)的時候,就是具身智能的ChatGPT時刻。
以下為對話全文:
“大模型踩中了互聯(lián)網(wǎng)幾十年的數(shù)據(jù)紅利”
李根:AIGC上半場大家都在談焦慮,但看得更遠一點,方向確定后,剩下的就是實踐。我們每年都希望找一位既有學術前沿洞察,又是產(chǎn)業(yè)實踐者的嘉賓——既懂Know,也懂Know how。沈博就是這樣的嘉賓。我們先從過去到現(xiàn)在,AI 2.0從ChatGPT起步,經(jīng)歷了寫作、畫畫到編程,你怎么看這條路徑?
![]()
沈宇軍:大模型從ChatGPT的突破起步,最開始大家覺得好玩,后來慢慢走向實用,尤其是最近Coding能力的爆發(fā)。我本身做機器人行業(yè),從這個視角看,大模型其實是踩中了互聯(lián)網(wǎng)過去幾十年積累的數(shù)據(jù)紅利。
怎么說呢?互聯(lián)網(wǎng)積累了海量的文字、圖像、視頻素材,這些數(shù)據(jù)恰好碰上了算力的發(fā)展,兩者融合到一起,在爆發(fā)的時候正好把互聯(lián)網(wǎng)幾十年的數(shù)據(jù)積累用起來了。
再進一步看,自動駕駛也發(fā)展了將近十幾年,慢慢積累了屬于自己的數(shù)據(jù)——從最初車上沒那么多傳感器,到現(xiàn)在人類開車時數(shù)據(jù)可以被自動記錄下來。反觀機器人行業(yè),數(shù)據(jù)目前還是一個很大的空白。我們沒有幾十年的互聯(lián)網(wǎng)積累,也沒有十年的自動駕駛沉淀,機器人現(xiàn)在的數(shù)據(jù)非常短缺。
有人說AI終于走到下半場,從數(shù)字世界往物理世界走,我們也提出了AIGA(AI生成Action)的概念。但做模型的核心其實是在做數(shù)據(jù)。我覺得更關鍵的問題是:數(shù)據(jù)到底怎么演變?怎么讓數(shù)據(jù)真正從數(shù)字世界過渡到物理世界?
李根:所以物理空間的數(shù)據(jù)是空白,也是新大陸?
沈宇軍:對。過去一年本體廠商越來越多,本體本身發(fā)展得也不錯。今年能看到一個明顯的趨勢:各種各樣的數(shù)據(jù)采集方式開始涌現(xiàn)。這說明大家逐漸意識到,具身智能——具身是一部分,智能是一部分——要做智能就離不開數(shù)據(jù)。只是大家還沒想清楚:物理智能到底需要什么樣的數(shù)據(jù)?以及怎么盡可能地把數(shù)據(jù)標準化?
標準化是很重要的事。Call back一下,大模型的成功很大程度上得益于互聯(lián)網(wǎng)把數(shù)據(jù)標準化了。Coding、對話這些領域,互聯(lián)網(wǎng)已經(jīng)搞得非常好了,現(xiàn)在更多是去享受這個紅利。
但到了物理世界,從眼下五花八門的數(shù)采方式來看,大家雖然意識到了數(shù)據(jù)的重要性,卻還沒有找到那條最正確的路。我相信在不遠的將來,數(shù)據(jù)這件事也會逐漸收斂。
“AIGC還不夠,模型要能生產(chǎn)生產(chǎn)力”
李根:你們提出了AIGA的應用范式,能分享一下嗎?為什么提AIGA?
沈宇軍:還是從模型落地的角度來講。大家從最開始做Chat,到現(xiàn)在做Coding,模型正在慢慢往生產(chǎn)方向遷移。在數(shù)字世界,編程、內(nèi)容創(chuàng)作都是很好的生產(chǎn)方向。但我們畢竟活在物理世界,真正想要的有體感的服務,還是需要物理世界中的具體交互。
所以我們覺得只有AIGC可能還不夠。到最后,智能到底能不能幫我們解決一些具體的問題?大家都說Agent,Agent能在數(shù)字世界幫我們解決很多流程問題、調(diào)用一些工具,但很多讓人真正有體感的東西還是要有操作。比如我現(xiàn)在就是想喝一杯咖啡——這個場景可能有點老生常談了。
尤其我們做具身的,更希望這個模型不止能生產(chǎn)內(nèi)容,更能生產(chǎn)所謂的生產(chǎn)力。
![]()
李根:這個生產(chǎn)力有什么樣的想象力和落地場景?
沈宇軍:這應該是過去一段時間行業(yè)一直在探討的。比如,機器人已經(jīng)進入工廠、物流、倉庫,去搬貨、做分揀。我們也和本體廠商合作,在這些場景中做了一些探索。前不久,我們的機器人還進入了藥房的線下零售門店。
如果真的有幸能看到那么一天——機器人發(fā)展得非常好、非常智能——那生活中的方方面面都可以落地。舉個例子,剛才上臺前,需要工作人員把椅子搬上來,工作人員要專門在那里等著。如果時間上有調(diào)整,他就得一直在旁邊等著。
如果有一天這件事機器人能做,它站在那里也無所謂,它知道什么時候該上場,并且把事做好,那就能釋放出很多勞動力,讓大家去做更有價值的事情。我相信機器人會逐漸滲透到生活的方方面面。
李根:所以每一個需要人的地方,未來都可能有機器人替代或執(zhí)行?
沈宇軍:對,我覺得更多是把人釋放到更需要人的事情上,比如創(chuàng)造、文化這些更偏人類活動的方面,而不是去做枯燥重復的體力活。
“靈波的定位是做通用大腦,有點像手機的操作系統(tǒng)”
李根:螞蟻靈波的技術選擇和定位是什么?
沈宇軍:靈波的定位比較清晰:做智能側。怎么理解?
我打個不一定恰當?shù)谋确健悬c像手機的操作系統(tǒng)。在我們看來,機器人不管是進入企業(yè)還是進入千家萬戶,大家對硬件的訴求一定是不一樣的,不可能只有一款統(tǒng)一的機器人。就像大家用手機,華為、小米、蘋果,各有各的偏好,這是個性的需求。企業(yè)更是如此:有的地方需要力氣大的機器人,有的需要更敏捷的機器人。
但這些機器人有一個共同的需求:智能。智能不是工業(yè)機器人那種按固定軌跡、在固定時間做固定的事。生活中很多事是隨機的,智能的含義就是要能應對這些隨機性。像我剛才說的,大會時間調(diào)整了,它能不能知道什么時候該上場搬椅子?這是一個簡單的例子。
所以靈波的定位很清晰:我們希望做一個相對通用的“大腦”,讓所有機器人在這個大腦下更好地完成任務。
![]()
物理世界相比數(shù)字世界有兩個優(yōu)勢。
第一,模態(tài)肯定更多——有聽覺、溫度、觸覺等等。這些模態(tài)在數(shù)字世界不太好獲得,但不代表它們不重要,因為很多時候智能正是通過越來越多的模態(tài)疊加來實現(xiàn)的。現(xiàn)在數(shù)字世界講多模態(tài),其實還是逃不開文本、圖像、視頻、聲音。你能讓它感受到“力”嗎?不太能。所以物理世界因為模態(tài)更豐富,反而可能催生出更強的智能。
第二,物理世界能拿到真實的反饋。在數(shù)字世界,任務大多是人為定義的——人給一個標準,希望模型給出某種輸出。但在物理世界,很多東西是大自然定義的:比如一個蘋果,你松手它一定會落地,不需要任何人定義,這是現(xiàn)實規(guī)律。因為有了與物理世界的連接,智能很可能能從現(xiàn)實里直接學習,甚至超出人為設定的損失函數(shù)或獎勵函數(shù)。
基于這兩點優(yōu)勢,物理智能的想象空間非常大。當然,目前變量太多,需要驗證的東西也太多,很多因素耦合在一起,行業(yè)會先分出很多派別,但慢慢一定會收斂。
“VLA和世界模型都不是終局,會有物理世界獨有的模型”
李根:總結一下,靈波做的是宇樹等本體廠商的補充,提供大腦/操作系統(tǒng);物理AI可能催生更本質(zhì)的智能。現(xiàn)在大家對路線有不同探討,比如VLA、世界模型等。你怎么看?
沈宇軍:回答VLA之前,我先說一下對具身智能技術路線的整體判斷。
大家經(jīng)常討論怎么做模態(tài)融合,主要是VLA和世界模型兩條路。但我想提另一個點——靈波要做通用大腦,而且是存在于物理世界的大腦,我們布局中有一個很關鍵、但行業(yè)很少提到的環(huán)節(jié):空間感知能力,也有人叫空間智能。
機器人生活在物理世界,輸入來自各種傳感器,不是簡單的文字或照片。物理世界有深度、距離、力等傳感器。把這些輸入變成有效信息,是具身智能非常重要的一環(huán)。但現(xiàn)在大家更熱衷于討論最核心的那塊——怎么把傳感器輸入變成更好的信息傳給模型,反而容易忽略輸入端。
我的看法是,不管最終核心模型的技術路線怎么變,從傳感器輸入開始更好地理解這個世界,是非常關鍵的。靈波在做具身大腦的過程中,很關鍵的一環(huán)就是從輸入端開始,做好空間感知。
再回到大家最愛聊的核心部分。今年1月底我們對外講了一些看法,兩條路線我們都摸過:VLA和VA(現(xiàn)在也叫WAM,世界動作模型)。
我的體感是:第一,核心還是數(shù)據(jù)。不管范式怎么變,把數(shù)據(jù)摸清楚是關鍵能力。現(xiàn)在大家喜歡提數(shù)據(jù)量——幾萬小時、十幾萬小時,甚至百萬小時。但只提數(shù)量不提質(zhì)量是不科學的。到底什么樣的數(shù)據(jù)是好數(shù)據(jù)?這很關鍵。
我們過去做VLA,很重要的一件事就是把數(shù)據(jù)這條路趟通——拿到一條數(shù)據(jù),該怎么處理、該不該送給模型,這是核心鏈路。不管技術路線怎么演進,數(shù)據(jù)是逃不開的。
第二,我們兩條路都摸了,我的判斷是:兩條路線都不會是終局。為什么?因為VLA和世界模型解決的是不同問題。VLA擅長人機交互,它是從多模態(tài)模型往后延伸一步,相當于多模態(tài)模型在物理世界的應用。世界模型則像視頻生成模型往物理世界的應用,更擅長對未來的判斷。
![]()
我覺得人類這兩方面能力都具備:一方面能融合各種信息,另一方面對未來有預判,做事之前會大概想想結果會怎樣。對機器人而言,這兩種能力必須結合,缺一不可——不能只能預測未來卻無法融合模態(tài),也不能只能融合模態(tài)卻無法預測未來。
在我看來,VLA在產(chǎn)業(yè)界更好落地、效率更高,所以做的人更多。但世界模型如果真能預測未來,對機器人一定有幫助。我判斷,當機器人數(shù)據(jù)量積累到一定程度時,這兩條路線一定會深度融合。
這種融合甚至不是像現(xiàn)在這樣——把數(shù)字世界的模型拿來做物理應用,而是可能催生出物理世界獨有的模型。這個模型從一開始就是基于物理世界更多模態(tài)設計的,專為機器人應用而生。它可能不能跟人對話,但能更好地執(zhí)行任務。
總結起來還是三點:第一,物理智能離不開傳感器輸入的空間感知,靈波會從輸入端開始,讓機器人更好理解世界;第二,不管技術路線如何演進,數(shù)據(jù)是逃不開的,我們要把機器人需要的數(shù)據(jù)研究明白,甚至推動制定標準;第三,現(xiàn)在大家討論的技術路線都不是終局,未來一定會有物理世界獨有的模型出現(xiàn)。
“人人都能為機器人產(chǎn)生數(shù)據(jù)時,就是具身智能的ChatGPT時刻”
李根:謝謝沈博如此不繞彎子,那么具身大腦的發(fā)展節(jié)奏和里程碑是什么?
沈宇軍:短期看有幾個變化。一是硬件會越來越收斂——不是形態(tài)收斂,而是供應鏈會收斂,變成模塊化的東西,不再完全耦合在一起。硬件和傳感器會越來越標準化。二是數(shù)據(jù)的標準也會越來越收斂。
這兩點收斂后,模型層面的技術路線爭論會越來越激烈。因為前兩樣定了,變量就在建模上。模型爭論一段時間后,范式可能也會收斂。模型收斂之后,會反向推動硬件進行一次升級——那時的硬件已經(jīng)不是上一代的了,而是專門為具身智能打造的下一代硬件。就像這樣的周期:硬件震蕩、收斂,然后模型迭代。這是可以期待的。
從產(chǎn)業(yè)落地角度看,也應該有一些期待。今年到明年,會有一些標桿案例讓模型真正投產(chǎn),不再是demo,而是投入商業(yè)應用。2-3年后,這些案例會被批量復制,越來越多產(chǎn)業(yè)會用到模型。之后,機器人會嘗試以某種方式進入C端,可能不是所有事都能做,但能找到一個切入點。然后逐漸進入家庭,就像現(xiàn)在新能源車一樣普及開來。
李根:什么時候會出現(xiàn)具身智能的“ChatGPT時刻”?
沈宇軍:大模型的訓練是一個持續(xù)過程,從GPT 1.0、2.0到3.0。但Chat為什么成為標志性時刻?因為它真正走進了千家萬戶,人人都能用、都能體驗到。類比到具身智能,什么時候能讓大部分人參與進來,那就是我認為的具身智能的ChatGPT時刻。
參與有兩個層面。最直觀的理解是具身智能普惠到每個人——那個可能還比較遙遠。但在那之前還有一個階段:數(shù)據(jù)階段。就像現(xiàn)在大家開車,會為自動駕駛提供人類駕駛經(jīng)驗一樣。
什么時候能有一個數(shù)據(jù)標準,讓我們每天的行為都可以成為訓練機器人的數(shù)據(jù)?當人人都能為機器人產(chǎn)生數(shù)據(jù)的時候,在我看來,那就是具身智能的ChatGPT時刻。
![]()
李根:你覺得這個還有多長時間?
沈宇軍:現(xiàn)在已經(jīng)有好多做數(shù)據(jù)的公司出來了,只是流派不同。接下來一兩年,應該是做模型的公司和做數(shù)據(jù)的公司之間磨合的過程。因為數(shù)據(jù)標準一定是由模型來定義的,但模型提出的需求,硬件迭代也需要周期。經(jīng)過一兩年磨合,大概在2028年左右,可以期待每個人都能成為具身智能的數(shù)據(jù)提供方。
從那一刻開始,具身智能的腳步會走得更快一些。
李根:那會不會同時出現(xiàn)類似安卓和iOS的操作系統(tǒng)?
沈宇軍:對,現(xiàn)在已經(jīng)有這個區(qū)分了。靈波走的是通用大腦路線,也有一些公司比如特斯拉,既造自己的本體,也做自己的大腦——模型專門為本體服務。機器人就像手機一樣,大家不可能都用同一款,因為總有個性化訴求。所以我們比較堅定地走通用大腦模式。
李根:所以螞蟻靈波希望成為機器人時代的安卓系統(tǒng)?
沈宇軍:對,這是我們的一個美好愿景。
李根:總結一下,AI 2.0下半場隨著物理世界開拓而展開,范式從AIGC走向AIGA。數(shù)據(jù)是核心,技術路線正在收斂,2028年左右可能迎來具身大腦的收斂。螞蟻靈波志在成為其中的安卓。謝謝沈博!
沈宇軍:謝謝!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.