![]()
500萬年,這是人類語言在進化史上的年齡。5.4億年,這是視覺和空間感知催生寒武紀(jì)生命大爆發(fā)的起點。
在硅谷幾乎所有頂級實驗室都在卷語言模型的2025和2026年,斯坦福大學(xué)教授、World Labs創(chuàng)始人李飛飛反復(fù)拋出一個讓行業(yè)不得不抬頭的問題:如果AI只會說話和看圖片,它永遠(yuǎn)不會真正“理解”這個世界。
她在三次關(guān)鍵訪談中,包括2025年6月的a16z Podcast、2026年2月的思科AI峰會(Cisco AI Summit),以及2026年5月22日發(fā)布、長達(dá)1小時19分鐘的Lenny's Podcast深度對話,系統(tǒng)闡述了一個正在被加速驗證的判斷:空間智能(Spatial Intelligence),才是AI的下一個前沿。
其中a16z對話中“創(chuàng)造無限的宇宙”“生活在多元宇宙中”的表述,以及Lenny's Podcast中“世界模型才是下一個前沿”“AGI更像營銷術(shù)語”等觀點,最近在X平臺上再度被大量轉(zhuǎn)發(fā)。
“我們?nèi)币粋€世界模型”
據(jù)a16z合伙人Martin Casado回憶,在硅谷的一次午餐會上,滿桌AI從業(yè)者在興奮地談?wù)摯笳Z言模型。李飛飛坐在餐桌另一頭,突然轉(zhuǎn)頭問他:
“你知道我們?nèi)笔裁磫幔课覀內(nèi)币粋€世界模型。”
Casado是World Labs的早期投資人,也是李飛飛在斯坦福時期就結(jié)識的老友。他回憶那一刻時說,“一切都對上了”。他當(dāng)時剛從大量圖像領(lǐng)域的投資中獨立得出類似結(jié)論:語言不是故事的終點。
但李飛飛對這個問題的思考遠(yuǎn)比大多數(shù)人更久遠(yuǎn)。
2024年4月,她在TED大會上發(fā)表了一場15分鐘的演講,用進化論做了破題:5.4億年前三葉蟲的出現(xiàn),第一次讓生命“看見”了世界。視覺的誕生引爆了智能的演化競賽,神經(jīng)系統(tǒng)開始發(fā)育,動物變得活躍,智能由此萌芽。而語言,不過是這場漫長競賽中非常晚近的產(chǎn)物。
這個判斷在三次訪談中被反復(fù)強化。在思科AI峰會上,她的表述更加直接:
“語言的歷史大概只有50萬年。但在15億年前,動物就開始感知光線并觸摸環(huán)境。在真實的3D、4D物理世界中進行理解、推理、交互和導(dǎo)航的能力是基礎(chǔ)性的,與語言智能同樣重要。”
李飛飛并非否定語言智能的價值。她的核心論點是:語言在本質(zhì)上是一種“有信息損失的”對世界的編碼方式。
在a16z訪談中,Casado做了一個思維實驗:蒙上你的眼睛,用語言描述一個房間,然后讓你完成一項任務(wù),你成功的概率極低。因為語言對現(xiàn)實的描述永遠(yuǎn)是粗糙的。拿掉眼罩,你的大腦瞬間重建3D空間,你就能操作、觸摸、移動。
李飛飛補充了一個更極端的例子,即科學(xué)史上最著名的一次空間推理:羅莎琳德·富蘭克林拍攝的DNA X射線衍射照片是一張平面的二維影像,上面的結(jié)構(gòu)看起來像一個帶有衍射的十字。但沃森和克里克通過那張二維照片,在三維空間中推理出了DNA的雙螺旋結(jié)構(gòu)。“那個結(jié)構(gòu)不可能是二維的。你不能用二維的思維來推導(dǎo)出那個結(jié)構(gòu)。”
“如果你觀察人類智能,很多都超出了語言的范疇。語言是一種有信息損失的捕捉世界的方式。純粹的生成式‘語言’在自然界中并不存在;我們環(huán)顧四周,沒有現(xiàn)成的句子或單詞,而整個物理、感知、視覺世界卻真實存在。”
這是一個容易被忽視的視角:當(dāng)前大模型的大部分能力,建立在一種天然有損的信息壓縮格式之上。而在Lenny's Podcast中,她用一個更日常的測試戳穿了這個幻象:
“今天,你拿一個模型,讓它運行一段包含幾個辦公室房間的視頻,然后要求模型數(shù)一下椅子的數(shù)量。這是幼兒就能做到的事情,而人工智能卻做不到。”
更不用說從天體運動中推導(dǎo)出物理定律:“讓我們把所有的數(shù)據(jù)都給人工智能,包括牛頓沒有的現(xiàn)代儀器數(shù)據(jù),讓它創(chuàng)建一套17世紀(jì)關(guān)于物體運動規(guī)律的方程。今天的人工智能做不到。”
Marble:比GPT-5小幾個數(shù)量級
將這個判斷推向產(chǎn)品的是World Labs的第一代模型Marble,2024年底發(fā)布。
李飛飛在思科AI峰會上詳細(xì)拆解了Marble的技術(shù)定位:接收文本、圖片、視頻或簡單3D輸入,生成一個“完全可導(dǎo)航、可交互且具有永久一致性的3D世界”。她特別強調(diào),這與Sora等視頻生成模型有本質(zhì)區(qū)別,Marble生成的環(huán)境擁有幾何結(jié)構(gòu),不是一段“看起來像”視頻的像素動畫。
在Lenny's Podcast中,她用柏拉圖的洞穴寓言做了更深的闡釋:囚犯被綁在椅子上,只能看到墻上投射的二維影子,但真正的戲劇在背后三維空間中上演。視頻模型就是那些影子,而空間智能要做的,是創(chuàng)造和推理那個影子背后的真實世界。
一組對比:GPT-5的訓(xùn)練算力大約在10的26次方FLOPS量級,而Marble在規(guī)模上小幾個數(shù)量級。原因有兩層:數(shù)據(jù)獲取難度完全不同(高質(zhì)量3D物理數(shù)據(jù)極其稀缺),且這個領(lǐng)域還處于“Scaling Law的上升曲線”的早期階段。
在Lenny's Podcast中,她進一步解釋了為什么機器人學(xué)習(xí)無法簡單復(fù)制語言模型的“苦澀的教訓(xùn)”。AI領(lǐng)域有一個著名的論斷:擁有海量數(shù)據(jù)的簡單模型最終總能勝過復(fù)雜模型。但“語言模型擁有一個完美的設(shè)置:訓(xùn)練數(shù)據(jù)是單詞,輸出也是文字。”而機器人技術(shù)中,“你希望獲得行動,訓(xùn)練數(shù)據(jù)卻缺乏在3D世界中的行動。”這種訓(xùn)練目標(biāo)與數(shù)據(jù)形態(tài)之間的根本錯位,才是機器人學(xué)習(xí)的核心難題。
World Labs采取混合數(shù)據(jù)策略:互聯(lián)網(wǎng)規(guī)模的文本、圖像和視頻,加上仿真模擬數(shù)據(jù),再加上真實世界采集數(shù)據(jù)。李飛飛坦承,“我們?nèi)栽谔剿髂P图軜?gòu)的相對早期階段”,但她預(yù)計“接下來的幾年將會非常令人興奮”。
話音剛落,World Labs就在2026年2月完成10億美元融資,英偉達(dá)、AMD、a16z參投,估值從一年前的10億美元飆升至約50億美元。4月,團隊開源了3D高斯濺射渲染引擎Spark 2.0,可在網(wǎng)頁端實現(xiàn)億級3D場景實時渲染,從閉源產(chǎn)品轉(zhuǎn)向“產(chǎn)品+開源生態(tài)”的雙軌策略,空間智能的技術(shù)門檻正在被快速拉低。
在Lenny's Podcast中,李飛飛也罕見地坦露了創(chuàng)業(yè)的艱辛:“如果我能對18個月前的自己耳語一句話:“這個領(lǐng)域的競爭強度,無論是技術(shù)還是人才,遠(yuǎn)超你的想象。”
無限宇宙與多元宇宙
真正讓a16z那次訪談在X上反復(fù)出圈的,是李飛飛關(guān)于“無限宇宙”的表述:
“在整個人類文明歷史中,我們所有人都共同生活在一個3D世界里。只有少數(shù)人去過月球,但人數(shù)非常少。而這項技術(shù)讓數(shù)字虛擬世界變得無比精彩。突然間,我們實際上可以創(chuàng)造無限的宇宙,有些是為機器人創(chuàng)造的,有些是為創(chuàng)造力創(chuàng)造的,有些是為社交創(chuàng)造的,有些是為旅行創(chuàng)造的,有些是為講故事創(chuàng)造的。突然之間,我們能夠生活在一個多元宇宙中,想象的空間是無限的。”
Casado則從技術(shù)層面做了更具體的闡釋:通過一張二維照片,模型就能生成包括桌子背面在內(nèi)的完整360度3D表示。你可以操作、測量、堆疊,空間中能做的任何事都可以實現(xiàn)。
這不是科幻。在兩次訪談中,李飛飛列舉了Marble已經(jīng)落地的應(yīng)用:
? 游戲開發(fā)者用早期版本開發(fā)游戲 ? 與索尼合作的虛擬制作團隊將電影制作周期縮短了40倍 ? 英偉達(dá)及多家學(xué)術(shù)實驗室利用Marble訓(xùn)練機器人 ? 建筑師和設(shè)計師用它做室內(nèi)設(shè)計 ? 臨床研究人員為強迫癥、恐高癥患者定制個性化的沉浸式觸發(fā)環(huán)境 ? 有人用它生成個性化的瑜伽訓(xùn)練空間
最后一個應(yīng)用尤其出人意料。李飛飛在峰會上提到,OCD患者會被非常具體的場景觸發(fā),“比如我個人會被堆積的臟衣服困擾,但每個人的觸發(fā)點各不相同”。在Lenny's Podcast中她補充道,發(fā)布后一位朋友連夜打電話問她是否可以用Marble治療恐高癥。實體環(huán)境的搭建成本極高,而Marble只需輸入提示詞,幾分鐘就能生成各種環(huán)境。
柏拉圖的洞穴寓言,恰好也是理解2D與3D分歧的最佳入口。
李飛飛用這個寓言解釋:被綁在椅子上的囚犯,只能看到墻上投射的二維影子。當(dāng)前的語言模型和視頻模型,本質(zhì)上都是那些影子,從二維中猜測三維。空間智能的野心,是創(chuàng)造、推理和交互那個影子背后的真實世界。
在技術(shù)路線上,她用一個簡潔的對比劃清了邊界:
“汽車可以被視作一個在二維平面上移動的方塊機器人,它的目標(biāo)是不要碰到任何東西。而機器人是一個三維實體,在三維世界中運行,通用機器人的目標(biāo)是必須接觸物體而不破壞它們。這是一個更高維度的問題。”
她還給出了一個來自親身經(jīng)歷的時間刻度:2006年,她參與創(chuàng)造了第一輛在沙漠行駛138英里的自動駕駛汽車,當(dāng)時預(yù)言20年后會有自動駕駛汽車。直到2025年,Waymo才開始在城市街道大規(guī)模運行。
“看清北極星并不意味著旅程會很短。”
Casado在a16z對話中補充了更具商業(yè)直覺的觀察:僅自動駕駛一個賽道,行業(yè)就投入了大約1000億美元,20年才走到今天。“我們原本的路線是先解決世界導(dǎo)航問題,但結(jié)果極其困難。”
李飛飛甚至在a16z訪談中分享了一段個人經(jīng)歷來強化論點:大約五年前,她因眼角膜受傷失去了幾個月的立體視覺。“即使我非常清楚我的車有多大,也大概知道鄰居家停的車有多大,而且我在這條路上開了很多年,但我無法很好地判斷車和路邊停著的車之間的距離。我只能開到時速十英里,以免刮到其他車。”
一個終身研究視覺智能的科學(xué)家,用自己失去深度感知后的切身困境,回答了“為什么3D不可替代”這個問題。
技術(shù)雙刃劍與文明標(biāo)尺
在技術(shù)樂觀主義和末日論之間,李飛飛選擇了一個更克制也更具操作性的站位。她在思科AI峰會上明確表達(dá)了對兩極化言論的擔(dān)憂:
“網(wǎng)絡(luò)上的討論往往是非黑即白的:要么是完全的技術(shù)烏托邦主義,忽略了技術(shù)是一把雙刃劍;要么就是末日論調(diào),仿佛人類時刻面臨生存危機。對于一項對人類文明如此深遠(yuǎn)的技術(shù),這種討論方式是不負(fù)責(zé)任的。”
她沒有停留在批評層面,而是給出了一個可量化的價值錨點:電力。
“如果回?fù)芤话俣嗄辏胂螽?dāng)時人們?nèi)绾味x電力的成功。我希望那時的愿景是:學(xué)校燈火通明,家園溫暖如春,機器被賦予力量實現(xiàn)工業(yè)化,進而延長人類壽命,讓更多孩子接受教育。”
然后將這個錨點平移到AI:“成功的定義應(yīng)該是文明變得更加美好,而文明是由每一個追求幸福、繁榮且擁有尊嚴(yán)的個體組成的。這就是AI以及每一項技術(shù)成功的定義。”
在Lenny's Podcast的結(jié)尾,她把這份關(guān)切落到了具體的人身上。她說自己每到一處都會被問到同一個問題:如果我是農(nóng)民、護士、音樂家,AI會取代我嗎?她的回答是:“歸根結(jié)底,AI是關(guān)于人的。任何技術(shù)都不應(yīng)該剝奪人的尊嚴(yán)。人類的尊嚴(yán)和自主性應(yīng)該成為每項技術(shù)的開發(fā)、部署以及治理的核心。”
回顧三次訪談,一條清晰的脈絡(luò)浮出水面。
李飛飛對空間智能的思考,不是對大模型浪潮的反叛,而是在其基礎(chǔ)上的延伸。她比大多數(shù)人更早地看到了語言模型的極限,一種有損的信息壓縮格式能做的終究有限。而空間智能要解決的問題是:讓AI從“談?wù)撌澜纭边M化到“理解世界”,最終到“在世界中行動”。
World Labs團隊約30人,已融資超10億美元。Marble是第一代產(chǎn)品,規(guī)模遠(yuǎn)不及頂級語言模型。3D數(shù)據(jù)的稀缺和模型架構(gòu)的早期狀態(tài),決定了這不會是一條一蹴而就的路線。但李飛飛在Lenny's Podcast中說了另一句話,或許是對這份耐心最好的注解:
“我們的大腦只消耗約20瓦,比房間里任何燈泡都暗,卻能做這么多事。我在AI領(lǐng)域工作得越多,越尊重人類。”
5.4億年的進化,才讓碳基生命獲得了這份20瓦的空間智能。AI的這場進化,正在被壓縮到幾年內(nèi)完成。
李飛飛在三次訪談中都沒有給出時間表。她只是反復(fù)回到那個從進化論中提取的判斷:感知先于語言,空間先于符號。這場正在硅谷、斯坦福實驗室和World Labs辦公室里發(fā)生的,不是一次技術(shù)迭代,而是一次進化論的加速重演。(本文首發(fā)鈦媒體APP,作者 | 硅谷tech news,編輯 | 趙虹宇)
附:上述三場訪談文字實錄收錄地址【ima知識庫】李飛飛訪談 https://ima.qq.com/wiki/?shareId=3f1d4b4c0d6cb2aeca250e2c5d068390e2d45895816ad607309820e25cb2e9c5
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.