在 2026 年 ICLR(國際學習表征會議)的舞臺上,斯坦福大學李飛飛團隊與西北大學李曼玲玲團隊聯手,針對具身智能長期困局 ——空間認知薄弱、數據效率低下、人機交互脫節,發布六項重磅研究,從基準構建、數據生成、推理優化三大維度形成閉環。當我們拆解技術表象,會發現每一項突破背后,都懸而未決著關乎智能本質的深層追問:我們為模型構建的 “空間信念”,究竟是在模擬人類的認知邏輯,還是在擬合訓練數據的分布?所謂的 “世界模型”,捕捉的是物理世界的底層規律,還是海量數據中的統計慣性?當多模態模型聲稱 “理解” 了空間,它是真的看見了三維世界,還是在用語言的先驗知識反哺、甚至扭曲視覺信息?今天,我們以空間為核心線索,循著問題驅動的認知路徑,深度拆解這篇 ICLR 2026 的核心論文《Theory of Space》。
第一階 元問題追問:我們到底在討論「空間」的什么本質? 核心問題:為什么被動的空間推理,永遠無法替代主動的空間認知?
在展開理論之前,我們必須先錨定「空間」的 3 個不可回避的本質屬性 —— 這也是整篇論文的立論根基,所有的框架、方法、發現由此生發:
空間的本質是「部分可觀測」的:真實物理空間中,沒有任何智能體可以一次性獲得全局完整觀測,墻后、門外、視野盲區的空間結構永遠是隱狀態,你必須通過行動才能讓不可見變為可見。
空間的認知是「具身依賴」的:認知科學經典的「主動 - 被動空間學習實驗」(Held & Hein, 1963)早已證明:哪怕接收完全相同的視覺信息,主動移動的個體對空間的理解,遠優于被動接收信息的個體 —— 空間認知不是對畫面的處理,而是對「行動 - 觀測」因果鏈的建模。
空間的表征是「信念驅動」的:你對空間的所有判斷,都基于你腦海中那張看不見的「認知地圖」,而非眼前的瞬時畫面。你能閉著眼睛從客廳走到臥室,不是因為你看到了路,而是因為你相信空間的結構是穩定的、可預測的。
基于這三個本質,論文拋出了整個工作的元問題:
當前的多模態基礎模型,已經在被動空間推理任務上表現出色,但它們能否在部分可觀測的環境中,通過自主的、目標驅動的探索,構建、維護、修正并利用一套連貫的內部空間信念?
這個問題直接擊穿了此前所有空間智能評測的核心缺陷:
被動推理 benchmark(如單圖 / 多圖空間問答):把空間變成了開卷考試,完全規避了「部分可觀測」這個空間的核心屬性;
任務驅動的具身 benchmark(如導航、指令跟隨):把空間探索變成了完成特定目標的手段,無法衡量模型是否真的構建了通用的空間認知,還是只是學會了任務特定的捷徑。
而《Theory of Space》(后文簡稱 ToS)的核心突破,就是把「空間」從一個推理任務的場景,變成了智能體需要主動建模的隱狀態對象—— 就像心智理論(Theory of Mind, ToM)建模他人不可見的心理狀態,ToS 建模世界不可見的空間結構。
第二階 理論框架:以空間信念為核心,定義可形式化的空間能力體系 核心問題:如果空間認知的核心是「內在空間信念」,我們該如何用一套嚴謹的框架,定義、拆解并形式化這套能力?
論文以「空間信念的全生命周期」為線索,給出了 ToS 的嚴格定義與形式化框架,徹底把模糊的「空間感」變成了可拆解、可測量的科學問題。
2.1 核心定義:什么是「空間理論(Theory of Space)」?
ToS 的正式定義是:
具身智能體通過自主主動探索,從時序性的、局部的觀測中,構建、動態修正、并利用內部空間信念的能力。
其中,內部空間信念是核心載體:它是智能體在工作記憶中維護的、關于空間布局與物體空間關系的心智模型,對應神經科學中經典的「認知地圖」(Tolman, 1948)。
論文在部分可觀測馬爾可夫決策過程(POMDP)的框架下,對 ToS 做了形式化:
設真實空間結構為S,智能體與空間交互的時序歷史為
智能體的內部空間信念,是對真實空間結構的后驗概率近似:
ToS 的能力,就是對這個概率信念進行三大核心操作的能力,而這三大操作恰好對應了空間信念從無到有、從靜態到動態、從內隱到可用的完整生命周期。
2.2 三大核心能力:空間信念的全生命周期閉環
以「空間」為線索,三大能力形成了完全閉環的邏輯鏈條,沒有任何一環可以脫離空間的本質屬性:
核心能力
空間本質對應
形式化定義
核心追問
構建(Construct)
空間的部分可觀測性:必須通過主動探索,把局部觀測整合成全局一致的空間表征
智能體整合時序交互歷史 ht ,逼近真實空間結構的后驗分布 P(S∣ht) ,形成全局連貫的認知地圖
模型是真的在拼出完整的空間,還是只是在記憶碎片化的觀測?
修正(Revise)
空間的動態非平穩性:真實空間會發生變化,智能體必須用新的觀測覆蓋過時的先驗信念
當空間結構從 S 變為 S′ ,智能體通過新的探索 Δh ,讓信念 Bt+Δt 收斂到新的后驗 P(S′∣ht+Δt)
模型能發現空間的變化,還是會抱著過時的信念一錯到底?
利用(Exploit)
空間的任務可用性:空間認知的最終價值,是支撐導航、視角轉換、空間推理等下游任務
智能體基于當前信念 Bt 生成策略 π(at∣Bt) ,完成下游空間任務 T ,任務性能直接衡量信念的質量
模型的「腦海地圖」是真的能用,還是只是無法落地的幻覺?
2.3 理論對標:ToS 與 ToM 的鏡像關系 —— 空間信念的「錯誤信念范式」
這里是論文最核心的理論創新之一:它完全復刻了發展心理學中心智理論(ToM)的經典評測邏輯,為空間認知引入了錯誤信念范式。
ToM 核心評測是「莎莉 - 安妮任務」:看孩子能否理解他人持有錯誤的信念,核心是區分「自己知道的事實」和「他人的信念」;
ToS 核心評測是「空間錯誤信念任務」:看模型能否區分「自己之前構建的舊信念」和「空間變化后的新事實」,核心是衡量信念修正能力。
這個設計直接把空間認知從「工程問題」提升到了「認知科學問題」,也讓 ToS 框架有了跨學科的嚴謹性。
第三階 方法范式:如何把「黑箱的空間信念」變成可測量、可診斷的科學對象? 核心問題:空間信念藏在模型的黑箱里,我們該如何把它顯性化,同時精準定位模型在空間認知中的失效環節?
論文以「空間信念的全流程測量」為線索,設計了一套完整的評測范式,核心解決兩個問題:① 如何還原真實空間的部分可觀測性,讓模型做真正的主動探索;② 如何打開黑箱,直接測量模型的內在空間信念,而不只是看最終任務的對錯。
3.1 環境設計:還原空間的本質屬性,雙模態拆解失效根源
為了精準定位模型的失效是來自「空間感知」還是「空間推理」,論文構建了文本、視覺雙平行環境,二者共享完全一致的空間布局,唯一區別是觀測模態:
文本世界:隔離純空間推理能力。每次觀測返回符號化的空間信息(如「椅子在左前方,中等距離」),沒有視覺感知噪聲,直接測試模型對空間關系的建模、整合與推理能力;
視覺世界:還原真實具身場景。每次觀測返回第一人稱 RGB 圖像,模型必須先從圖像中提取物體、方向、距離等空間信息,再進行推理,完整覆蓋「感知→表征→信念→推理」的全鏈路。
同時,環境嚴格遵循空間的真實約束:
動作空間聚焦高層空間決策,而非底層電機控制:僅保留Goto(移動到可見物體)、Rotate(原地旋轉)、Observe(觀測當前視野)、Query(查詢物體坐標),并給不同動作設置成本,倒逼模型做高效探索;
空間布局為程序化生成的多房間網格結構,嚴格控制房間數量、物體密度,保證實驗的可重復性與可擴展性;
觀測嚴格遵循 90° 視野約束,只有當前視野內的物體可被觀測,完美還原空間的「部分可觀測性」。
3.2 評測體系的三大核心支柱:以空間信念為核心的全鏈路測量
論文徹底拋棄了「只看最終任務準確率」的傳統評測邏輯,設計了三大支柱,完整覆蓋空間信念的構建、修正、利用全流程:
支柱 1:任務無關的主動探索—— 從「被動答題者」到「主動探索者」
這是 ToS 范式和傳統 benchmark 的核心區別:
模型的核心目標不是完成某個特定任務,而是通過自主選擇行動,以最小的成本構建最完整、最準確的空間信念;
模型必須自主決定「下一步看哪里、去哪里」,自主決定「什么時候探索足夠了,可以終止」;
核心衡量指標是探索效率:用歸一化信息增益衡量每步行動能降低多少空間不確定性,用步數衡量探索成本。
為了隔離「探索能力」和「推理能力」,論文還設計了兩個腳本化的代理智能體(Proxy Agent)作為黃金基線:
SCOUT 代理:用于視覺環境,采用「旋轉掃描 - 逐個房間遍歷」的策略,9 步即可完成全環境覆蓋,是最優的無先驗探索策略;
STRATEGIST 代理:用于文本環境,基于 AC-3約束傳播算法,主動選擇最大程度降低物體位置不確定性的視角,是最優信念驅動探索策略。
論文基于空間認知發展理論,把空間信念的利用拆分為兩個層級,完整覆蓋從低級到高級的空間推理能力:
路徑信念(Route Belief):以自我為中心(egocentric)的路徑級空間理解,對應人類導航時的「沿路標走」的能力,包括成對空間關系判斷、視角轉換、動作 - 視圖預測等任務;
全局測繪信念(Survey Belief):以環境為中心(allocentric)的地圖級空間理解,對應人類「腦海里有張鳥瞰圖」的能力,包括全局坐標預測、心理旋轉、視圖 - 位置定位等任務。
這兩個維度的設計,精準區分了模型是只會「記住走過的路」,還是真的構建了全局一致的空間認知地圖。
支柱 3:核心創新 —— 空間信念探針(Belief Probing)
這是整篇論文最具突破性的方法設計:它不再把模型的空間信念當成黑箱,而是在探索的每一步,都讓模型把內在的認知地圖顯性化輸出,直接測量信念的質量、穩定性與不確定性。
論文設計了兩類互補的信念探針,完整覆蓋「已知的空間」和「未知的空間」:
認知地圖探針(Cognitive Map Probing):測量模型對已觀測空間的信念質量
不確定性地圖探針(Uncertainty Map Probing):測量模型對未觀測空間的不確定性建模能力
3.3 信念修正的專屬評測:空間錯誤信念范式
論文復刻 ToM 的錯誤信念任務,設計了專門的動態環境實驗:
先讓模型完成初始探索,構建完整的空間信念;
在模型不知情的情況下,秘密移動 / 旋轉 4 個物體,改變空間結構;
讓模型重新探索環境,測試它能否發現變化、識別變化的物體、并更新自己的認知地圖。
論文還專門定義了信念慣性(Belief Inertia)指標,量化模型是否會被過時的先驗信念帶偏 —— 哪怕看到了新的證據,依然堅持舊的空間坐標 / 朝向,這是衡量空間信念動態修正能力的核心指標。
第四階 核心發現:SOTA 基礎模型的空間認知,到底在哪里系統性失效? 核心問題:基于 ToS 框架的全鏈路診斷,當前頂尖模型的空間能力,到底處于什么水平?哪些環節是無法繞過的核心瓶頸?
論文對 GPT-5.2、Gemini-3 Pro、Claude-4.5 Sonnet、GLM-4.6V、Qwen3-VL 等主流 SOTA 模型做了全面評測,所有發現都緊扣「空間信念的全生命周期」線索,從探索、構建、穩定性、修正四個維度,給出了精準的診斷結論。
4.1 核心瓶頸 1:主動 - 被動鴻溝 —— 主動探索是空間認知的第一卡點
論文最核心的實證發現:所有模型在主動探索場景下的性能,都顯著低于被動推理場景,且環境越復雜,鴻溝越大。
核心數據:視覺環境下,GPT-5.2 被動推理平均準確率 57.1%,主動探索直接掉到 46.0%;Gemini-3 Pro 從 60.5% 掉到 57.3%;文本環境下,GPT-5.2 被動準確率 90.4%,主動探索僅 72.0%;
底層原因:模型無法有效建模空間不確定性,不知道「哪里最該去看」。GPT-5.2 采用「見門就進」的無策略探索,經常遺漏當前房間的物體,路徑高度冗余;Gemini-3 Pro 雖然采用了更系統的「旋轉掃描」策略,更接近 SCOUT 代理,但依然達不到最優探索效率;
關鍵結論:哪怕模型擁有極強的空間推理能力(被動場景下的高性能),如果無法自主高效地獲取信息,依然無法構建可靠的空間信念 —— 這就像一個擁有超強記憶力的人,卻不會規劃路線,永遠畫不出完整的地圖。
4.2 核心瓶頸 2:模態鴻溝 —— 視覺空間認知的感知 - 表征耦合失效
論文通過雙環境對比,發現了極其顯著的模態差距:所有模型在文本世界的性能,都碾壓視覺世界,且差距在信念構建、穩定性、修正全環節普遍存在。
核心數據:認知地圖探針顯示,文本環境下 GPT-5.2 的位置準確率 91.0%,朝向準確率 75.1%;而視覺環境下,位置準確率僅 20.2%,朝向準確率 42.0%;Gemini-3 Pro 在文本環境位置準確率 92.5%,視覺環境僅 32.2%;
底層原因:視覺空間認知存在雙重瓶頸:① 初級感知瓶頸:模型很難從第一人稱圖像中精準提取物體的朝向、距離、相對位置等空間信息,尤其是物體朝向的識別,接近隨機水平;② 感知 - 表征耦合瓶頸:模型無法把瞬時的視覺觀測,穩定地整合到全局的 allocentric 認知地圖中,局部觀測和全局信念經常出現矛盾。
4.3 核心瓶頸 3:信念不穩定性 —— 空間記憶的時序衰減與漂移
通過認知地圖探針的時序追蹤,論文發現了一個被傳統評測完全忽略的關鍵問題:模型的空間信念是高度不穩定的,哪怕一開始正確感知到的空間信息,也會在后續探索中被錯誤覆蓋,出現「越看越錯」的信念漂移。
核心數據:視覺環境下,GPT-5.2 的信念穩定性僅 56.4%,Gemini-3 Pro 僅 61.8%;而文本環境下,二者的穩定性分別達到 86.0% 和 84.8%;
底層原因:模型缺乏穩定的空間記憶維護機制,新的觀測會無差別地覆蓋舊的記憶,無法區分「經過驗證的確定事實」和「新的觀測證據」,導致全局認知地圖的精度隨著探索步數增加反而下降;
關鍵結論:傳統評測只看最終的地圖精度,卻忽略了時序穩定性 —— 而真實世界的具身導航,恰恰需要長期穩定的空間信念,這是當前模型的核心短板。
通過空間錯誤信念范式,論文發現了當前模型空間認知最致命的缺陷:模型存在極強的空間信念慣性,尤其是視覺模態下,哪怕直接觀測到了空間的變化,也無法覆蓋過時的先驗信念。
核心數據:文本環境下,GPT-5.2 的位置信念慣性僅 5.5%,朝向 12.5%;而視覺環境下,位置信念慣性飆升至 68.9%,朝向 34.7%;Gemini-3 Pro 視覺環境下的位置信念慣性也高達 51.1%;
底層原因:模型的空間信念一旦形成,就會產生極強的先驗偏見,無法有效檢測「新觀測」和「舊信念」之間的沖突,更無法用新的證據更新全局地圖;尤其是視覺模態下,模型對物體朝向的記憶幾乎是固化的,哪怕看到了物體轉了方向,依然堅持初始的朝向判斷;
關鍵結論:當前模型的空間認知,本質上是「一次性的靜態建圖」,而真實世界的空間是動態變化的 —— 家具會移動、門會開關、路會被堵,無法動態修正信念的空間認知,在真實具身場景中完全不可用。
ToS 徹底打破了此前空間智能評測的兩大誤區:
打破了「被動推理 = 空間認知」的誤區:把空間智能的核心,從「對給定信息的推理」,拉回到了「對未知空間的主動探索」,回歸了空間的本質屬性;
打破了「任務成功 = 認知正確」的誤區:用信念探針直接打開模型的黑箱,從「看結果」變成了「看過程」,可以精準定位模型的失效環節,而不是只給出一個籠統的準確率。
同時,它為具身智能的「世界模型」提供了一套可定義、可測量、可優化的具體框架 —— 世界模型最核心的組件,就是對空間結構的建模,而 ToS 把這個模糊的概念,變成了可落地的科研范式。
5.2 產業意義:指明了下一代具身 AI 的核心優化方向
當前的機器人、自動駕駛、具身 Agent,最大的落地瓶頸之一,就是在未知、動態環境中的空間認知能力 —— 而 ToS 的診斷結論,直接給出了明確的優化路徑:
必須為基礎模型設計不確定性感知的主動探索策略,讓模型學會「知道自己不知道什么」,并主動選擇能最大程度降低不確定性的行動;
必須解決視覺空間的感知 - 表征解耦問題,讓模型能從第一人稱視覺中,穩定提取并整合空間信息,構建全局一致的認知地圖;
必須為模型設計穩定的空間記憶維護與更新機制,解決信念漂移和信念慣性問題,讓模型能在長時序探索中保持信念穩定,同時能根據環境變化動態修正信念。
5.3 終極追問:空間認知,是通用人工智能的必經之路嗎?
論文的結尾,留下了一個最值得深思的問題:人類的高級認知能力,很大程度上是在與物理空間的交互中演化而來的 —— 我們的抽象推理、因果建模、心智理論,都根植于我們對空間的理解。那么,對于通用人工智能而言,真正的空間認知能力,是不是從「被動處理信息的語言模型」,走向「主動與世界交互的具身智能」的必經之路?
回答是肯定的,空間認知是AGI的必經之路,而《Theory of Space》這篇論文,恰恰為這個問題的回答,提供了第一套嚴謹的、可量化的、可迭代的理論與實驗框架。
全文核心線索復盤
整篇論文的邏輯,完全以「空間」為核心線索:
從空間的本質屬性(部分可觀測、具身依賴、信念驅動)出發,提出終極元問題;
以空間信念的全生命周期為核心,構建了「構建 - 修正 - 利用」的理論框架;
以空間信念的顯性化測量為目標,設計了「主動探索 - 信念利用 - 信念探針」的方法范式;
以空間信念的全鏈路診斷為核心,發現了當前模型的四大系統性瓶頸;
最終回歸空間認知在通用智能中的核心地位,重構了具身智能的評測與發展范式。
這篇Theory of Space最大突破在于它打破了將具身智能等同于 “視覺識別” 或 “導航工程” 的窄化認知,完成了從 “擬合數據” 到 “構建世界”的范式升級。它不再將空間智能僅僅視為處理圖像的能力,而是將其升維為構建內在 “認知地圖” 與維護 “空間信念” 的因果推理能力—— 標志著具身智能從被動的 “統計學習”,進化為能主動探索、理解并適應動態環境的 “世界建模”。
更關鍵的是,它通過“空間錯誤信念”等顛覆性設計,揭示了當前模型本質上是 “靜態的一次性建圖”,而非真正具備時序穩定性與動態修正能力的智能體。
這一框架重構了我們對具身智能的理解:真正的空間智能,不是從圖像中提取像素特征,而是能否像人類一樣,在部分可觀測的世界中,通過主動行動消除不確定性、生成連貫的內在模型,并以此驅動下游決策。這是一次從 “算法優化” 到 “認知本質” 的世界觀級跨越。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.