網易首頁 > 網易號 > 正文申請入駐

從擬合數據到構建世界：李飛飛的空間智能理論 theory of space

2026-04-17 14:27:39　來源: 人工智能學家

北京舉報

分享至

在 2026 年 ICLR（國際學習表征會議）的舞臺上，斯坦福大學李飛飛團隊與西北大學李曼玲玲團隊聯手，針對具身智能長期困局 ——空間認知薄弱、數據效率低下、人機交互脫節，發布六項重磅研究，從基準構建、數據生成、推理優化三大維度形成閉環。當我們拆解技術表象，會發現每一項突破背后，都懸而未決著關乎智能本質的深層追問：我們為模型構建的 “空間信念”，究竟是在模擬人類的認知邏輯，還是在擬合訓練數據的分布？所謂的 “世界模型”，捕捉的是物理世界的底層規律，還是海量數據中的統計慣性？當多模態模型聲稱 “理解” 了空間，它是真的看見了三維世界，還是在用語言的先驗知識反哺、甚至扭曲視覺信息？今天，我們以空間為核心線索，循著問題驅動的認知路徑，深度拆解這篇 ICLR 2026 的核心論文《Theory of Space》。

第一階元問題追問：我們到底在討論「空間」的什么本質？核心問題：為什么被動的空間推理，永遠無法替代主動的空間認知？

在展開理論之前，我們必須先錨定「空間」的 3 個不可回避的本質屬性 —— 這也是整篇論文的立論根基，所有的框架、方法、發現由此生發：

空間的本質是「部分可觀測」的：真實物理空間中，沒有任何智能體可以一次性獲得全局完整觀測，墻后、門外、視野盲區的空間結構永遠是隱狀態，你必須通過行動才能讓不可見變為可見。

空間的認知是「具身依賴」的：認知科學經典的「主動 - 被動空間學習實驗」（Held & Hein, 1963）早已證明：哪怕接收完全相同的視覺信息，主動移動的個體對空間的理解，遠優于被動接收信息的個體 —— 空間認知不是對畫面的處理，而是對「行動 - 觀測」因果鏈的建模。

空間的表征是「信念驅動」的：你對空間的所有判斷，都基于你腦海中那張看不見的「認知地圖」，而非眼前的瞬時畫面。你能閉著眼睛從客廳走到臥室，不是因為你看到了路，而是因為你相信空間的結構是穩定的、可預測的。

基于這三個本質，論文拋出了整個工作的元問題：

當前的多模態基礎模型，已經在被動空間推理任務上表現出色，但它們能否在部分可觀測的環境中，通過自主的、目標驅動的探索，構建、維護、修正并利用一套連貫的內部空間信念？

這個問題直接擊穿了此前所有空間智能評測的核心缺陷：

被動推理 benchmark（如單圖 / 多圖空間問答）：把空間變成了開卷考試，完全規避了「部分可觀測」這個空間的核心屬性；

任務驅動的具身 benchmark（如導航、指令跟隨）：把空間探索變成了完成特定目標的手段，無法衡量模型是否真的構建了通用的空間認知，還是只是學會了任務特定的捷徑。

而《Theory of Space》（后文簡稱 ToS）的核心突破，就是把「空間」從一個推理任務的場景，變成了智能體需要主動建模的隱狀態對象—— 就像心智理論（Theory of Mind, ToM）建模他人不可見的心理狀態，ToS 建模世界不可見的空間結構。

第二階理論框架：以空間信念為核心，定義可形式化的空間能力體系核心問題：如果空間認知的核心是「內在空間信念」，我們該如何用一套嚴謹的框架，定義、拆解并形式化這套能力？

論文以「空間信念的全生命周期」為線索，給出了 ToS 的嚴格定義與形式化框架，徹底把模糊的「空間感」變成了可拆解、可測量的科學問題。

2.1 核心定義：什么是「空間理論（Theory of Space）」？

ToS 的正式定義是：

具身智能體通過自主主動探索，從時序性的、局部的觀測中，構建、動態修正、并利用內部空間信念的能力。

其中，內部空間信念是核心載體：它是智能體在工作記憶中維護的、關于空間布局與物體空間關系的心智模型，對應神經科學中經典的「認知地圖」（Tolman, 1948）。

論文在部分可觀測馬爾可夫決策過程（POMDP）的框架下，對 ToS 做了形式化：

設真實空間結構為S，智能體與空間交互的時序歷史為

智能體的內部空間信念，是對真實空間結構的后驗概率近似：

ToS 的能力，就是對這個概率信念進行三大核心操作的能力，而這三大操作恰好對應了空間信念從無到有、從靜態到動態、從內隱到可用的完整生命周期。

2.2 三大核心能力：空間信念的全生命周期閉環

以「空間」為線索，三大能力形成了完全閉環的邏輯鏈條，沒有任何一環可以脫離空間的本質屬性：

核心能力

空間本質對應

形式化定義

核心追問

構建（Construct）

空間的部分可觀測性：必須通過主動探索，把局部觀測整合成全局一致的空間表征

智能體整合時序交互歷史 ht ，逼近真實空間結構的后驗分布 P(S∣ht) ，形成全局連貫的認知地圖

模型是真的在拼出完整的空間，還是只是在記憶碎片化的觀測？

修正（Revise）

空間的動態非平穩性：真實空間會發生變化，智能體必須用新的觀測覆蓋過時的先驗信念

當空間結構從 S 變為 S′ ，智能體通過新的探索 Δh ，讓信念 Bt+Δt 收斂到新的后驗 P(S′∣ht+Δt)

模型能發現空間的變化，還是會抱著過時的信念一錯到底？

利用（Exploit）

空間的任務可用性：空間認知的最終價值，是支撐導航、視角轉換、空間推理等下游任務

智能體基于當前信念 Bt 生成策略 π(at∣Bt) ，完成下游空間任務 T ，任務性能直接衡量信念的質量

模型的「腦海地圖」是真的能用，還是只是無法落地的幻覺？

2.3 理論對標：ToS 與 ToM 的鏡像關系 —— 空間信念的「錯誤信念范式」

這里是論文最核心的理論創新之一：它完全復刻了發展心理學中心智理論（ToM）的經典評測邏輯，為空間認知引入了錯誤信念范式。

ToM 核心評測是「莎莉 - 安妮任務」：看孩子能否理解他人持有錯誤的信念，核心是區分「自己知道的事實」和「他人的信念」；
ToS 核心評測是「空間錯誤信念任務」：看模型能否區分「自己之前構建的舊信念」和「空間變化后的新事實」，核心是衡量信念修正能力。

這個設計直接把空間認知從「工程問題」提升到了「認知科學問題」，也讓 ToS 框架有了跨學科的嚴謹性。

第三階方法范式：如何把「黑箱的空間信念」變成可測量、可診斷的科學對象？核心問題：空間信念藏在模型的黑箱里，我們該如何把它顯性化，同時精準定位模型在空間認知中的失效環節？

論文以「空間信念的全流程測量」為線索，設計了一套完整的評測范式，核心解決兩個問題：① 如何還原真實空間的部分可觀測性，讓模型做真正的主動探索；② 如何打開黑箱，直接測量模型的內在空間信念，而不只是看最終任務的對錯。

3.1 環境設計：還原空間的本質屬性，雙模態拆解失效根源

為了精準定位模型的失效是來自「空間感知」還是「空間推理」，論文構建了文本、視覺雙平行環境，二者共享完全一致的空間布局，唯一區別是觀測模態：

文本世界：隔離純空間推理能力。每次觀測返回符號化的空間信息（如「椅子在左前方，中等距離」），沒有視覺感知噪聲，直接測試模型對空間關系的建模、整合與推理能力；

視覺世界：還原真實具身場景。每次觀測返回第一人稱 RGB 圖像，模型必須先從圖像中提取物體、方向、距離等空間信息，再進行推理，完整覆蓋「感知→表征→信念→推理」的全鏈路。

同時，環境嚴格遵循空間的真實約束：

動作空間聚焦高層空間決策，而非底層電機控制：僅保留Goto（移動到可見物體）、Rotate（原地旋轉）、Observe（觀測當前視野）、Query（查詢物體坐標），并給不同動作設置成本，倒逼模型做高效探索；

空間布局為程序化生成的多房間網格結構，嚴格控制房間數量、物體密度，保證實驗的可重復性與可擴展性；

觀測嚴格遵循 90° 視野約束，只有當前視野內的物體可被觀測，完美還原空間的「部分可觀測性」。

3.2 評測體系的三大核心支柱：以空間信念為核心的全鏈路測量

論文徹底拋棄了「只看最終任務準確率」的傳統評測邏輯，設計了三大支柱，完整覆蓋空間信念的構建、修正、利用全流程：

支柱 1：任務無關的主動探索—— 從「被動答題者」到「主動探索者」

這是 ToS 范式和傳統 benchmark 的核心區別：

模型的核心目標不是完成某個特定任務，而是通過自主選擇行動，以最小的成本構建最完整、最準確的空間信念；
模型必須自主決定「下一步看哪里、去哪里」，自主決定「什么時候探索足夠了，可以終止」；
核心衡量指標是探索效率：用歸一化信息增益衡量每步行動能降低多少空間不確定性，用步數衡量探索成本。

為了隔離「探索能力」和「推理能力」，論文還設計了兩個腳本化的代理智能體（Proxy Agent）作為黃金基線：

SCOUT 代理：用于視覺環境，采用「旋轉掃描 - 逐個房間遍歷」的策略，9 步即可完成全環境覆蓋，是最優的無先驗探索策略；
STRATEGIST 代理：用于文本環境，基于 AC-3約束傳播算法，主動選擇最大程度降低物體位置不確定性的視角，是最優信念驅動探索策略。

支柱 2：信念利用評估—— 雙維度衡量空間信念的可用性

論文基于空間認知發展理論，把空間信念的利用拆分為兩個層級，完整覆蓋從低級到高級的空間推理能力：

路徑信念（Route Belief）：以自我為中心（egocentric）的路徑級空間理解，對應人類導航時的「沿路標走」的能力，包括成對空間關系判斷、視角轉換、動作 - 視圖預測等任務；

全局測繪信念（Survey Belief）：以環境為中心（allocentric）的地圖級空間理解，對應人類「腦海里有張鳥瞰圖」的能力，包括全局坐標預測、心理旋轉、視圖 - 位置定位等任務。

這兩個維度的設計，精準區分了模型是只會「記住走過的路」，還是真的構建了全局一致的空間認知地圖。

支柱 3：核心創新 —— 空間信念探針（Belief Probing）

這是整篇論文最具突破性的方法設計：它不再把模型的空間信念當成黑箱，而是在探索的每一步，都讓模型把內在的認知地圖顯性化輸出，直接測量信念的質量、穩定性與不確定性。

論文設計了兩類互補的信念探針，完整覆蓋「已知的空間」和「未知的空間」：

認知地圖探針（Cognitive Map Probing）：測量模型對已觀測空間的信念質量

不確定性地圖探針（Uncertainty Map Probing）：測量模型對未觀測空間的不確定性建模能力

3.3 信念修正的專屬評測：空間錯誤信念范式

論文復刻 ToM 的錯誤信念任務，設計了專門的動態環境實驗：

先讓模型完成初始探索，構建完整的空間信念；
在模型不知情的情況下，秘密移動 / 旋轉 4 個物體，改變空間結構；
讓模型重新探索環境，測試它能否發現變化、識別變化的物體、并更新自己的認知地圖。

論文還專門定義了信念慣性（Belief Inertia）指標，量化模型是否會被過時的先驗信念帶偏 —— 哪怕看到了新的證據，依然堅持舊的空間坐標 / 朝向，這是衡量空間信念動態修正能力的核心指標。

第四階核心發現：SOTA 基礎模型的空間認知，到底在哪里系統性失效？核心問題：基于 ToS 框架的全鏈路診斷，當前頂尖模型的空間能力，到底處于什么水平？哪些環節是無法繞過的核心瓶頸？

論文對 GPT-5.2、Gemini-3 Pro、Claude-4.5 Sonnet、GLM-4.6V、Qwen3-VL 等主流 SOTA 模型做了全面評測，所有發現都緊扣「空間信念的全生命周期」線索，從探索、構建、穩定性、修正四個維度，給出了精準的診斷結論。

4.1 核心瓶頸 1：主動 - 被動鴻溝 —— 主動探索是空間認知的第一卡點

論文最核心的實證發現：所有模型在主動探索場景下的性能，都顯著低于被動推理場景，且環境越復雜，鴻溝越大。

核心數據：視覺環境下，GPT-5.2 被動推理平均準確率 57.1%，主動探索直接掉到 46.0%；Gemini-3 Pro 從 60.5% 掉到 57.3%；文本環境下，GPT-5.2 被動準確率 90.4%，主動探索僅 72.0%；

底層原因：模型無法有效建模空間不確定性，不知道「哪里最該去看」。GPT-5.2 采用「見門就進」的無策略探索，經常遺漏當前房間的物體，路徑高度冗余；Gemini-3 Pro 雖然采用了更系統的「旋轉掃描」策略，更接近 SCOUT 代理，但依然達不到最優探索效率；

關鍵結論：哪怕模型擁有極強的空間推理能力（被動場景下的高性能），如果無法自主高效地獲取信息，依然無法構建可靠的空間信念 —— 這就像一個擁有超強記憶力的人，卻不會規劃路線，永遠畫不出完整的地圖。

4.2 核心瓶頸 2：模態鴻溝 —— 視覺空間認知的感知 - 表征耦合失效

論文通過雙環境對比，發現了極其顯著的模態差距：所有模型在文本世界的性能，都碾壓視覺世界，且差距在信念構建、穩定性、修正全環節普遍存在。

核心數據：認知地圖探針顯示，文本環境下 GPT-5.2 的位置準確率 91.0%，朝向準確率 75.1%；而視覺環境下，位置準確率僅 20.2%，朝向準確率 42.0%；Gemini-3 Pro 在文本環境位置準確率 92.5%，視覺環境僅 32.2%；

底層原因：視覺空間認知存在雙重瓶頸：① 初級感知瓶頸：模型很難從第一人稱圖像中精準提取物體的朝向、距離、相對位置等空間信息，尤其是物體朝向的識別，接近隨機水平；② 感知 - 表征耦合瓶頸：模型無法把瞬時的視覺觀測，穩定地整合到全局的 allocentric 認知地圖中，局部觀測和全局信念經常出現矛盾。

4.3 核心瓶頸 3：信念不穩定性 —— 空間記憶的時序衰減與漂移

通過認知地圖探針的時序追蹤，論文發現了一個被傳統評測完全忽略的關鍵問題：模型的空間信念是高度不穩定的，哪怕一開始正確感知到的空間信息，也會在后續探索中被錯誤覆蓋，出現「越看越錯」的信念漂移。

核心數據：視覺環境下，GPT-5.2 的信念穩定性僅 56.4%，Gemini-3 Pro 僅 61.8%；而文本環境下，二者的穩定性分別達到 86.0% 和 84.8%；
底層原因：模型缺乏穩定的空間記憶維護機制，新的觀測會無差別地覆蓋舊的記憶，無法區分「經過驗證的確定事實」和「新的觀測證據」，導致全局認知地圖的精度隨著探索步數增加反而下降；
關鍵結論：傳統評測只看最終的地圖精度，卻忽略了時序穩定性 —— 而真實世界的具身導航，恰恰需要長期穩定的空間信念，這是當前模型的核心短板。

4.4 核心瓶頸 4：信念慣性 —— 空間先驗的修正機制完全失效

通過空間錯誤信念范式，論文發現了當前模型空間認知最致命的缺陷：模型存在極強的空間信念慣性，尤其是視覺模態下，哪怕直接觀測到了空間的變化，也無法覆蓋過時的先驗信念。

核心數據：文本環境下，GPT-5.2 的位置信念慣性僅 5.5%，朝向 12.5%；而視覺環境下，位置信念慣性飆升至 68.9%，朝向 34.7%；Gemini-3 Pro 視覺環境下的位置信念慣性也高達 51.1%；
底層原因：模型的空間信念一旦形成，就會產生極強的先驗偏見，無法有效檢測「新觀測」和「舊信念」之間的沖突，更無法用新的證據更新全局地圖；尤其是視覺模態下，模型對物體朝向的記憶幾乎是固化的，哪怕看到了物體轉了方向，依然堅持初始的朝向判斷；
關鍵結論：當前模型的空間認知，本質上是「一次性的靜態建圖」，而真實世界的空間是動態變化的 —— 家具會移動、門會開關、路會被堵，無法動態修正信念的空間認知，在真實具身場景中完全不可用。

第五階核心意義與未來：ToS 到底重構了什么？核心問題：這套以空間為核心的理論框架，到底給具身智能、基礎模型的發展，帶來了哪些底層范式的變革？ 5.1 學術意義：重構了空間智能的評測范式

ToS 徹底打破了此前空間智能評測的兩大誤區：

打破了「被動推理 = 空間認知」的誤區：把空間智能的核心，從「對給定信息的推理」，拉回到了「對未知空間的主動探索」，回歸了空間的本質屬性；

打破了「任務成功 = 認知正確」的誤區：用信念探針直接打開模型的黑箱，從「看結果」變成了「看過程」，可以精準定位模型的失效環節，而不是只給出一個籠統的準確率。

同時，它為具身智能的「世界模型」提供了一套可定義、可測量、可優化的具體框架 —— 世界模型最核心的組件，就是對空間結構的建模，而 ToS 把這個模糊的概念，變成了可落地的科研范式。

5.2 產業意義：指明了下一代具身 AI 的核心優化方向

當前的機器人、自動駕駛、具身 Agent，最大的落地瓶頸之一，就是在未知、動態環境中的空間認知能力 —— 而 ToS 的診斷結論，直接給出了明確的優化路徑：

必須為基礎模型設計不確定性感知的主動探索策略，讓模型學會「知道自己不知道什么」，并主動選擇能最大程度降低不確定性的行動；

必須解決視覺空間的感知 - 表征解耦問題，讓模型能從第一人稱視覺中，穩定提取并整合空間信息，構建全局一致的認知地圖；

必須為模型設計穩定的空間記憶維護與更新機制，解決信念漂移和信念慣性問題，讓模型能在長時序探索中保持信念穩定，同時能根據環境變化動態修正信念。

5.3 終極追問：空間認知，是通用人工智能的必經之路嗎？

論文的結尾，留下了一個最值得深思的問題：人類的高級認知能力，很大程度上是在與物理空間的交互中演化而來的 —— 我們的抽象推理、因果建模、心智理論，都根植于我們對空間的理解。那么，對于通用人工智能而言，真正的空間認知能力，是不是從「被動處理信息的語言模型」，走向「主動與世界交互的具身智能」的必經之路？

回答是肯定的，空間認知是AGI的必經之路，而《Theory of Space》這篇論文，恰恰為這個問題的回答，提供了第一套嚴謹的、可量化的、可迭代的理論與實驗框架。

全文核心線索復盤

整篇論文的邏輯，完全以「空間」為核心線索：

從空間的本質屬性（部分可觀測、具身依賴、信念驅動）出發，提出終極元問題；

以空間信念的全生命周期為核心，構建了「構建 - 修正 - 利用」的理論框架；

以空間信念的顯性化測量為目標，設計了「主動探索 - 信念利用 - 信念探針」的方法范式；

以空間信念的全鏈路診斷為核心，發現了當前模型的四大系統性瓶頸；

最終回歸空間認知在通用智能中的核心地位，重構了具身智能的評測與發展范式。

這篇Theory of Space最大突破在于它打破了將具身智能等同于 “視覺識別” 或 “導航工程” 的窄化認知，完成了從 “擬合數據” 到 “構建世界”的范式升級。它不再將空間智能僅僅視為處理圖像的能力，而是將其升維為構建內在 “認知地圖” 與維護 “空間信念” 的因果推理能力—— 標志著具身智能從被動的 “統計學習”，進化為能主動探索、理解并適應動態環境的 “世界建模”。

更關鍵的是，它通過“空間錯誤信念”等顛覆性設計，揭示了當前模型本質上是 “靜態的一次性建圖”，而非真正具備時序穩定性與動態修正能力的智能體。

這一框架重構了我們對具身智能的理解：真正的空間智能，不是從圖像中提取像素特征，而是能否像人類一樣，在部分可觀測的世界中，通過主動行動消除不確定性、生成連貫的內在模型，并以此驅動下游決策。這是一次從 “算法優化” 到 “認知本質” 的世界觀級跨越。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.