![]()
本文主要由伊利諾伊大學香檳分校的錢成博士牽頭合作完成。錢成目前為二年級博士生,其主要研究方向為大模型驅動智能體,包括智能體推理,交互以及物理智能等。導師為季姮教授。
2025 年是 Agent(智能體)技術落地元年,而如今到了 2026年,World Model(世界模型)也隨之有了更廣泛的技術突破。我們一邊擁抱著五花八門的智能體應用給生活帶來切實的便利,另一方面,我們也在加強世界模型的可信度與真實性,希望著它們在未來能夠賦能智能體,讓智能體能夠真正像人類辨別物理空間,思考物理規律,從而更加高效且精準的做出推理與決策。
這二者的相繼爆火并非偶然。如果從更本質的視角來看待世界模型和智能體的關系,便會發現:世界模型的本質在于接收當下對于環境的動作或擾動,在物理規律或環境限制的調控下,進而預測下一步的環境狀態;而智能體則是根據當前環境狀態,在任務目標的調控下,輸出下一步應該做出的反應或動作。
從這個角度看,世界模型和智能體其實是一個天生互補的閉環,而這也正是世界模型能夠理論上賦能智能體決策的基礎。
從智能體的角度來看, 世界模型對其的賦能叫做 Foresight(前瞻)。世界模型能夠在智能體并沒有做出任何動作前便模擬出可能的后果,就像人類會「腦補」假如做了某件事之后可能會產生的影響,從而避免危害,提高效率,更加理性的在當下進行決策。只不過,人類更像是智能體和世界模型的結合體,因為既擁有前瞻能力,也是任務的執行者。
但是當下智能體和世界模型往往是按照兩個完全不同的范式分開訓練,那么便再換一種更加簡單的思路:從智能體的角度,如果世界模型就是用來提供前瞻性的工具或第三方模塊,那么后者在當下能夠成功賦能智能體決策嗎?
來自伊利諾伊大學香檳分校、清華大學、約翰霍普金斯大學以及哥倫比亞大學的研究人員在反復試驗后,卻得出來一個與我們的直覺有點相反的結論:大多數當下智能體并不能穩定、有效地把世界模型當作前瞻工具。
這個工作也點出了在當下智能體與世界模型交接之年熱潮背后真正的瓶頸:如果真的希望世界模型能夠有效賦能智能體,我們不僅需要智能體更強的執行能力或是世界模型更真實的模擬能力,同時也需要二者更好的磨合和適配,即智能體需要知道這個前瞻能力怎么用、何時用,才能更好地把推演融入到其多步決策的閉環中。這項能力在文章中被稱作 Foresight Governance(前瞻治理)。
![]()
- 論文地址:https://arxiv.org/pdf/2601.03905
將世界模型的前瞻「工具化」
對于智能體而言,萬物皆是達成目標的工具:互聯網,數據庫,甚至是人類,其實都可以看作是智能體為了達到目標的工具箱。
例如智能體向用戶反問了一個澄清性質的問題,這時「向用戶澄清」,或者說「向用戶索要額外信息」便也可以看作是其為了達成目的的手段或工具之一。這一論斷在 MCP 以及 Skill 興起后更是如此,因為技能其實就是工具的抽象化,而統一接口后,智能體通過 MCP 對于外部的所有認知都可以看作是技能化,工具化的。
那么,從智能體的角度,它將怎么看待世界模型呢?答案呼之欲出,那便是將世界模型也看作一種能夠提供前瞻性的工具。基于這個思路,文章作者首先構建了一套以智能體為核心,將世界模型「工具化」的研究范式。
![]()
圖 1: 在世界模型「工具化」的范式下,智能體在每一步執行前能夠自行選擇是否調用世界模型進行前瞻
在這套范式中,智能體不僅能夠調用傳統意義上的工具來執行和解決問題(例如不同 API 接口),同時其也可以在進行每一步行動前,都自行選擇是否調用是世界模型來對動作影響進行前瞻。
例如在上圖的例子中,把智能體放置于一個密室逃脫的具身環境中,智能體便可以選擇調用模擬器對鐵柵拉拽的動作后果進行前瞻和評估,從而更高效的找到真正的逃脫出口。
任務與測試模式拆解
作者在文章中主要探索了兩類任務,其中每一類,世界模型都能「理論上」輔助智能體更好的進行決策和規劃:
- 智能體任務(Agentic Task):這類任務通常把智能體放置于一個模擬環境中,其需要主動進行多部推理來達成任務目標,例如推箱子,物品拾取,定向尋物等等。
在智能體任務中,環境模擬器本身便是一個天然的世界模型,其能夠直接幫助智能體獲得精準的動作前瞻信號,理論上應當能幫助智能體規避一些不可逆的錯誤,讓目標完成更加精準與高效。
- 視覺推理任務(VQA Task):文章還挑選了一部分有關空間感知的視覺推理任務進行評測,例如圖片中物品相對位置的判斷,相機視角的切換等等。這些任務雖然以圖片作為輸入,但是智能體往往也能用世界模型的預測更加精準的把握圖片所反映的三維空間中的物品位置,視角等等,進而理論上輔助視覺推理任務的作答。
在這類任務里,我們不再有一個百分百準確的模擬器提供真實的前瞻信號,因此作者采用了以開源模型 WAN2.1 進行 Rollout 的方式,模擬對于智能體指定動作的前瞻預測,并將視頻信息返回給后者,以幫助其進行推理。
除了這兩類任務,文章還采用了三種評測模式來進行對比分析:
- 原始模式(World Model Invisible Mode):即被測模型正常完成任務,不知道世界模型的存在,也不會調用世界模型的前瞻信號來進行輔助;
- 正常模式(Normal Mode):即被測模型知道世界模型的存在,也知道如何調用,可以自由地在每一步執行前決定是否調用。這也是文章的主實驗設置;
- 強制模式(World Model Forcing Mode):即被測模型知道世界模型的存在,并且在每一步執行前都被系統強制要求必須要調用世界模型,運用前瞻,以對當前動作產生的影響進行預測和評估。
世界模型對智能體的賦能并不可靠
對比原始模式以及正常模式,在 GPT、Llama、Qwen 等當下主流模型上,文章發現了有點出乎意料的結果。
![]()
![]()
圖 2: 在智能體任務(上) 以及視覺推理任務(下)上的主要實驗結果:世界模型帶來的動作影響前瞻,就算是百分百精準的,也并不能如期的幫助智能體提升能力。
發現一:世界模型帶來的增強并不可靠,很多時候反而會拖后腿
文章對比了正常模式和原始模式,并發現在智能體任務中,被測模型在引入智能體的前瞻信號后,并沒有有效的對其進行利用,反而是將其當作了噪聲,從而使得平均表現甚至更差。這并不是前瞻信號不準確造成的:因為在智能體任務中,前瞻信號來自模擬器真實的直接模擬,這個返回結果一定是百分百準確的,但是被測智能體始終還是無法有效對其進行理解。
在視覺推理任務中,作者也發現了類似的現象:模型在利用前瞻信號后提升很小,幾乎可以忽略不計。這些所有結果都在挑戰著「世界模型都應該能天然賦能智能體行動」的直覺,也提醒著我們在目前智能體和世界模型分開訓練的范式下,二者的磨合還并不夠完善。
![]()
圖 3: 在不同任務上模型調用世界模型的平均次數:大部分模型很多時候并不愿意調用世界模型進行前瞻,而更相信自身推理。
發現二:被測模型往往根本不愿意調用世界模型進行前瞻
文章還額外統計了世界模型在每個任務中平均被調用的次數。統計完才發現,在正常模式下,很多模型去嘗試進行前瞻的意愿甚至都非常低,對于世界模型的調用率也整體偏低。
這個傾向在視覺推理任務上尤其明顯:很多模型家族對于世界模型前瞻的調用不足 0.1,GPT-5 更是一次調用都沒有,完全相信著自己的推理能力。但是從圖 2 的模型表現來看,其僅憑借自身的推理也并沒有達到接近滿分的程度。
這個結果也意味著,被測智能體并不是不會調用世界模型,很多時候只是單純的自信,不想調用外部信號來增強自身前瞻。大部分目前模型都缺乏著對于自身的清晰認知,不知道對于前瞻應當何時利用。
![]()
圖 4: 世界模型前瞻的調用對于不同模型的影響:好壞往往相互抵消。
發現三:不同模型家族的調用性格不同,但都不等于會用
文章還觀察到了一些有趣的模型家族間的差異:有的模型家族會更積極的調用前瞻信號,但收益不明顯,例如 Llama 系列模型便是如此。而就算在同一個模型家族中,往往小模型也會更愛調用世界模型提供的前瞻信號,而大模型往往更加自信,傾向于「我自己想就夠了」。這點比較符合直覺,因為小模型往往需要外部工具的調用來彌補自身能力的不足。這個現象往往被稱作Cognitive Offloading(認知負擔轉移)。
但是同時,從結果當中也不難看出,對于世界模型調用率高的也并不意味著表現就一定會上升,而調用率低的也并不意味著就更安全。就像圖 4 當中所展現的,世界模型對于目前智能體表現來說,功過往往相抵。
這一現象表明除了何時利用的問題,智能體目前還需要學會如何更好的將前瞻融入到推理中,即怎樣利用。
智能體與世界模型交互的關鍵在于前瞻治理
上述的所有發現都推動著研究人員進一步思考,智能體與世界模型的交互到底是哪里出現了問題。從何時利用,到怎樣利用,文章作者總結出了當前世界模型賦能智能體問題的根源:前瞻治理。
雖然結果都有點出乎意料,但是文章并非想表達這個范式是錯的或者世界模型的前瞻沒用。恰恰相反,如果整個智能體與世界模型交互的閉環每一步都能夠進行更好的前瞻治理,我們反而能幫助智能體更好的利用世界模型,從而對環境進行感知與學習。
文章對于前瞻治理給出了三個重要的方面,并拆開構建了詳細的類別框架:
- 第一階段:Foresight Formulation (問什么),即智能體側何時應當用到前瞻,以及在請求世界模型模擬時應當模擬什么的策略;
- 第二階段:Simulation Generation (模擬什么),即世界模型側在進行模擬時如何保證真實,高質量,能夠更有效的輔助智能體;
- 第三階段:Interpretation & Integration(怎么用),即智能體側在接收返回的前瞻信號后,如何有效對其利用,指導下一步行動。
![]()
圖 5: 模型能夠成功進行前瞻治理的原因分析。
成功的前瞻治理:三件事缺一不可
- Strategic Input(技巧性的前瞻請求策略):智能體要能想到該如何向世界模型發起請求,請求什么。在智能體任務中,這個請求往往就是下一步要執行的動作本身,可能沒有太多策略可言。但是在視覺推理任務中,策略就顯得尤其重要。例如任務在詢問相機視角是如何切換的時候,智能體便可以讓世界模型模擬視角向左轉,向右轉等,并進行比較,看哪個模擬更加符合現實,進而進行作答。這便是利用世界模型進行假設 - 驗證。當然還有更多的請求模式,需要智能體來進行學習和探索。
- Governance of Meaning(對于模擬結果的語義把握):在成功進行前瞻治理的測試案例中,作者發現智能體往往能夠準確把握模擬返回的精準內涵,例如從視覺信號當中得到模擬的動作是否能夠有效推進任務進度等等。這需要智能體模型提升自身對于視覺或者視頻信號的理解能力,也就是視覺智能體的基座能力。能把模擬當成驗證 / 消歧證據,而不是僅僅是解題思路的裱花。
- Governance of Action(對于后續動作的有效指導):智能體同時還需要穩定地把前瞻結果融入到下一步的行動策略,進而形成連貫思路軌跡,以達到最終目標。文章作者注意到很多時候智能體僅僅是把模擬結果當成思路的「裱花」和單純印證,而并非將前瞻信號利用為消歧的證據,這就導致智能體往往在「為了前瞻而前瞻」,而并沒有真正把前瞻到的影響轉化為行動上的指導。
![]()
圖 5: 模型前瞻治理失敗的原因分析
失敗的前瞻治理:常見崩壞模式
- Over Planning(過度重復):智能體往往重復對于世界模型相同的前瞻模擬請求,而并沒有真正去推進任務,這就導致了智能體變成仿佛「拖延癥患者」,直到用盡交互輪數也沒法有效的推進任務進度;
- Inefficient Tool Use(無效調用):即智能體的模擬請求本身含糊不清,沒能有效的告訴世界模型自己到底想要看到什么樣子的模擬或者影響;
- Confusion & Misinterpretation(模糊歧義):很多時候,因為智能體自身對于想要前瞻什么都沒表達清楚,世界模型的返回便會非常模糊存在歧義。而這樣的歧義在返回給智能體讓其進行下一步動作時,智能體會變得更加疑惑,從此陷入惡性循環。也就是說,在整個智能體以及世界模型交互的閉環中,錯誤和歧義會被不斷放大。
- Action Loops / Loss of Focus(推理失焦):智能體在利用前瞻信號時,行動往往前后震蕩,無法形成連貫有效的思路,或者跳出現在錯誤的想法。這便會導致智能體推理有時陷入死循環,或者干脆直接被前瞻信息誤導而跑題。
基于上述這些觀察,文章也點出了一個核心論斷:目前智能體與世界模型有效交互的主導瓶頸是前瞻治理的穩定性。這啟示著之后的研究除了可以做更大更強的智能體或世界模型,同時也需要從智能體的角度探索如何更好地做調度、校準、以及證據整合。
對智能體 + 世界模型熱潮的啟示
啟示一:比起單純把世界模型接進工具箱,智能體更需要先學會判斷「這一步值不值得前瞻」
從文章結果來看,很多智能體的問題出在并不是沒有世界模型可用,而是不知道什么時候該用、用了是否真的劃算。說到底,當前智能體缺少的是一套對于前瞻調用時機、收益與風險的基本判斷機制。只有先學會評估當前動作到底有沒有不確定性,前瞻能不能真正減少決策偏差,世界模型才不會只淪為一個擺設。
啟示二:世界模型真正要賦能智能體的應是能夠被當作證據使用的前瞻信號
文章里很多失敗,本質上都不是因為模型什么都沒看到,而是看到了以后也沒有把這些信息轉化成有效的判斷依據,最終仍然被主觀推理帶偏。這說明未來世界模型的輸出如果只是更長的狀態描述、更完整的生成畫面,未必就能真正幫到智能體。相比之下,哪些變量發生了變化、哪些差異最關鍵、哪些結論更值得相信,反而可能是更重要的智能體與世界模型間的接口形式。
啟示三:未來真正需要對齊的是智能體如何圍繞前瞻建立起穩定的治理能力
這篇工作最值得重視的一點正在于,它已經在盡量理想的條件下給了智能體一個足夠可靠的模擬器,但結果依然說明,問題并不會因為模擬更準就自動消失。比起繼續單純追求更強大的模型,后續研究或許更需要回答的問題是智能體怎樣提出更好的前瞻請求,怎樣理解返回結果,又怎樣把這些結果真正轉化為下一步行動。換句話說,這點出了真正需要補上的不只是模擬能力,而是圍繞前瞻展開的整套治理能力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.