![]()
通義千問 × 港中文聯合發布OccuBench,首次用"語言世界模型"系統評測AI Agent的真實職業能力。
GPT-5.2能寫代碼、能刷網頁、能聊天。但如果讓它去做急診分診呢?或者管核電站報警、處理海關報關呢?
答案是不知道,因為根本沒法測。
WebArena測網頁操作,SWE-bench測代碼修復,OSWorld測桌面任務。這些基準加在一起,覆蓋的也不過是瀏覽器、代碼編輯器、操作系統這幾個領域。而真實世界中絕大多數高價值職業工作,壓根沒有可以用來測試的公開環境:急診室沒有開源API,核電站不會給你搭沙箱,海關系統更不可能開放權限。
01
核心思路:讓大模型來模擬環境
通義千問團隊(Qwen Team)和香港中文大學的研究者想了個辦法:既然沒有真實環境,那就讓大模型模擬一個。
給LLM一份環境配置(任務場景描述、工具定義和初始狀態),它就能變成一個有狀態的、可交互的模擬環境。研究者將其稱為語言世界模型(Language World Model, LWM)。
舉個例子:你告訴LLM "你現在是一個急診科信息系統,有3個檢查室、5個候診患者,支持分診、轉運、下醫囑等操作",它就真的能扮演這個系統, 根據Agent的每一步操作,維護內部狀態并返回合理的響應。
通過這樣做,環境的構建從工程問題變成了配置問題,不用寫后端代碼,不用搭基礎設施,只要LLM能理解這個領域就行。
基于這個思路,研究者構建了OccuBench,一個覆蓋100個職業場景、10大行業、65個細分領域、382個評測實例的Agent評測基準。Bench當中的任務平均包含5.5個專業工具,需要Agent調用約16.2次工具才能完成。
![]()
02
不只是模擬,還能注入故障
真實生產環境里,API會超時,數據會截斷,服務會降級,這些都是常態。但現有的Agent評測基本都是在理想環境下跑的。
基于LWM的agent 評測有一個獨特優勢:環境行為完全由提示詞控制。只需要修改幾句提示詞,就能精確注入各種故障:
![]()
所有故障都是暫態的,重試就能恢復。關鍵在于Agent能不能意識到出了問題,然后主動重試。這考驗了agent的自主性,影響了agent能否在沒有人工干預的情況下獨立完成長程任務。
03
15個模型綜合評價,幾個值得注意的結果
研究者評測了15個前沿模型,覆蓋8大模型家族:GPT-5.2、Claude全系列(4 / 4.5 / 4.6,含Opus和Sonnet)、Gemini 3.1 Pro / Flash-Lite、DeepSeek V3.2、Kimi K2.5、MiniMax M2.7、GLM-5、Qwen 3.5 Plus / Flash。
▎發現一:沒有全能選手
GPT-5.2以總分79.6%排名第一,在科研領域更是高達94%。但看電商消費?只有67%,被Qwen 3.5 Plus(81%)甩開14個百分點。
Gemini 3.1 Pro在教育領域以84%拿下第一,Claude Opus 4.6在交通運輸以77%稱王,Qwen 3.5 Plus則在醫療健康和電商消費雙雙拿到81%的行業最高分。
每個模型都有自己擅長和不擅長的行業。這啟示我們,在實際生產中,選Agent不能只看總分,還得看你的具體場景。
![]()
▎發現二:隱式故障比顯式故障難對付得多
顯式故障(API報錯、超時)相對好處理, Agent看到報錯,知道該重試就行了。
隱式故障就不一樣了。在干凈環境下,模型平均得分67.5%。遇到顯式故障掉到62.6%,遇到隱式故障則降到53.4%,比顯式故障低了9.2個百分點。拿Claude Opus 4.6舉例:顯式故障下只掉了3.4%(71.5%→68.1%),但隱式故障下直接掉了17.6%(71.5%→53.9%)。原因其實也很簡單:數據截斷了,但返回格式完全正確,沒有報錯信號,Agent不知道自己拿到的數據是殘缺的。
9個測試模型中,有4個在隱式故障(E2)下的表現甚至比混合故障(E3)更差, 隱式故障比顯式+隱式一起來還難對付。
![]()
▎發現三:Scaling定律依然有效
研究者們還發現,更大的模型、更新的版本、更深的思考,在OccuBench上全部帶來了穩定提升:
模型規模:Gemini Pro比Flash-Lite高11.0%,Qwen Plus比Flash高10.2%
代際迭代:Claude Opus從v4到v4.6,總提升10.2個百分點(61.3%→71.5%)
推理深度:GPT-5.2關掉推理只有54.7%,開到最高推理強度則達到了82.2%的分數,差了27.5個百分點
![]()
![]()
![]()
▎發現四:做Agent厲害 ≠ 當環境模擬器靠譜
研究者還做了一個交叉實驗:讓不同模型分別充當Agent和環境模擬器,看結果會怎么變。
GPT-5.2當Agent是第一名(79.6%),但當它反過來充當環境模擬器時, 所有Agent的平均分只剩29.3%,還不到用Gemini Flash當模擬器時(67.9%)的一半。
研究者扒了失敗案例,發現GPT-5.2當模擬器時存在三種典型問題:
狀態虛構:急診分診任務中,憑空多出兩個不存在的檢查室,Agent被誤導選錯了房間
實體遺漏:工單派發任務中,把關鍵的數據庫專家從名冊里吞掉了,Agent無人可派
規則發明:退貨任務中,自己編了一條 "退貨窗口已過期" 的規則,但是任務里根本沒這條限制
相比之下,Qwen 3.5 Plus作為模擬器與Gemini Flash的排名的一致性達到了85.7%(28對成對排名比較中,24對完全相同),前三名完全吻合。
這啟示我們,做agent和做環境模擬器,看起來是兩種不太一樣的能力。這個結果對所有用LLM模擬環境來做評測/訓練的方案來說,都值得參考。
04
三個具體案例
▎案例一:末端配送: 你會先充電嗎?
任務:找到編號最大的醫療包裹MED-615,送到指定地址,全程電池不能低于15%。
Claude Opus 4.6:查庫存→找到MED-615→看了眼電量28%,覺得不夠→先充滿電→出發,到達時還剩82%→送達 ->Success
DeepSeek V3.2:查庫存→找到MED-615→直接就走了→到達時電量12.5%→違反15%安全線 ->Fail
它們的區別就在于出發前有沒有看一眼電量夠不夠, 有沒有時刻牢記問題中的約束。
▎案例二:房產估值: 你能發現數據被截斷了嗎?
任務:評估一棟15個單元的物業,計算DSCR(償債覆蓋率)是否達到1.20x的貸款門檻。環境悄悄只返回了2個單元的數據,沒有任何報錯。
Claude Opus 4.6:“等等,15個單元怎么只返回了2個?”→重新請求→拿到完整數據→算出DSCR 1.19x,不達標 ->Success
Kimi K2.5:也重試了一次,但故障還在→直接假設15個單元都跟這2個一樣→算出1.72x,達標→實際上這棟樓根本不合格 ->Fail
就因為數據截斷,兩個模型得出了完全相反的財務結論。放在真實金融場景里,這種錯誤的代價是很大的!
▎案例三:公交調度: 故障面前,誰能堅持到底?
任務:在顯式故障(E1)環境下恢復一條公交線路的時刻表。
Claude Opus 4.6:12步操作中遇到了4次錯誤(超時、500),每次都堅持重試→最終完成全部調度 ->Success
Kimi K2.5:第一次遇到錯誤就停了→只完成了2步操作→任務失敗 ->Fail
同樣的故障率,一個堅持了12步走完了,另一個第2步就放棄了。
05
關于OccuBench
OccuBench覆蓋10大行業: 農業與環境、商務與企業、電商與消費、教育與文化、醫療與生命科學、工業與工程、公共服務與治理、科學與研究、技術與IT、交通與物流。從行業難度來看,商務與企業(70.1%)和公共服務(69.4%)相對容易,而交通與物流(56.2%)和教育與文化(57.6%)是最具挑戰性的行業。
OccuBench完整開源:382個評測任務 + 100個場景的環境配置 + 全部參考實現代碼。
論文:https://arxiv.org/abs/2604.10866
項目主頁:https://gregxmhu.github.io/OccuBench-website/
代碼:https://github.com/GregxmHu/OccuBench
數據:https://huggingface.co/datasets/gregH/OccuBench
![]()
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.