網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

走出MMLU的高分幻覺：AI Agent的「斯坦利時刻」與職場生存法則

2026-02-12 14:25:35　來源: ScienceAI

河北舉報

分享至

作者：論文團隊

編輯丨ScienceAI

序章：穿越數(shù)字世界的「莫哈韋沙漠」

把時鐘撥回 2005 年，內(nèi)華達州的莫哈韋沙漠。

那是美國國防部高級研究計劃局（DARPA）舉辦的無人駕駛挑戰(zhàn)賽現(xiàn)場。不同于平整的封閉賽道，DARPA 給出的考題殘酷而簡單：沒有高精地圖輔助，沒有人類遠程接管，車輛必須依靠自身的感知決策系統(tǒng)，穿越數(shù)百公里的荒漠。

最初的嘗試是慘烈的，無數(shù)車輛在起步后不久就撞向巖石、陷入溝壑。直到一輛名為「斯坦利（Stanley）」的賽車，依靠在非結(jié)構(gòu)化環(huán)境中的自主決策能力沖過終點。那一刻，被公認為自動駕駛的「斯坦利時刻」——它證明了機器智能的價值不在于實驗室里的理想?yún)?shù)，而在于能在充滿未知的物理世界中「活下來」并完成任務(wù)。

今天，在通往通用人工智能（AGI）的道路上，我們正站在這一時刻的數(shù)字鏡像前。

在多模態(tài)大模型（MLLMs）狂飆突進的今天，MMLU、GSM8K 等基準(zhǔn)測試的分數(shù)每隔幾個月就被刷新。然而，企業(yè)和開發(fā)者卻面臨著一個共同的困惑：為什么這些在考卷上接近滿分的 AI，一旦放入真實的業(yè)務(wù)流程中，往往就變成了需要人類時刻照看的「巨嬰」？

繁榮下的隱憂：高分低能的「執(zhí)行鴻溝」

現(xiàn)有的 Agent 評測大多像是在「無菌室」里做題：環(huán)境是靜態(tài)的，任務(wù)是單一的，信息是全知的。我們正在用測試「大腦」的考卷，來評估「手腳」的靈活性。

近日，來自復(fù)旦大學(xué)、上海 AI Lab、浙江大學(xué)等機構(gòu)的研究團隊發(fā)表了論文。研究團隊指出，現(xiàn)在的 Agent 之所以難用于實際生產(chǎn)環(huán)境，是因為它們存在顯著的「執(zhí)行鴻溝」：

現(xiàn)有的測試benchmark是「全知視角」的（Oracle-based）：我們給模型完美的上下文，要求它輸出完美的答案。
真實的職場是「迷霧模式」的（Partially Observable）：任務(wù)說明書里可能沒有密碼，需求是模糊的，環(huán)境里充滿了老板突然交辦的任務(wù) B 和臨時插進來的會議。

為了打破這種「高分低能」的幻覺，研究團隊造了一個高度仿真的「職場模擬器」——Trainee-Bench。他們拉來了包括 GPT-5.1、Gemini-3-Flash、Claude-4-Sonnet 在內(nèi)的頂尖模型，進行了一場殘酷的「入職第一天」壓力測試。

Trainee-Bench：AI 實習(xí)生的「受難日」

Trainee-Bench 不再關(guān)注單一能力的上限，而是考察 Agent 在復(fù)雜動態(tài)環(huán)境中的「生存策略」。它模擬了一個新員工入職時的真實困境——缺乏「上帝視角」的輔助，一切靠自己。研究從三個硬核的技術(shù)維度，重新定義了 Agent 的能力邊界：

維度一：從「線性推理」到「動態(tài)調(diào)度」

職場充滿了異步性。當(dāng) Agent 正在處理一份報表時，突然收到緊急郵件。它能否展現(xiàn)出類似操作系統(tǒng)的調(diào)度能力？

優(yōu)先級判斷：能分清輕重緩急嗎？
掛起與恢復(fù)：處理完緊急任務(wù)后，能無損地回到剛才的進度嗎？

維度二：從「全知地圖」到「主動探索」

在真實環(huán)境中，信息往往是碎片化且隱蔽的。Trainee-Bench 構(gòu)建了一個「無圖（Mapless）」環(huán)境，Agent 不會被告知「文件在哪里」或「工具怎么用」。它必須像人類實習(xí)生一樣，通過、探測目錄，自主閱讀文檔理解參數(shù)，并在探索中逐步構(gòu)建起對環(huán)境的「認知地圖」。

grep

維度三：從「單次完成」到「持續(xù)學(xué)習(xí)」

一個合格的數(shù)字員工，必須具備「長記性」的能力。Trainee-Bench 設(shè)置了長程的時間跨度，考察 Agent 能否利用前一天的環(huán)境反饋和執(zhí)行歷史，在第二天避開同樣的坑。

核心解密：如何構(gòu)建一個「無限流」職場？

Trainee-Bench 的構(gòu)造流程精妙地模擬了現(xiàn)實世界的復(fù)雜性。整個環(huán)境的構(gòu)建分為三個關(guān)鍵步驟：

第一步：拒絕死記硬背的「任務(wù)實例化」：為了防止Agent「背題」或過度擬合，Trainee-Bench 引入了元任務(wù)（Meta-Task）的概念。團隊精心設(shè)計了 181 個元任務(wù)規(guī)則，這些元任務(wù)規(guī)則就像 Rogue-like 游戲一樣，通過隨機種子生成不同的 NPC 性格、文件路徑、數(shù)據(jù)分布等。此外，這些元任務(wù)會刻意隱藏部分關(guān)鍵線索，讓 agent 必須主動探索環(huán)境和向外部尋求幫助才能繼續(xù)推進任務(wù)。
第二步：還原真實的「動態(tài)復(fù)合場景」：真實工作從來不是單線程的。Trainee-Bench 將多個獨立的任務(wù)實例，按照時間軸編排進一個動態(tài)復(fù)合場景中。這些任務(wù)具有不同的優(yōu)先級，也可能存在先后依賴，考驗智能體的多任務(wù)規(guī)劃能力。
第三步：像導(dǎo)師一樣的「自動驗證機制」：系統(tǒng)不僅看最終結(jié)果，更關(guān)注過程。通過預(yù)埋的 Checkpoints（檢查點），環(huán)境能夠自動評估 Agent 每一步做對了沒有，并給出細粒度的自然語言反饋。

評測結(jié)果：頂尖模型的集體「滑鐵盧」

研究團隊測試了包括Gemini-3-Flash、GPT-5.1、GPT-4o、Claude-4-Sonnet等在內(nèi)的 7 款頂尖模型，測試結(jié)果有些「扎心」。即便面對目前地表最強的 7 款模型，Trainee-Bench 依然像是一道難以逾越的墻。

洞察一：成功率的「天花板」極低

在綜合測試中，表現(xiàn)最好的Gemini-3-Flash成功率也僅為35%，而備受期待的GPT-5.1和Claude-4-Sonnet成功率僅在23%左右。這說明，面對非結(jié)構(gòu)化的動態(tài)職場，SOTA 模型離「獨立上崗」還有極遠的距離。

洞察二：任務(wù)一多，立刻「顧頭不顧尾」

實驗發(fā)現(xiàn)，當(dāng)并發(fā)任務(wù)數(shù)量從2 個增加到 6 個時，除了 Claude-4 和 GPT-5.1 表現(xiàn)相對平穩(wěn)外，其他模型的性能都出現(xiàn)了斷崖式下降。多線程工作的調(diào)度能力，依然是 AI 邁向高級助理的致命軟肋。

洞察三：最扎心的發(fā)現(xiàn)：Agent 竟然「記吃不記打」？

Trainee-Bench最獨特的設(shè)計之一是引入了「持續(xù)學(xué)習(xí)」的評估。研究者讓 Agent 先工作一天（Day 1），根據(jù)反饋總結(jié)經(jīng)驗，讓智能體在Day 2 再次執(zhí)行和第一天類似的任務(wù)。理論上，有了經(jīng)驗總結(jié)，第二天應(yīng)該干得更好對吧？

結(jié)果恰恰相反！結(jié)果顯示：使用了經(jīng)驗后，Agent 的整體表現(xiàn)反而下降了（得分從 0.42 降至 0.36）。原因在于，當(dāng)前大模型總結(jié)的「經(jīng)驗」往往非常膚淺或過度擬合。面對動態(tài)變化的新環(huán)境，生搬硬套昨天的教條反而成了執(zhí)行的累贅。

智能體商業(yè)價值的重構(gòu)：用「人類時間」丈量技術(shù)

技術(shù)范式的轉(zhuǎn)移，必然伴隨著商業(yè)邏輯的重構(gòu)。AI Agent 的核心價值不在于算力消耗，而在于「解放」人類的時間。

在移動互聯(lián)網(wǎng)時代，商業(yè)的核心是「注意力經(jīng)濟」，APP 恨不得占有你每一分鐘。而 AI Agent 時代的邏輯恰恰相反：Agent 本質(zhì)上是 "Service-as-Software"（服務(wù)即軟件），它的核心價值在于「解放」人類的時間。

本篇論文提出的測試結(jié)果，實際上指向了一個可以直接與投資回報率（ROI）掛鉤的終極指標(biāo)：等價人類時間（Equivalent Human Time），即：

{價值} = {人類自主完成時間} - {Agent 耗時} + {人類監(jiān)工與修正時間}

如果一個 Agent 需要人類頻繁介入去糾錯、去喂數(shù)據(jù)，該指標(biāo)可能為負——這意味著它不僅沒有生產(chǎn)力，反而在浪費算力。只有當(dāng) Agent 在「探索、調(diào)度、學(xué)習(xí)」三個環(huán)節(jié)實現(xiàn)零接管，它才真正具備了商業(yè)上的「長青」價值。

《The Agent's First Day》的實驗數(shù)據(jù)給出了一個令人振奮的側(cè)面：當(dāng)人類在關(guān)鍵時刻給出少量指導(dǎo)(Human Guidance)時，GPT-4o 的得分能從0.24飆升至0.83。這證明了：模型本身的推理能力其實已經(jīng)足夠強，它真正匱乏的是像人類一樣的主動探索意識和對環(huán)境的敏銳感知。

結(jié)語：尋找數(shù)字職場的「斯坦利」

20 年前，莫哈韋沙漠揚起的沙塵，開啟了物理世界自動駕駛的黃金時代。

如今，《The Agent's First Day》在數(shù)字世界里構(gòu)建的這座「職場迷宮」，或許正是 AI Agent 走向 AGI 所必須跨越的荒漠。它向行業(yè)揭示了一個樸素的洞察：停止單純卷模型的參數(shù)，開始卷 Agent 的自主學(xué)習(xí)性。

因為，只有那些能夠獨自處理復(fù)雜任務(wù)、讓用戶真正敢于放手、在「無圖」環(huán)境中生存下來的 Agent，才能在未來的職場中獲得一張正式的工牌。

想要挑戰(zhàn)一下你的 Agent 嗎？Trainee-Bench 的數(shù)據(jù)與代碼已正式開源，歡迎全球開發(fā)者帶著Agent前來應(yīng)聘！

論文標(biāo)題：The Agent’s First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios
項目地址：https://github.com/KnowledgeXLab/EvoEnv
arXiv 地址:https://arxiv.org/abs/2601.08173

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.