<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      走出MMLU的高分幻覺:AI Agent的「斯坦利時刻」與職場生存法則

      0
      分享至



      作者:論文團隊

      編輯丨ScienceAI

      序章:穿越數(shù)字世界的「莫哈韋沙漠」

      把時鐘撥回 2005 年,內(nèi)華達州的莫哈韋沙漠。

      那是美國國防部高級研究計劃局(DARPA)舉辦的無人駕駛挑戰(zhàn)賽現(xiàn)場。不同于平整的封閉賽道,DARPA 給出的考題殘酷而簡單:沒有高精地圖輔助,沒有人類遠程接管,車輛必須依靠自身的感知決策系統(tǒng),穿越數(shù)百公里的荒漠。

      最初的嘗試是慘烈的,無數(shù)車輛在起步后不久就撞向巖石、陷入溝壑。直到一輛名為「斯坦利(Stanley)」的賽車,依靠在非結(jié)構(gòu)化環(huán)境中的自主決策能力沖過終點。那一刻,被公認為自動駕駛的「斯坦利時刻」——它證明了機器智能的價值不在于實驗室里的理想?yún)?shù),而在于能在充滿未知的物理世界中「活下來」并完成任務(wù)。

      今天,在通往通用人工智能(AGI)的道路上,我們正站在這一時刻的數(shù)字鏡像前。

      在多模態(tài)大模型(MLLMs)狂飆突進的今天,MMLU、GSM8K 等基準(zhǔn)測試的分數(shù)每隔幾個月就被刷新。然而,企業(yè)和開發(fā)者卻面臨著一個共同的困惑:為什么這些在考卷上接近滿分的 AI,一旦放入真實的業(yè)務(wù)流程中,往往就變成了需要人類時刻照看的「巨嬰」?

      繁榮下的隱憂:高分低能的「執(zhí)行鴻溝」

      現(xiàn)有的 Agent 評測大多像是在「無菌室」里做題:環(huán)境是靜態(tài)的,任務(wù)是單一的,信息是全知的。我們正在用測試「大腦」的考卷,來評估「手腳」的靈活性。

      近日,來自復(fù)旦大學(xué)、上海 AI Lab、浙江大學(xué)等機構(gòu)的研究團隊發(fā)表了論文 。研究團隊指出,現(xiàn)在的 Agent 之所以難用于實際生產(chǎn)環(huán)境,是因為它們存在顯著的「執(zhí)行鴻溝」

      • 現(xiàn)有的測試benchmark是「全知視角」的(Oracle-based):我們給模型完美的上下文,要求它輸出完美的答案。
      • 真實的職場是「迷霧模式」的(Partially Observable):任務(wù)說明書里可能沒有密碼,需求是模糊的,環(huán)境里充滿了老板突然交辦的任務(wù) B 和臨時插進來的會議。

      為了打破這種「高分低能」的幻覺,研究團隊造了一個高度仿真的「職場模擬器」——Trainee-Bench。他們拉來了包括 GPT-5.1、Gemini-3-Flash、Claude-4-Sonnet 在內(nèi)的頂尖模型,進行了一場殘酷的「入職第一天」壓力測試。

      Trainee-Bench:AI 實習(xí)生的「受難日」

      Trainee-Bench 不再關(guān)注單一能力的上限,而是考察 Agent 在復(fù)雜動態(tài)環(huán)境中的「生存策略」。它模擬了一個新員工入職時的真實困境——缺乏「上帝視角」的輔助,一切靠自己。研究從三個硬核的技術(shù)維度,重新定義了 Agent 的能力邊界:

      維度一:從「線性推理」到「動態(tài)調(diào)度」

      職場充滿了異步性。當(dāng) Agent 正在處理一份報表時,突然收到緊急郵件。它能否展現(xiàn)出類似操作系統(tǒng)的調(diào)度能力?

      • 優(yōu)先級判斷:能分清輕重緩急嗎?
      • 掛起與恢復(fù):處理完緊急任務(wù)后,能無損地回到剛才的進度嗎?



      維度二:從「全知地圖」到「主動探索」

      在真實環(huán)境中,信息往往是碎片化且隱蔽的。Trainee-Bench 構(gòu)建了一個「無圖(Mapless)」環(huán)境,Agent 不會被告知「文件在哪里」或「工具怎么用」。它必須像人類實習(xí)生一樣,通過、探測目錄,自主閱讀文檔理解參數(shù),并在探索中逐步構(gòu)建起對環(huán)境的「認知地圖」。

      ls

      grep



      維度三:從「單次完成」到「持續(xù)學(xué)習(xí)」

      一個合格的數(shù)字員工,必須具備「長記性」的能力。Trainee-Bench 設(shè)置了長程的時間跨度,考察 Agent 能否利用前一天的環(huán)境反饋和執(zhí)行歷史,在第二天避開同樣的坑。



      核心解密:如何構(gòu)建一個「無限流」職場?

      Trainee-Bench 的構(gòu)造流程精妙地模擬了現(xiàn)實世界的復(fù)雜性。整個環(huán)境的構(gòu)建分為三個關(guān)鍵步驟:

      • 第一步:拒絕死記硬背的「任務(wù)實例化」:為了防止Agent「背題」或過度擬合,Trainee-Bench 引入了 元任務(wù)(Meta-Task) 的概念。團隊精心設(shè)計了 181 個元任務(wù)規(guī)則,這些元任務(wù)規(guī)則就像 Rogue-like 游戲一樣,通過隨機種子生成不同的 NPC 性格、文件路徑、數(shù)據(jù)分布等。此外,這些元任務(wù)會刻意隱藏部分關(guān)鍵線索,讓 agent 必須主動探索環(huán)境和向外部尋求幫助才能繼續(xù)推進任務(wù)。
      • 第二步:還原真實的「動態(tài)復(fù)合場景」:真實工作從來不是單線程的。Trainee-Bench 將多個獨立的任務(wù)實例,按照時間軸編排進一個動態(tài)復(fù)合場景中。這些任務(wù)具有不同的優(yōu)先級,也可能存在先后依賴,考驗 智能體的多任務(wù)規(guī)劃能力。
      • 第三步:像導(dǎo)師一樣的「自動驗證機制」:系統(tǒng)不僅看最終結(jié)果,更關(guān)注過程。通過預(yù)埋的 Checkpoints(檢查點),環(huán)境能夠自動評估 Agent 每一步做對了沒有,并給出細粒度的自然語言反饋。



      評測結(jié)果:頂尖模型的集體「滑鐵盧」

      研究團隊測試了包括Gemini-3-Flash、GPT-5.1、GPT-4o、Claude-4-Sonnet等在內(nèi)的 7 款頂尖模型,測試結(jié)果有些「扎心」。即便面對目前地表最強的 7 款模型,Trainee-Bench 依然像是一道難以逾越的墻。

      洞察一:成功率的「天花板」極低

      在綜合測試中,表現(xiàn)最好的Gemini-3-Flash成功率也僅為35%,而備受期待的GPT-5.1Claude-4-Sonnet成功率僅在23%左右。這說明,面對非結(jié)構(gòu)化的動態(tài)職場,SOTA 模型離「獨立上崗」還有極遠的距離。



      洞察二:任務(wù)一多,立刻「顧頭不顧尾」

      實驗發(fā)現(xiàn),當(dāng)并發(fā)任務(wù)數(shù)量從2 個增加到 6 個時,除了 Claude-4 和 GPT-5.1 表現(xiàn)相對平穩(wěn)外,其他模型的性能都出現(xiàn)了斷崖式下降。多線程工作的調(diào)度能力,依然是 AI 邁向高級助理的致命軟肋。



      洞察三:最扎心的發(fā)現(xiàn):Agent 竟然「記吃不記打」?

      Trainee-Bench最獨特的設(shè)計之一是引入了「持續(xù)學(xué)習(xí)」的評估。研究者讓 Agent 先工作一天(Day 1),根據(jù)反饋總結(jié)經(jīng)驗,讓智能體在Day 2 再次執(zhí)行和第一天類似的任務(wù)。理論上,有了經(jīng)驗總結(jié),第二天應(yīng)該干得更好對吧?

      結(jié)果恰恰相反!結(jié)果顯示:使用了經(jīng)驗后,Agent 的整體表現(xiàn)反而下降了(得分從 0.42 降至 0.36)。原因在于,當(dāng)前大模型總結(jié)的「經(jīng)驗」往往非常膚淺或過度擬合。面對動態(tài)變化的新環(huán)境,生搬硬套昨天的教條反而成了執(zhí)行的累贅。



      智能體商業(yè)價值的重構(gòu):用「人類時間」丈量技術(shù)

      技術(shù)范式的轉(zhuǎn)移,必然伴隨著商業(yè)邏輯的重構(gòu)。AI Agent 的核心價值不在于算力消耗,而在于「解放」人類的時間。

      在移動互聯(lián)網(wǎng)時代,商業(yè)的核心是「注意力經(jīng)濟APP 恨不得占有你每一分鐘。而 AI Agent 時代的邏輯恰恰相反:Agent 本質(zhì)上是 "Service-as-Software"(服務(wù)即軟件),它的核心價值在于「解放」人類的時間。

      本篇論文提出的測試結(jié)果,實際上指向了一個可以直接與 投資回報率(ROI)掛鉤的終極指標(biāo):等價人類時間(Equivalent Human Time),即:

      {價值} = {人類自主完成時間} - {Agent 耗時} + {人類監(jiān)工與修正時間}

      如果一個 Agent 需要人類頻繁介入去糾錯、去喂數(shù)據(jù),該指標(biāo)可能為負——這意味著它不僅沒有生產(chǎn)力,反而在浪費算力。只有當(dāng) Agent 在「探索、調(diào)度、學(xué)習(xí)」三個環(huán)節(jié)實現(xiàn)零接管,它才真正具備了商業(yè)上的「長青」價值。

      《The Agent's First Day》的實驗數(shù)據(jù)給出了一個令人振奮的側(cè)面:當(dāng)人類在關(guān)鍵時刻給出少量指導(dǎo)(Human Guidance)時,GPT-4o 的得分能從0.24飆升至0.83。這證明了:模型本身的推理能力其實已經(jīng)足夠強,它真正匱乏的是像人類一樣的主動探索意識和對環(huán)境的敏銳感知。



      結(jié)語:尋找數(shù)字職場的「斯坦利」

      20 年前,莫哈韋沙漠揚起的沙塵,開啟了物理世界自動駕駛的黃金時代。

      如今,《The Agent's First Day》在數(shù)字世界里構(gòu)建的這座「職場迷宮」,或許正是 AI Agent 走向 AGI 所必須跨越的荒漠。它向行業(yè)揭示了一個樸素的洞察:停止單純卷模型的參數(shù),開始卷 Agent 的自主學(xué)習(xí)性。

      因為,只有那些能夠獨自處理復(fù)雜任務(wù)、讓用戶真正敢于放手、在「無圖」環(huán)境中生存下來的 Agent,才能在未來的職場中獲得一張正式的工牌。

      想要挑戰(zhàn)一下你的 Agent 嗎?Trainee-Bench 的數(shù)據(jù)與代碼已正式開源,歡迎全球開發(fā)者帶著Agent前來應(yīng)聘!

      • 論文標(biāo)題:The Agent’s First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios
      • 項目地址:https://github.com/KnowledgeXLab/EvoEnv
      • arXiv 地址:https://arxiv.org/abs/2601.08173

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      俄總統(tǒng)新聞秘書:普京訪華行程充實、內(nèi)容豐富、成果豐碩

      俄總統(tǒng)新聞秘書:普京訪華行程充實、內(nèi)容豐富、成果豐碩

      新京報
      2026-05-21 21:16:08
      “孩子丑成那種,還天天曬”,寶媽朋友圈曬娃,被十年好友罵哭

      “孩子丑成那種,還天天曬”,寶媽朋友圈曬娃,被十年好友罵哭

      菁媽育兒
      2026-05-19 17:37:28
      人到中年,能“還在上班”已是高配!網(wǎng)友:我過年回家都穿工作服

      人到中年,能“還在上班”已是高配!網(wǎng)友:我過年回家都穿工作服

      火山詩話
      2026-05-21 10:48:46
      英超奪冠后豪購開啟!阿爾特塔計劃斥資2.55億英鎊敲定三大強援

      英超奪冠后豪購開啟!阿爾特塔計劃斥資2.55億英鎊敲定三大強援

      夜白侃球
      2026-05-21 21:41:00
      上海交大調(diào)查541名冠心病人士,吃驚發(fā)現(xiàn):患冠心病的人,有7大共性

      上海交大調(diào)查541名冠心病人士,吃驚發(fā)現(xiàn):患冠心病的人,有7大共性

      路醫(yī)生健康科普
      2026-05-20 17:58:55
      翁帆:楊振寧逝世后,繼子繼女與她不來往,認真讀一讀

      翁帆:楊振寧逝世后,繼子繼女與她不來往,認真讀一讀

      Thurman在昆明
      2026-05-21 19:16:52
      當(dāng)你見過的婚姻越多,就會發(fā)現(xiàn):一個家庭,如果爸爸掙不了大錢,只要媽媽不和爸爸鬧,爸爸不偷不賭不懶,對家庭和孩子負責(zé),日子就不會差

      當(dāng)你見過的婚姻越多,就會發(fā)現(xiàn):一個家庭,如果爸爸掙不了大錢,只要媽媽不和爸爸鬧,爸爸不偷不賭不懶,對家庭和孩子負責(zé),日子就不會差

      背包旅行
      2026-05-21 14:12:05
      小米首款耳夾式耳機發(fā)布:輕至5.5g 首銷到手價799元

      小米首款耳夾式耳機發(fā)布:輕至5.5g 首銷到手價799元

      快科技
      2026-05-21 19:36:29
      開國大將蕭勁光離世,六子竟拼出3將2副主席1副部長,他究竟留下了什么隱藏王牌?

      開國大將蕭勁光離世,六子竟拼出3將2副主席1副部長,他究竟留下了什么隱藏王牌?

      寄史言志
      2026-05-21 21:15:18
      韋國清之子公開說:網(wǎng)上有人說韋國清阻礙粟裕平反,這不符合事實

      韋國清之子公開說:網(wǎng)上有人說韋國清阻礙粟裕平反,這不符合事實

      帝哥說史
      2026-05-21 21:10:47
      晚年張學(xué)良推翻五十四年驚天口供:當(dāng)年拿槍逼蔣介石就范的真正狠角色其實是楊虎城?

      晚年張學(xué)良推翻五十四年驚天口供:當(dāng)年拿槍逼蔣介石就范的真正狠角色其實是楊虎城?

      歷史回憶室
      2026-05-17 16:32:17
      特朗普訪華結(jié)束3天內(nèi),美國再提301調(diào)查,9年前戲碼重演

      特朗普訪華結(jié)束3天內(nèi),美國再提301調(diào)查,9年前戲碼重演

      落梅如雪亂飛
      2026-05-21 20:59:13
      美國代表離開中國第三天,就要對中國使陰招,跟在北京時判若兩人

      美國代表離開中國第三天,就要對中國使陰招,跟在北京時判若兩人

      老王的視角
      2026-05-20 16:11:54
      善惡有報,移居英國僅2年,57歲吳秀波再迎噩耗,步入李易峰后塵

      善惡有報,移居英國僅2年,57歲吳秀波再迎噩耗,步入李易峰后塵

      有范又有料
      2025-12-17 14:54:06
      男人坐牢20年出獄,去派出所重新辦身份證,結(jié)果警察看到他淚目了

      男人坐牢20年出獄,去派出所重新辦身份證,結(jié)果警察看到他淚目了

      白云故事
      2025-04-12 17:55:08
      曝馬刺5年3.26億美金續(xù)約,文班亞馬新合同將破紀(jì)錄

      曝馬刺5年3.26億美金續(xù)約,文班亞馬新合同將破紀(jì)錄

      體育妞世界
      2026-05-21 09:52:29
      貝索斯批評紐約市長:制造反派解決不了問題

      貝索斯批評紐約市長:制造反派解決不了問題

      碳基打工人
      2026-05-21 03:14:09
      14歲開演唱會,23歲一首歌狂賺2億,29歲成教授,他如今怎樣了?

      14歲開演唱會,23歲一首歌狂賺2億,29歲成教授,他如今怎樣了?

      飄飄然的娛樂匯
      2026-05-18 19:45:05
      前TVB女星宣布懷上第二胎,與老公開心揭曉寶寶性別,曾與視帝拍拖5年

      前TVB女星宣布懷上第二胎,與老公開心揭曉寶寶性別,曾與視帝拍拖5年

      TVB劇評社
      2026-05-21 20:57:35
      泰勒·斯威夫特戴伊麗莎白·泰勒百萬珠寶,疑未婚夫所贈

      泰勒·斯威夫特戴伊麗莎白·泰勒百萬珠寶,疑未婚夫所贈

      淺遇時光
      2026-05-20 00:10:53
      2026-05-21 21:52:49
      ScienceAI incentive-icons
      ScienceAI
      關(guān)注人工智能與其他前沿技術(shù)
      1307文章數(shù) 227關(guān)注度
      往期回顧 全部

      科技要聞

      小米YU7 GT正式發(fā)布:售價38.99萬元

      頭條要聞

      中紀(jì)委連打三"虎":一人被指違規(guī)核發(fā)機動車號牌

      頭條要聞

      中紀(jì)委連打三"虎":一人被指違規(guī)核發(fā)機動車號牌

      體育要聞

      常住人口7000的小鎮(zhèn),擁有了一支德甲球隊

      娛樂要聞

      反轉(zhuǎn)!金秀賢與金賽綸未成年時交往不實

      財經(jīng)要聞

      潮水退去,裸泳的一定不止五糧液

      汽車要聞

      后驅(qū)+閃充+激光雷達 第三代元PLUS上市售11.99萬元起

      態(tài)度原創(chuàng)

      旅游
      游戲
      數(shù)碼
      親子
      軍事航空

      旅游要聞

      美麗中國行|灘涂變綠廊 群雁伴舟游——探訪信江生態(tài)走廊

      《房產(chǎn)達人2》櫻花DLC現(xiàn)已正式發(fā)售!

      數(shù)碼要聞

      小米米家中央空調(diào)強勁風(fēng)風(fēng)管機系列開售,國補價5524.2元起

      親子要聞

      家長如何快速判斷孩子脊柱是否有異常 | 科普一下

      軍事要聞

      伊朗警告:任何新襲擊將促使戰(zhàn)場擴大到中東以外

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: AV综合资源| 日韩av一区二区高清不卡| 女同一区| 免费黄色福利| 亚洲午夜精品一区二区三区| 不卡无码h在线观看| 69成人免费视频无码专区| 亚洲熟妇无码成人A片| 免费av网站亚洲| 人妻系列无码专区无码中出| 波多野结衣av无码| 亚洲字幕av一区二区三区四区| 在线欧美v日韩v国产精品v| 波多野结衣AV无码久久一区| 亚洲综合av一区二区三区| 国产精品人成在线观看| 朝鲜女人大白屁股ass| 亚洲AV无码乱码精品国产草莓| 靖边县| 97欧美精品系列一区二区| 国产精品xxx| 欧美亚洲国产激情一区二区| 国内精品久久久久久久久电影网| 69精品人人人人| 亚洲国产一区二区三区最新| 亚洲精品一区二区三区不卡| 综合无码一区二区三区| 久久riav一区二区| 狠狠色噜噜狠狠狠888777米奇| 日韩A| 最新香蕉97超级碰碰碰碰碰久| 国产成人一区二区三区别| 国产精品无码一区二区牛牛| 天天躁狠狠躁狠狠躁性色av| 陆丰市| 在线观看精品日本一区二| 亚洲中文字幕无码专区| 久久老子午夜精品无码| 国产黄网永久免费| www.xxxx中国视频| 国产91特黄特色A级毛片|