<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Agent評測的下半場:為什么需要一個「活的」Benchmark?

      0
      分享至


      新智元報道

      編輯:LRST

      【新智元導讀】Claw-Eval-Live提出「活的」benchmark概念,通過信號采集與任務篩選,確保評測內容緊跟企業實際痛點,而非固定不變的題庫。評測不僅關注結果,還追蹤執行過程,從數據調用到狀態變更,全面驗證Agent的真實能力。

      今天的AI Agent看起來越來越像「能干活的數字員工」了:能調 API、查數據庫、寫郵件、改代碼、排日程、做報表。但真正麻煩的問題不是它「會不會說」,而是兩件更現實的事:它到底有沒有真的做成任務;以及我們拿來測它的那些任務,是不是還代表當下真實世界最重要的workflow。

      Claw-Eval回答前者,Claw-Eval-Live回答后者。前者解決的是「怎么確認Agent真的做成了任務」,后者解決的是「benchmark里的題庫如何持續跟上現實需求」。這篇文章想講的,也正是這條連續升級的評測邏輯。某種意義上,這也是 Agent benchmark進入「下半場」的標志:不再只比較誰更會答題,而是比較誰更接近真實世界。


      論文鏈接:https://arxiv.org/abs/2604.28139


      論文鏈接:https://arxiv.org/pdf/2604.06132

      你確定Agent真的做了?

      在Claw-Eval之前,主流Agent評測的做法是:給Agent一個任務,看最終結果,判對錯。文件創建了?測試通過了?答案匹配了?那就算過。

      聽起來合理,但對于 Agent 來說,這樣的評測有兩個致命問題。

      第一,它只看結果,不看行動。模型交了一份漂亮報告,但它真的查了正確的數據源嗎?真的調了對的 API 嗎?還是只是「編」了一個看起來對的答案?近期研究已經表明,前沿模型會主動尋找評測捷徑,繞過預期的執行路徑直接滿足最終檢查。只看結果的評測,恰恰給了這種行為可乘之機。

      第二,它很難反映真實部署要求。一個真正可部署的 Agent,不僅要能把活干完,還要在干活的同時避免不該做的事,并且能在API超時、服務報錯的環境里穩定運行。換句話說,評測不能只看「能不能做出來」,還要看「是不是安全地做、穩健地做」。Claw-Eval 還進一步把多模態和多輪對話也納入統一評測框架,但它最關鍵的貢獻,首先是把Agent評測從「只看答案」推進到「看行動」。

      Claw-Eval

      讓Agent的執行過程變成可審計證據

      Claw-Eval包含300道人工驗證任務,覆蓋通用服務編排、多模態感知與生成、多輪專業對話三大群組,共定義了2,159個可獨立驗證的評分細則


      它的核心思路可以概括成一句話:讓Agent 的執行過程變成可審計證據。每次評測都在隔離環境中進行,分為 Setup、Execution、Judge 三個階段;在 Agent 運行時,容器里看不到評分腳本和參考答案。真正用于打分的,不只是最終輸出,而是三條獨立證據鏈:執行軌跡、服務端審計日志、以及執行后的環境快照。

      在這個基礎上,Claw-Eval 再把完成度、安全性、魯棒性和跨模態任務統一納入同一套評測框架。

      Claw-Eval 最關鍵的發現,其實非常直接:如果不看過程,Agent 評測會系統性「放水」。

      團隊做了一個嚴格對照實驗:讓一個 vanilla LLM judge 拿到完整對話記錄和評分腳本源碼,只缺服務端審計日志和環境快照。結果是,它仍然漏掉了44%的安全違規和13%的魯棒性問題。這意味著,對 Agent 來說,「只看結果」的評測方式不是不夠精細,而是會系統性高估模型。

      Claw-Eval當然還展示了更多東西,比如錯誤注入會顯著拉低可靠性(Pass^3最多暴跌24個百分點)、多模態和多輪對話能力并不存在統一冠軍。但對這篇文章來說,最重要的結論只有一個:Agent benchmark 不能只看答案,而要看行動。

      但當「怎么看」終于被厘清之后,另一個更現實的問題也浮現出來了:即便評測足夠可信,如果benchmark測的工作流本身已經慢慢偏離現實需求,那評得再準,也未必評在點子上。

      這正是Claw-Eval-Live想接著解決的問題。

      「評得準」還不夠

      benchmark也會過時

      從這里開始,問題不再只是「怎么評」,而是「評什么」。這也是Claw-Eval-Live真正切入的位置。

      Claw-Eval解決了「評分是否可信」的問題。但它和幾乎所有現有benchmark一樣,有一個更根本的局限:

      任務集合是固定的。

      300 道任務,發布那天就定住了。不管外面的工具生態怎么變、企業工作流的重心怎么遷移、用戶最想讓 Agent 自動化的事情從日報寫作變成了跨系統對賬——benchmark 里的任務分布不會跟著動。

      在傳統 NLP 評測里這不是大問題,「翻譯一段話」、「回答一個問題」這類任務形態相對穩定。但在 Agent 評測里,這個問題被急劇放大了。Agent 面對的不是抽象的語言任務,而是具體的工作流。而工作流一直在變——工具棧在迭代,企業痛點在遷移,某些自動化場景從無到有,另一些從核心變成邊緣。

      一個 benchmark 可以在技術上保持完全可復現,但它測的任務組合,可能正在悄悄偏離用戶此刻最想讓 Agent 干的事情。

      這種偏移不來自某道具體任務「過時」了,而來自任務混合比本身。半年前最熱的自動化需求和今天最熱的,很可能已經不是同一組東西了。

      這就是Claw-Eval-Live要解決的問題。

      「活的」benchmark到底長什么樣?

      聽到「live benchmark」,很多人的第一反應是:那不就每天都變,根本沒法比了嗎?

      Claw-Eval-Live 的回答不是「讓benchmark一直變」,而是:

      讓每一次release都成為當下真實世界的一張切片。


      它的核心是兩層分離的設計:

      信號層(Signal Layer)——每次構建新 release 時,不是團隊自己頭腦風暴「應該測什么」,而是從ClawHub Top-500熱門技能等公開workflow demand signals出發,觀察此刻哪些工作流更值得關注。這里要強調的是,這些信號不是自動出題器,更不是對真實需求的精確測量。它們只是一個公開、可檢查的需求先驗,用來幫助benchmark決定這一版release應該更關注哪些workflow。

      發布層(Release Layer)——真正公開出來的 benchmark 依然是固定的、帶時間戳的 snapshot。任務定義、執行環境、數據夾具、評分腳本全部鎖定。模型之間完全可以穩定比較,學術上也完全可復現。


      兩層之間通過一條五階段流水線連接:

      1. 信號采集:抓取 ClawHub Top-500 的時間戳快照,每條信號帶來源和元數據

      2. 模式聚類:將碎片化的技能名稱聚合成穩定的工作流模式——區分的不是技能的表面名稱,而是背后的用戶目標、操作對象和執行環境

      3. 家族加權:根據上游信號強度確定各任務家族的目標權重,信號越強的工作流在 release 中占比越大

      4. 種子擴展與篩選:將加權模式展開為可執行的任務候選,試跑篩選后只保留可運行、可復現、且能產生有效分數差異的候選——從 178 個生成候選篩選到 157 個

      5. 區分度優化選取:用混合整數線性規劃(MILP)從 157 個候選中選出 105 道公開任務,同時優化三個約束——發布規模、家族覆蓋、和榜單區分度

      這里的 MILP 不是在機械追求「多樣性」,而是在把三件事顯式化:公開release要有多大、每個 family 至少要被覆蓋、以及這套題要能真正拉開模型差距。把這些原本模糊的策展判斷變成可審計的約束,是 Claw-Eval-Live 讓 release 構建本身也變得透明的方式。

      當前公開 release 的規模:105道任務,22個任務家族,13個前沿模型。任務分為兩大執行環境——87道服務驅動的業務工作流(涉及CRM、郵件、日歷、財務、工單等18個受控服務)和18道本地工作空間修復任務(終端操作、環境修復、配置調試)。

      每道任務不只是一個 prompt,而是一個完整的可執行評測單元:任務定義(task.yaml)、工具接口、數據夾具、以及專屬評分腳本(grader.py),缺一不可。評分沿用 Claw-Eval 的證據錨定原則——在整個 release 中,最常見的三類確定性證據包括:數據檢索(是否調用了正確的工具和數據源)、數據準確性(實體和數值是否與 ground-truth 一致)、行動驗證(必需的狀態變更是否真的發生)。只有當這些確定性檢查無法覆蓋的語義維度(如報告組織質量、摘要連貫性)時,才引入結構化 LLM judge。

      所以,從項目演進上看,兩個工作是一脈相承的:

      Claw-Eval解決「評分可信」——讓我們看清Agent到底做了什么。

      Claw-Eval-Live解決的是「題庫跟上現實」——讓benchmark不再停留在一套固定題目上,而是持續對準當下最該測的workflow。

      當benchmark真正貼近現實

      我們看到了什么?

      13個前沿模型在當前release上的結果足夠直接,也足夠冷峻。

      整體天花板依然很低



      沒有任何模型突破70%的通過率。榜首到末尾差距達22.9個百分點。真實工作流自動化,遠沒有到「可靠部署」的階段。

      值得注意的是,通過率相近的模型,完成度可以差很遠。MiMo V2 Pro、Kimi K2.5、Gemini 3.1 Pro三個模型都是53.3%的通過率,但Overall Completion從76.9拉到74.0,這說明有些模型不是完全不會做,而是經常「差一點做完」——問題不在語言能力,而在執行閉環。

      真正有沖擊力的發現:難的不是你以為的那些


      如果只憑直覺,很多人會覺得最難的肯定是終端操作、環境修復這些需要硬核技術能力的任務。

      Claw-Eval-Live 給出的結果恰恰相反。

      從分組熱力圖看,Development / Terminal對強模型已經接近天花板:Claude Opus 4.6、GPT-5.4和Claude Sonnet 4.6在這個切面上都達到100%,最弱模型也在72.2%以上。真正困難的,是HR / People、Management / Ops以及跨系統workflow這類業務任務。HR / People這一組里,沒有模型超過 22.2%,而且有多個模型直接是0。

      進一步看細粒度family,結論更尖銳。HR的平均通過率只有6.8%;MGMT在公開pass規則下是all-fail;WORKFLOW的平均通過率也只有12.8%。相反,看上去「更技術」的workspace repair反而相對容易。整個benchmark分成兩種執行面之后,這個差異更明顯:workspace這一側,所有模型都至少達到72.2%;而service-backed workflows這一側,沒有模型超過59.8%。

      這意味著,當前 Agent 的主要瓶頸,已經不是「會不會用 terminal」,而是「能不能在多個系統之間持續收集證據、正確關聯記錄,并完成必須的寫操作」。

      論文中最能說明這個問題的,是幾個高區分度任務的表現模式。像電商月度對賬(ecommerce_monthly_reconcile)、客服首次響應時間審計(first_response_time_audit)和多文檔合并(multi_doc_merge),它們的共同特征是:必須從多個來源精確提取數據,任何一個工具調用的遺漏或實體鏈接的錯誤都會導致大幅扣分。

      以論文附錄展示的代表性子矩陣里的HR_01_onboarding為例,多個模型都能寫出體面的入職文檔,但在公開通過閾值之下。問題不是文檔是否通順,而是它沒有真正把員工信息、必需的 tool call 和任務證據閉環補齊。它更像是在「說」一件事,而不是「做完」一件事。

      這是Claw-Eval-Live最有價值的發現:今天Agent最難的地方,不是「修一個壞掉的東西」,而是「在多個系統之間,把一件業務真的做完」。

      「說得好」不等于「做得到」

      Claw-Eval-Live 的排名和通常的聊天/寫作 benchmark 排名并不一致,這恰恰是它的價值所在。

      它不獎勵「最終回答寫得多流暢」,而是獎勵跨系統證據收集、正確的記錄關聯、行動閉環和執行后狀態完整性。一個模型可以寫出極其流暢的總結,但如果它漏了必需的工具調用、遺漏了關鍵證據、或者工作空間狀態不對——在這里照樣拿不到分。這就是「can say」與「can do」的核心區別。

      再多看一眼部署視角:成本同樣重要

      如果從部署角度再看一眼榜單,估算API成本差異同樣巨大。這里強調「估算」:

      論文按記錄的輸入輸出 token 用量和發布時provider list price計算,并不等于真實賬單。

      Claude Opus 4.6準確率最高,但跑完整個 105 題 release 的估算API成本約31.6美元;GPT-5.4以約6.3美元拿到第二名,通過率只低2.9個百分點;GLM-5以約2.5美元達到與Claude Sonnet 4.6相同的61.9%通過率,估算成本約為Opus的7.8%,也就是約1/12.8。

      對真正要部署 Agent 的團隊來說,總榜只是起點,更實際的決策維度是「具體workflow家族上的準確率 × 成本」。

      從Claw-Eval到Claw-Eval-Live

      到底推進了什么?


      Claw-Eval把Agent評測從「只看結果」推進到「看過程」。它最關鍵的貢獻,是證明了如果沒有執行軌跡、審計日志和環境快照,Agent benchmark會系統性高估模型。

      Claw-Eval-Live則把Agent評測從「靜態題庫」推進到「與真實需求共同演化的任務快照」。

      它揭示了:當benchmark真正對齊現實工作流后,最好的模型也只能通過三分之二的任務;直覺上很難的終端修復其實已經接近解決,真正的瓶頸是跨系統的業務編排;HR、管理以及workflow類任務依然明顯偏難。

      這兩步缺一不可。

      沒有第一步,你可能會被一個「看起來很會做事」的 Agent 欺騙——它的報告寫得很好看,但它從來沒有真正查過那些數據。

      沒有第二步,你可能會用一套逐漸脫離現實的任務集合,得出一個看似精確但不再 relevant 的結論——你的榜單很穩定,但它在回答一個沒人再問的問題。

      如果Agent真的要走向部署,benchmark就不能只產出一張榜單。它還應該回答兩件事:這個 Agent 有沒有真的完成任務;以及我們究竟在拿什么任務定義「會干活」。

      Claw-Eval回答的是前一個問題:我們怎么知道Agent真的做成了任務。Claw-Eval-Live回答的則是后一個問題:我們究竟在拿什么任務定義「會干活」。前者為 Agent 評測打下了可信基礎;后者則把benchmark從一套靜態題庫,推進到與真實世界一起演化的任務快照。

      對今天的Agent來說,這一步尤其關鍵。因為當能力開始接近部署邊界時,真正重要的不再只是「會不會做題」,而是benchmark測的,是否還是現實世界里最值得自動化的工作流。

      如果說過去的大模型競爭更像能力展示的上半場,那么面向真實workflow的評測、驗證與部署,才是Agent benchmark的下半場真正開始的地方。

      先把Agent評測做實,再讓benchmark跟上真實世界。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      凌晨2點!41歲C羅率隊決戰新月,沖擊沙特聯冠軍,賽前獲2大利好

      凌晨2點!41歲C羅率隊決戰新月,沖擊沙特聯冠軍,賽前獲2大利好

      球場沒跑道
      2026-05-12 09:45:03
      吳前妻子:希望能被尊重&逼我把內部事情說出來大可不必

      吳前妻子:希望能被尊重&逼我把內部事情說出來大可不必

      狼叔評論
      2026-05-11 17:34:09
      上騙中央,下騙百姓,三回入獄,從首富到首騙,把他吹的太神了!

      上騙中央,下騙百姓,三回入獄,從首富到首騙,把他吹的太神了!

      縱擁千千晚星
      2026-04-20 04:45:06
      晚打不如早打,小打不如大打,打一個,不如拉日本一起打

      晚打不如早打,小打不如大打,打一個,不如拉日本一起打

      回京歷史夢
      2026-05-11 19:16:01
      外國記者問王皓:樊振東能否回歸國乒?王楚欽林詩棟低頭 周到急忙阻止

      外國記者問王皓:樊振東能否回歸國乒?王楚欽林詩棟低頭 周到急忙阻止

      林子說事
      2026-05-11 13:40:26
      貝索斯花了7000萬,讓桑切斯在Met Gala出盡風頭,梅根沒收到邀請

      貝索斯花了7000萬,讓桑切斯在Met Gala出盡風頭,梅根沒收到邀請

      小書生吃瓜
      2026-05-11 15:36:21
      被全網嘲諷、官方封殺的嘎子,為什么就成了永遠殺不死的爛梗永動機?

      被全網嘲諷、官方封殺的嘎子,為什么就成了永遠殺不死的爛梗永動機?

      BB姬
      2026-05-11 22:08:38
      確認了!廣東“暴力控衛”可能被交易,朱芳雨要用他來換陳國豪?

      確認了!廣東“暴力控衛”可能被交易,朱芳雨要用他來換陳國豪?

      緋雨兒
      2026-05-12 09:40:16
      2026美加墨世界杯“榨干”球迷錢包?一家三口赴美看球需30萬元起|封面深鏡

      2026美加墨世界杯“榨干”球迷錢包?一家三口赴美看球需30萬元起|封面深鏡

      封面新聞
      2026-05-11 11:48:04
      日本人怒罵張本智和:和松島輝空都是廢物,戶上直接被教練開罵

      日本人怒罵張本智和:和松島輝空都是廢物,戶上直接被教練開罵

      何蕥室內設計
      2026-05-11 16:08:35
      巴媒:埃斯特旺落選巴西世界杯初選大名單,確定無緣世界杯

      巴媒:埃斯特旺落選巴西世界杯初選大名單,確定無緣世界杯

      懂球帝
      2026-05-12 06:55:10
      日乒美女長崎美柚視梁靖崑為偶像 倫敦一場沒上 卻說“不虛此行”!

      日乒美女長崎美柚視梁靖崑為偶像 倫敦一場沒上 卻說“不虛此行”!

      林子說事
      2026-05-12 07:39:04
      國乒5月11號排名出爐,孫穎莎楚欽斷層領先,王曼昱林詩棟很意外

      國乒5月11號排名出爐,孫穎莎楚欽斷層領先,王曼昱林詩棟很意外

      阿信點評
      2026-05-12 01:48:29
      1938年,王耀武發現日軍身材矮小,想出一條妙計,一夜全殲日軍

      1938年,王耀武發現日軍身材矮小,想出一條妙計,一夜全殲日軍

      飯小妹說歷史
      2026-05-06 09:28:08
      14歲送上北野武的床,17歲拍寫真,被操控半生,年過50仍風韻猶存

      14歲送上北野武的床,17歲拍寫真,被操控半生,年過50仍風韻猶存

      飄飄然的娛樂匯
      2026-05-11 20:05:06
      皇馬有救了!弗洛倫蒂諾鎖定 “歷史最佳主帥”,談判即將開啟!

      皇馬有救了!弗洛倫蒂諾鎖定 “歷史最佳主帥”,談判即將開啟!

      瀾歸序
      2026-05-12 01:05:27
      劉三姐“全裸演出”引爭議,張藝謀惹怒全網

      劉三姐“全裸演出”引爭議,張藝謀惹怒全網

      營銷頭版
      2026-05-10 20:09:26
      不出意外的話,中國未來有超過一半的人口,或將會流入到這些地方

      不出意外的話,中國未來有超過一半的人口,或將會流入到這些地方

      閱微札記
      2026-05-12 09:28:56
      白人女性與黑人女性的體味差異,網友真實分享引發熱議

      白人女性與黑人女性的體味差異,網友真實分享引發熱議

      特約前排觀眾
      2025-12-22 00:20:06
      惠若琪公布家人近照!5歲女兒變化大,丈夫滿臉憔悴,母親顯年輕

      惠若琪公布家人近照!5歲女兒變化大,丈夫滿臉憔悴,母親顯年輕

      跑者排球視角
      2026-05-12 07:08:38
      2026-05-12 10:48:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15187文章數 66863關注度
      往期回顧 全部

      科技要聞

      納德拉法庭爆料:拒當“AI時代的IBM”

      頭條要聞

      牛彈琴:特朗普要來了 可以肯定這不是一次尋常的訪問

      頭條要聞

      牛彈琴:特朗普要來了 可以肯定這不是一次尋常的訪問

      體育要聞

      梁靖崑:可能是最后一屆了,想讓大家記住這個我

      娛樂要聞

      劉濤曬媽祖誕辰活動照 評論區變許愿池

      財經要聞

      特朗普要來了,我們且淡定

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      教育
      時尚
      房產
      親子
      本地

      教育要聞

      高考想要本科直接就業,該如何報考

      推廣|| 你們都想要的絕美白襯衫,鏈接來了!

      房產要聞

      產業賦能教育!翰林府與北師大的這場簽約,絕不那么簡單!

      親子要聞

      從“流動”到“安心”:一位寶媽的“定點”幸福

      本地新聞

      用蘇繡的方式,打開江西婺源

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 一区二区中文| 高清欧美精品一区二区三区| 99精品国产精品一区二区| 中文字幕在线视频不卡一区二区| 手机看片1024精品日韩| 99热成人精品国产免费| 少妇荡乳情欲办公室456视频| 久久无码字幕中文久久无码| 韩国美女与老头三级| 国产精品成人精品久久久| 国产精品久久久久久久免费看 | 性色av一二三天美传媒| 欧美大片va欧美在线播放| 99精品热6080yy久久| 久久久亚洲欧洲日产国码606 | 5555国产在线观看精品| 中文精品无码中文字幕无码专区| 久久国产精品二国产人妻| av一区二区三区| 亚洲中文日韩天天嗨| 麻豆tv入口在线看| 美国又粗又长久久性黄大片| 男女羞羞| 起碰免费公开97在线视频| 日本一区不卡高清在线观看| 51精品免费视频国产专区| 中国一区二区三区| 麻豆蜜桃AV蜜臀AV色欲AV| 四虎论坛| 欧美日本在线一区二区三区| 99久久老司机免费精品免费| 欧美成人综合视频| 欧美国产日韩a在线视频| 亚洲123区| 最新无码专区在线视频动态| 无码专区亚洲综合另类| 国产成人8X人网站视频| 一区二区三区av| 少妇大胆瓣开下部自慰| zozozo女人与牛交zozozo视频| 无码人妻αⅤ免费一区二区三区|