<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      1美元Token撬動4800美元收益!百萬美元級基準,最賺錢Agent出現了

      0
      分享至



      機器之心編輯部

      如果有價值 $100 萬美金的頂級專家任務,AI 能完成其中多少?

      答案是 48 萬美金,而只需要 100 美元的 Token 費用。

      這個數字怎么來的?Humanlaya Data Lab 聯合北京通用人工智能研究院(BIGAI)、xbench、M-A-P,招募來自 Morgan Stanley、世達(Skadden)、協和醫院、中國電網、清華大學等頂級機構或學府的 100+ 位資深專家,耗時 2000+ 小時,構建了等價于人類專家工作價值百萬美元級評測基準 —— $OneMillion-Bench

      作為該基準的主導構建機構,Humanlaya 是一家成立于 2025 年的 AI 數據實驗室,通過定義真實、高經濟價值的可驗證任務,推動大模型能力邊界的拓展與經濟價值的落地。相關論文、代碼與數據已經公開,鏈接如下:

      • 論文鏈接:https://github.com/humanlaya/OneMillion-Bench/blob/main/tech_report.pdf
      • GitHub:https://github.com/humanlaya/OneMillion-Bench
      • Hugging Face:https://huggingface.co/datasets/humanlaya-data-lab/OneMillion-Bench
      • 官網地址:www.humanlaya.com

      隨著 OpenClaw 的爆火,人們越來越關注 AI Agent 能夠實際替人類完成的任務。$OneMillion-Bench 的核心想法很直白:用 “人類專家的時間與成本” 給任務定價,再用 “是否滿足專家要求” 衡量模型交付質量—— 如果把 AI 當成 “數字白領專家”,總價值 100 萬美金的任務,模型到底能賺多少錢?



      $OneMillion-Bench模型表現和其獲取的經濟價值

      01|“Agent 能掙錢” 成為日常,但行業更缺一把尺:可交付、可復核、可控

      從 2025 Agent 元年開始,AI 逐漸從 “答題機” 推進到 “數字員工”,但業界現有評測集往往缺乏對實際經濟價值的衡量,區分度不足、難以自動化且僅有英文語境。

      因此,$OneMillion-Bench 構建了一套兼備高經濟價值 × 高區分度 × 可自動評測的基準,它包含 400 道高難題目(200 個英文題 + 200 個中文題),覆蓋金融、法律、醫療、自然科學與工業五大領域的 92 個三級領域,與常見的考試題不同,每道題都是真實行業場景下的開放專家任務,采用 Rubrics + LLM as Judge 評測

      該基準要求模型給出可落地的實操方案與判斷鏈路,在這些開放問題上,不僅回答 “是什么”,更要說明 “怎么做、按什么順序做、為什么這么做”。



      $OneMillion-Bench 5 個領域,37 個二級和 92 個三級細分類別

      之所以是 $OneMillion,是因為這些任務真的很 “貴”。

      不同于傳統只評估模型準確率的榜單,我們用 “錢” 來標價每一道題的現實勞動價值 ——任務經濟價值 = 資深專家完成該任務的耗時 × 專家時薪。時薪錨定官方或行業權威數據,如中國部分城市人社局、美國勞動統計局,任務的耗時來自多個領域專家的共同評估。

      據此,把所有任務的經濟價值加和計算后,超過了 100 萬美元。如果在現實世界里把這些工作交給資深專家團隊完成,你需要支付的成本就是百萬美元量級。這樣一來,模型評測不再停留在分數上,而是更直觀地回答:AI 現在到底能穩定交付多少 “可兌現價值”,以及距離真正上崗還差什么



      $OneMillion-Bench 經濟價值計算

      02|四大關鍵設計:多樣化真實場景 + 高價值任務 + 非對稱負分機制 + 高質量與一致性

      (1)經濟價值出發,構建高真實性、高含金量專家任務

      我們在評測中引入用貨幣度量的 “經濟價值”,核心是衡量模型在真實世界中能創造多少可交付的經濟價值。開放式問題很難用單一標準答案衡量,我們邀請一線資深專家將真實工作流拆解為細顆粒度考點:每道題設計15–35個考點,累計7000+考點。題目覆蓋5–15 年經驗從業者在真實場景中常見的典型任務,專家來自各類頭部機構,不只考知識點,更考驗特定場景下的專家級決策能力。

      (2)引入 “負分項”,防止 Reward Hacking

      在開放式任務里,模型最容易走向 “越說越多、看起來越專業”,蒙到考點就得分。為了避免虛高,我們加入行文邏輯和結構、扣分項考點。模型如果只是堆砌內容,沒有合理的邏輯展開,無法 “撞到” 高分。在考點分值設置上,我們采取+10 ~ -20 的非對稱考點分值:正向能力給分更克制,明確或致命錯誤懲罰更重。這套結構的效果更接近真實使用體感 —— 做對不一定加分很多,但做錯往往會帶來更大代價。

      (3)覆蓋 92 個三級分類,含 CN + Global 兩大子集單獨區分中國大陸題目,場景足夠真實、豐富

      我們將任務細化到覆蓋92 個三級分類的真實崗位工作流;CN 是中文題目,Global 是英文題目,收集本地化、真實的題目,盡量還原真實的法規、流程與業務語境,從而更精準刻畫不同模型在特定地域業務場景中的能力差異。

      (4)一套 “像生產線” 的專家 Pipeline:讓高難 Rubrics 題可規?;?、可質控

      為了確保數據場景真實、考點合理,團隊在專家招募、選拔與培訓上投入大量成本,專家平均整體通過率低于 5%,題目最終質檢通過率38.1%。數據生產采用 3-4 名專家協作的 Pipeline,包含對抗性評審與仲裁機制。在難度控制上,我們采取雙向截斷策略,剔除過易樣本,對于過難樣本二次復審,確保數據質量。



      題目示例

      03 | 成績單解讀:SOTA 的分數已經合格,但距離交付仍有距離

      目前最強模型通過率超過 40%,在 100 萬美元的任務上,大約可以產出50 萬美元,而完成任務的 API 成本也就 100 美元左右!AI 不但已經能 “干活”,而且在極高難度、極高單價的專業任務里,已經能交付相當可觀的美元級別的價值



      模型的平均通過率、平均分和可以產生的總經濟價值

      Insight 1:成績已經合格,但離 “可托付” 還很遠

      如果只看平均分,頭部模型已經進入了合格區間(60%+),第二梯隊也普遍在 50% 以上,說明 AI 在專業任務上確實能覆蓋不少關鍵點。但在真實工作里,平均分其實不夠用,未達到一定質量需要返工。因此,我們引入了更貼近落地的指標 —— 通過率(Pass Rate):單題得分達到 70% 及以上,本題才算 “通過”

      基于這個定義,本榜單的 Economic Value(經濟價值)也不是按平均分線性折算,而是嚴格按 “可交付” 口徑計算,只有通過的任務才計入 “能賺到的錢”。平均分像 “考試成績”,而通過率才是 “上崗證”。

      而從通過率的視角來看,即使是排名第一的 Claude Opus 4.6 Web Search,也驟降到43.5%,即只有不到 45% 的任務可以通過驗收,第二梯隊多在 25~30% 區間徘徊。換句話說,平均分看起來 “能用”,但能在一半以上任務里穩定達到可交付標準的模型,目前還不存在。

      目前,AI 已經能穩定交付一部分題目、并且能賺到很可觀的價值,但榜單也清楚告訴我們另一半真相:距離可交付的專業任務仍有相當一段路程。

      Insight 2:Web Search 是一把雙刃劍

      Web Search 工具調用通常能顯著補齊事實,尤其在經濟金融領域的時效性問題,同樣適用于醫療、工業、法律中不斷迭代和演進的規范和約束。

      但它也會引入噪聲與 “看似權威的錯誤來源”,從而出現波動甚至回退。下一階段競爭不只是 “有沒有搜索”,而是 “會不會搜索” 以及搜索工具的效果如何:會不會選源、會不會交叉驗證、會不會把證據鏈寫進推理、會不會在噪聲下保持一致性。

      Insight 3:復雜推理仍是通用瓶頸,方向正確但缺乏可執行的細節

      模型擅長寫一段看起來連貫的解釋,但一旦任務需要深層理解、多步演繹、或在巨大可能空間里探索,就仍會出現深度不足與準確性波動。典型例子包括軟件工程、機器學習相關任務中的探索式問題。這類任務必須先建立結構,再做推導,再做反證,再回溯修正。模型往往會在中途跳步,或者用看似合理的敘述替代真正的推理。

      此外,模型容易給出方向正確但是缺乏可執行細節的回復。比如在醫療場景下,需要的是可執行的臨床要素,但模型容易泛泛而談,遺漏關鍵點。自然科學任務里存在類似的對實驗條件的預期不足、對約束不夠細、機制鏈條理解淺。這種失敗在真實落地里殺傷力很大,因為它看起來 “很對”,但沒有可實踐的信息量。

      05|One Step Further —— 將把模型推進到 “可交付” 的那一步

      如果站在 2024 年的視角,會覺得 AI 還是一個 “大玩具”。但站在 2026 年、OpenClaw 把 Agent 推到大眾面前之后,我們看到的是另一件事:AI 已經能交付 50 萬美元級別的專業價值;接下來競爭的關鍵,是繼續提升這份價值,并且將這份價值變得更穩定、更可復核、更可控,使智能的邊際提升能直接轉化為生產力和收入。

      $OneMillion-Bench 的意義不在于 “再做一個排行榜”,而是把 “數字員工” 的能力邊界量化出來:你今天和未來可以放心把哪些工作交給它

      更多參考鏈接:

      Humanlaya:https://lab.humanlaya.com/

      BIGAI:https://www.bigai.ai

      xbench:https://xbench.org

      M-A-P:https://huggingface.co/m-a-p

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      成都發生一起交通事故 1人死亡11人受傷

      成都發生一起交通事故 1人死亡11人受傷

      新華社
      2026-05-01 21:24:15
      杜鋒發言引球迷不滿,遼寧主帥有信心拿下生死戰,趙繼偉帶病出戰

      杜鋒發言引球迷不滿,遼寧主帥有信心拿下生死戰,趙繼偉帶病出戰

      中國籃壇快訊
      2026-05-02 00:03:53
      你們都是什么時候對男女之事開竅的?網友:果然還是攔不住有心人

      你們都是什么時候對男女之事開竅的?網友:果然還是攔不住有心人

      夜深愛雜談
      2026-02-21 21:37:02
      湯姆斯杯:中國隊3-0橫掃馬來西亞,強勢晉級四強

      湯姆斯杯:中國隊3-0橫掃馬來西亞,強勢晉級四強

      懂球帝
      2026-05-01 21:31:32
      董璇獨自到北京4s店買車,打扮得跟少女似的!當場下單,豪氣十足

      董璇獨自到北京4s店買車,打扮得跟少女似的!當場下單,豪氣十足

      小娛樂悠悠
      2026-05-01 08:26:14
      原來名字起太大,一般人根本壓不?。【W友:教訓,老祖宗早說過了

      原來名字起太大,一般人根本壓不??!網友:教訓,老祖宗早說過了

      夜深愛雜談
      2026-04-30 21:37:49
      撤兵?那就撤吧。德國外長一句話,把特朗普威脅變成全世界的笑柄

      撤兵?那就撤吧。德國外長一句話,把特朗普威脅變成全世界的笑柄

      菁菁子衿
      2026-05-01 16:50:07
      假期首日出行客流爆棚!明起機票價格跳水,熱門航線低至300元

      假期首日出行客流爆棚!明起機票價格跳水,熱門航線低至300元

      中新經緯
      2026-05-01 18:02:44
      為什么明明失業的人越來越多,整體社會依舊平穩安定?

      為什么明明失業的人越來越多,整體社會依舊平穩安定?

      玉辭心
      2026-04-23 13:25:37
      能力確實是大不如前了!森林狼應該考慮減少后場老將的出場時間?

      能力確實是大不如前了!森林狼應該考慮減少后場老將的出場時間?

      稻谷與小麥
      2026-05-01 23:11:13
      國米叛徒想加入圣西羅:跟孔蒂分道揚鑣在即,阿萊格里想招募他

      國米叛徒想加入圣西羅:跟孔蒂分道揚鑣在即,阿萊格里想招募他

      里芃芃體育
      2026-05-02 00:10:07
      正式退出,19歲全紅嬋遺憾,廣東體育局官宣,原因找到,陳芋汐祝

      正式退出,19歲全紅嬋遺憾,廣東體育局官宣,原因找到,陳芋汐祝

      運動探索
      2026-05-01 18:43:01
      皇馬內亂?跟隊爆料姆巴佩對主帥態度惡劣 叫停訓練大鬧+當眾質問

      皇馬內亂?跟隊爆料姆巴佩對主帥態度惡劣 叫停訓練大鬧+當眾質問

      我愛英超
      2026-05-01 07:38:49
      基因鐵證撕碎韓國純血神話!他們真正的老祖宗曝光,竟是一路殺光半島土著的東南亞狠人

      基因鐵證撕碎韓國純血神話!他們真正的老祖宗曝光,竟是一路殺光半島土著的東南亞狠人

      寄史言志
      2026-04-30 18:39:55
      佛山最大的醫院,竟然不是佛山市第一人民醫院?看完數據我驚呆了

      佛山最大的醫院,竟然不是佛山市第一人民醫院?看完數據我驚呆了

      荷蘭豆愛健康
      2026-05-01 19:28:22
      湖人VS火箭G6前瞻:CCTV5直播!湖人盼晉級,火箭能否拖入搶七?

      湖人VS火箭G6前瞻:CCTV5直播!湖人盼晉級,火箭能否拖入搶七?

      薇說體育
      2026-05-01 16:01:53
      晚年的恐懼!相繼送走年邁的父母,71歲的我,下定決心以后不養老

      晚年的恐懼!相繼送走年邁的父母,71歲的我,下定決心以后不養老

      人間百態大全
      2026-04-30 07:10:05
      二八事件再反轉!杜新枝兒媳內訌互撕,利益糾葛下原形畢露

      二八事件再反轉!杜新枝兒媳內訌互撕,利益糾葛下原形畢露

      魔都姐姐雜談
      2026-05-01 13:33:45
      狂救6個賽點!國羽3-2死里逃生,李詩灃帶傷封神太催淚!

      狂救6個賽點!國羽3-2死里逃生,李詩灃帶傷封神太催淚!

      生活新鮮市
      2026-05-01 01:50:53
      東莞口腔醫院拒絕改名!

      東莞口腔醫院拒絕改名!

      聽心堂
      2026-04-29 10:35:17
      2026-05-02 00:43:01
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12902文章數 142639關注度
      往期回顧 全部

      科技要聞

      DeepSeek發布多模態論文又連夜刪除

      頭條要聞

      美國也搞起"人肉代購" "去墨西哥買中國車"教程瘋傳

      頭條要聞

      美國也搞起"人肉代購" "去墨西哥買中國車"教程瘋傳

      體育要聞

      無奈!約基奇:這要在塞爾維亞 全隊早被炒了

      娛樂要聞

      馬筱梅產后身材恢復超好 現身戶外直播

      財經要聞

      GPU神話松動,AI真正的戰場變了

      汽車要聞

      限時9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

      態度原創

      本地
      數碼
      旅游
      藝術
      公開課

      本地新聞

      用青花瓷的方式,打開西溪濕地

      數碼要聞

      原相光學鼠標傳感器新品PAW3955將至,VGN、阿斯盾官宣采用

      旅游要聞

      擠爆了!五一首日周莊人山人海,這才是真正的江南

      藝術要聞

      畫畫的你絕不能錯過!色塊與筆觸的激情之旅!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 啊灬啊灬啊灬快灬高潮了电影片段| A级片免费| 97超碰中文字幕久久精品| 91久久精品无码人妻系列| 九色综合狠狠综合久久| 国产MD视频一区二区三区| 色综合狠狠操| AV大帝| 另类亚洲综合区图片区小说| 无码h片| 亚洲成人首页| 99RE6在线观看国产精品| 亚洲第一se情网站| 免费国产午夜理论片不卡| 伊人二区| 国产Av无码精品色午夜| 中文国产成人久久精品小说| 中文无码av一区二区三区| 一本久道热中字伊人| 制服丝袜在线亚洲| 日韩麻豆国产精品欧美| 成人免费毛片内射美女-百度| 免费看成人毛片无码视频| 欧美综合人人做人人爱| 裸身美女无遮挡永久免费视频| 天天综合色天天综合色hd| 老熟妇乱子伦牲交视频欧美| 日韩欧美在线观看成人| 精品亚洲国产成av人片传媒 | 日本视频中文字幕一区在线| 日本丰满少妇xxxx| 无码国产69精品久久久久孕妇 | 欧美国产激情18| 成人黄色电影网址| 免费可以在线看a∨网站| 亚洲激精日韩激情欧美激情精品| 一区二区和激情视频| 日本人爽p大片免费看| 人妻在线无码一区二区三区| 国产电影一区二区三区| 国产成人精品视频一区视频二区|