<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      開源大模型榜單,10個主流Benchmark一次講清,附排名

      0
      分享至

      開源大模型必會附上在不同 benchmark 上的刷分情況以及排名

      SWE-bench、GPQA、HLE、Terminal-Bench……

      很多同學看不明白,這些 benchmark 都具體考驗的模型的哪些能力

      剛在 HF 上看到一個動態 race 圖展示最近一年開源大模型在不同 benchmark 上,不同大模型的排名

      本文就逐個、詳細介紹一下


      地址:huggingface.co/spaces/davanstrien/benchmark-race 一、SWE-bench Verified —— 真實代碼倉庫的「修 bug 終極考」


      • 出品方 :OpenAI × Princeton(Preparedness 團隊聯合普林斯頓)

      • 測什么 :AI Agent 在 真實開源項目 里端到端解決 GitHub Issue 的能力

      • 數據形式 :500 道經過人工篩查的任務,全部來自 12 個主流 Python 開源倉庫(Django、sympy、scikit-learn 等)

      • 怎么算對 :每道題自帶兩組單元測試—— FAIL_TO_PASS (修好后才該通過)+ PASS_TO_PASS (不能把別的功能改壞),全部通過才算解決

      為啥叫 Verified?因為原版 SWE-bench 里有不少題目本身描述模糊、測試不靠譜,會冤枉模型。OpenAI 找了一批專業工程師把 2294 道題逐道篩選,留下 500 道描述清晰、測試合理、人類工程師能搞定的高質量題,作為業界公認的「干凈版」SWE-bench

      簡單說就是:把 AI 當一個真實程序員丟進開源項目里,讓它自己讀 issue、自己改代碼、自己跑測試,看它能不能把 bug 真的修掉

      ? 這是衡量「AI 編程 Agent」能力最權威的指標之一

      目前最強:DeepSeek-V4-Pro

      我沒想到 DeepSeek-V4-Flash 居然也這么強,可以拍第三


      SWE-bench Verified 二、SWE-bench Pro —— 工業級長鏈路代碼工程考核


      • 出品方 :Scale AI

      • 測什么 :在 更大、更臟、更長鏈路 的工程任務上,Agent 能不能扛得住

      • 數據形式 :1865 道人工驗證的任務,覆蓋 41 個倉庫,平均一個補丁要改 100+ 行代碼、跨多個文件

      • 核心創新 :抗污染設計,專門用 GPL 強 copyleft 協議倉庫 + 商業閉源倉庫,降低被訓練數據「背過」的可能

      數據集分三塊:

      • Public Set(731 題,11 個開源倉庫,公開可評測)

      • Held-Out Set(858 題,12 個私有倉庫,防過擬合)

      • Commercial Set(276 題,18 個商業倉庫,僅放榜不放數據)

      主指標叫 Resolve Rate——Agent 給出的補丁能否在 Docker 隔離環境里完整通過 build + test

      為什么要搞 Pro 版?因為 SWE-bench Verified 任務相對短小,而真實工業代碼動不動就幾百行修改、跨多文件重構。SWE-bench Pro 就是沖著「長程任務(long-horizon)」去的,目前頂級模型 Pass@1 也就 25% 左右,區分度極強

      目前最強:Kimi-K2.6


      SWE-bench Pro 三、MMLU-Pro —— MMLU 的「加難版」,14 個學科混合推理


      • 出品方 :滑鐵盧大學 TIGER-Lab,NeurIPS 2024 收錄

      • 測什么 :跨學科知識 + 推理能力 (不再是單純背知識)

      • 數據形式 :12000+ 道題,覆蓋數學、物理、化學、生物、計算機、經濟、法律、心理、哲學等 14 個學科

      • 關鍵改造 :選項從 4 個擴到 10 個 ,蒙對概率從 25% 直降到 10%;同時剔除 MMLU 里的噪聲題、加入更多需要多步推理的難題

      老牌的 MMLU 這兩年已經被打榜打到「飽和」,頂級模型動輒 88-90%,區分不出誰更強。MMLU-Pro 一上來就把所有模型分數砍掉 16-33%,重新拉開差距

      更關鍵的變化:在 MMLU 上「直接答」往往比 CoT(思維鏈)還好;但在 MMLU-Pro 上,**帶 CoT 推理的提分能到 20%**,說明它真的在測推理而不是測記憶

      ? 簡單理解:MMLU-Pro 是給 LLM 準備的「研究生綜合考試」,知識面 + 推理力一起考

      目前最強:Qwen3.5-397B-A17B

      為何不是 Qwen3.6,因為它沒開源呢


      MMLU-Pro 四、GPQA Diamond —— 博士級別的「Google-Proof」科學推理


      • 出品方 :NYU + Cohere + Anthropic 聯合研究團隊

      • 測什么博士級 生物、物理、化學的硬核推理能力

      • 數據形式 :從原版 GPQA 448 道題里抽出 最難的 198 道 作為 Diamond 子集,全是 PhD 出題、PhD 復核

      • 核心特性 :Google-Proof—— 專家聯網搜也搜不到答案 ,必須靠真理解

      人類參考分數很有意思:

      • 學科內 PhD 專家:約 81% 準確率

      • 學科外的高水平非專家(聯網答題):約 22%(基本等于瞎蒙的 25%)

      題目長這樣:核磁共振譜里某個化學位移的位置變化,對應的反應可能用了哪一族元素?4 選 1,但每個選項都精心設計成似是而非。這種題你想用搜索引擎走捷徑基本沒戲

      GPQA Diamond 已經是開源/閉源大模型評測的「博士理科卷」標配,你看到的多數模型 GPQA 分數指的就是 Diamond 子集

      目前最強:Kimi-K2.6


      GPQA Diamond 五、HLE(Humanity's Last Exam)—— 人類的「最后一卷」


      • 出品方 :Center for AI Safety(CAIS)× Scale AI,2026 年 1 月 Nature 正刊發表

      • 測什么人類知識前沿 的封閉式考試,定位是「最后一份這種類型的學術 benchmark」

      • 數據形式 :2500 道公開題(另有私有集防過擬合),覆蓋數學、理工、人文、醫學、計算機等 100+ 學科;約 24% 是多選,其余是短答精確匹配;約 14% 題目帶圖(多模態)

      參與出題的有近 1000 位貢獻者,來自 50+ 國家、500+ 機構,絕大多數是科研一線的教授/博士

      為啥叫「最后一卷」?因為 MMLU、GPQA 這種已經被頂級模型打到 90%+,區分度走到盡頭。HLE 把難度往人類專家天花板推:

      • 人類領域專家:約 90%

      • 主流前沿模型(2026 年初):40-50% 上下

      每道題答案都設計成可機器自動驗證(精確匹配或單選),同時還能評估模型的「自信度校準」(calibration)——答錯時它有沒有自知之明

      ? 這是目前公認最難的封閉式學術 benchmark

      目前最強:Kimi-K2.6


      HLE 六、AIME 2026 —— 高中奧數級數學推理


      • 出品方 :題目源自 MAA(美國數學協會)每年舉辦的 American Invitational Mathematics Examination

      • 測什么奧數級 多步符號推理、代數/幾何/數論/組合的硬核解題能力

      • 數據形式 :30 道題(AIME I 15 道 + AIME II 15 道,2026 年 2 月剛開考),每題答案是 0–999 的整數不給部分分

      • 評測方式 :Pass@1 精確匹配,閉卷做題,沒有任何工具/搜索輔助

      為什么社區都在用 AIME 當數學 benchmark?

      1. 新鮮不污染 :每年題目當年 2 月才公開,對任何 2025 年前訓練完的模型都是「真盲考」

      2. 不可背答案 :30 道全是新題,沒有題庫可背

      3. 強逼 CoT :每道題平均 5-10 步推理,不寫思維鏈根本做不出

      4. 難度足夠 :高中競賽級,比 GSM8K、MATH 都更硬

      人類頂級 AIME 選手中位數也就 4-6 題(約 30-40%),現在頂級 LLM 已經能做到 95%+,是 LLM 數學能力近兩年突飛猛進最直接的證據

      目前最強:Step-3.5-Flash

      這個模型我不太了解啊,不評價

      這個榜單 DeepSeek-V4 沒參與


      AIME 2026 七、HMMT Feb 2026 —— 哈佛-MIT 數學競賽 2 月賽


      • 出品方 :題目來自 Harvard-MIT Math Tournament(HMMT),評測平臺主要是 ETH Zurich SRI Lab 的 MathArena

      • 測什么 :和 AIME 同類,但 整體更難 ——介于 AIME 和奧賽之間

      • 數據形式 :2026 年 2 月賽的題目,覆蓋代數、幾何、數論、組合,部分是開放式答案

      • 核心價值反污染 ——MathArena 的設計原則就是用「賽后第一時間發布」的新題來測 LLM,確保模型沒在訓練集里見過

      HMMT 是和 Putnam、AMC、AIME 齊名的頂級高中/大學預科數學競賽,難度比 AIME 高一檔。這也是為啥同樣一個模型在 AIME 上能 95+,在 HMMT 上往往就掉到 80-90

      如果你看到一個開源模型只刷 AIME 不刷 HMMT,那就要警惕——很可能在 AIME 上有「專項訓練」,但在更難、更新的 HMMT 上原形畢露

      目前最強:Kimi-K2.6


      HMMT Feb 2026 八、olmOCR-bench —— 文檔 OCR 的「單元測試式」評測


      • 出品方 :Allen Institute for AI(AI2)

      • 測什么真實復雜文檔 的 OCR / 文檔理解能力(公式、表格、閱讀順序、掃描件、多欄排版……)

      • 數據形式 :1403 份真實/合成 PDF,附帶 7000+ 單元測試 (pass/fail 二元判定)

      • 創新點 :不再用「整頁字符串編輯距離」這種粗糙指標,而是把每道題做成 可機器驗證的「事實斷言」

      具體來看,每個測試就是一條斷言,比如:

      • 「這段文字必須出現,且順序正確」

      • 「這個數學公式里 x 必須在分子位置」

      • 「表格 A1 單元格的值必須出現在 B1 之上」

      • 「頁眉/頁腳不該出現在正文里」

      考點覆蓋六大典型場景:arXiv 論文里的公式、復雜嵌套表格、多欄布局、老舊掃描件、密集小字、頁眉頁腳的去除

      ? 這是目前評測「VLM/OCR 模型在真實文檔上能不能用」最嚴謹的開放 benchmark,國產 dots.ocr、PaddleOCR-VL、MinerU 等很多模型都在拿它打分

      目前最強:不不熟悉的模型

      眼熟的就拍第三的 dots


      olmOCR-bench 九、Terminal-Bench 2.0 —— Agent 在真實命令行里搞工程

      • 出品方 :Stanford × Laude Institute,Anthropic 等前沿實驗室深度參與

      • 測什么 :AI Agent 在 真實 Linux 終端 里完成端到端工程任務的能力

      • 數據形式 :80+ 道人工策劃任務(2.0 版本),每道題在獨立 Docker 容器里運行,自動化測試判定成敗

      • 覆蓋范圍 :軟件工程(構建/調試/部署)、系統管理(服務器配置/網絡)、安全(漏洞評估/加密)、科學計算(蛋白質組裝/數據流水線)、機器學習(模型訓練/推理部署)

      任務設計三原則:Solvable(人類有參考解法)、Realistic(真實工作場景)、Well-specified(成功標準明確可自動判定)

      舉幾個真實題目你感受下:

      • 編譯指定版本 Linux Kernel 并打補丁

      • 給內網服務配置自簽 TLS 證書

      • 調試一段并發 bug 的 Python async 代碼

      • 在顯存/精度約束下跑完一次 ML 訓練

      評測框架叫 Harbor,統一管理 Agent 生命周期、命令交互、日志記錄。這是目前 Anthropic、OpenAI、Google 都在卷的「Agentic 系統」實戰考場,跟 SWE-bench 的「修代碼」是互補的,更偏「在系統里干活」

      目前最強:GLM-5.1


      Terminal-Bench 2.0 十、EvasionBench —— 檢測 LLM「答非所問、避而不答」


      • 出品方 :開源團隊(IIIIQIIII),論文掛在 arXiv 2601.09142

      • 測什么 :模型在面對 敏感/尖銳問題 時,是否在用「話術繞過」「答非所問」這種隱性 evasion

      • 數據來源 :2270 萬對 S&P Capital IQ 上市公司財報電話會議 Q&A,過濾后構建 84000 訓練集 + 1000 道金標測試集(專家標注)

      它把 evasion 分成三檔:

      | 等級 | 含義 | ||| | Direct | 完整、明確地正面回答了核心問題 | | Intermediate | 給出相鄰信息、打太極、拐彎抹角不正面回答 | | Fully Evasive | 直接忽略問題、拒答,或徹底跑題 |

      標注方法用了 Multi-Model Consensus(MMC):多個強 LLM 投票打標,分歧大的題反而被當作「高價值難題」重點人工裁決,最終一致性 Cohen's κ = 0.835,相當扎實

      配套還有一個 4B 參數的分類器 Eva-4B(基于 Qwen3-4B 微調),在金標集 Macro-F1 跑到 84.9%,反而把 Claude 4.5、GPT-5.2、Gemini 3 Flash 這些前沿模型都甩在后面——說明這件事「難在數據,不難在參數」

      ? 大模型評測從「答得對不對」走向「答得真不真」、「躲沒躲」,這是個有意思的方向

      這個就不截圖了,N 多模型廠商不在此榜單公布分數了

      One More Thing

      回頭看這 10 個 benchmark,其實可以分成 5 個能力維度,方便你下次看榜單時心里有數:

      | 能力維度 | 對應 Benchmark | ||-| | 代碼工程能力 | SWE-bench Verified、SWE-bench Pro | | 綜合知識 + 推理 | MMLU-Pro、GPQA Diamond、HLE | | 數學推理 | AIME 2026、HMMT Feb 2026 | | 多模態/文檔理解 | olmOCR-bench | | Agent 實戰 | Terminal-Bench 2.0 | | 誠實性/對齊 | EvasionBench |

      下次再看到一張寫滿 benchmark 的開源模型海報,至少不會再被一堆縮寫繞暈了

      幾個看榜單的小建議:

      • 別只看一個數 :每個 benchmark 測的是一個切面,編程強的不一定數學好,數學好的不一定 Agent 能力強

      • 警惕「專項過擬合」 :只刷 AIME 不刷 HMMT、只刷 Verified 不刷 Pro,往往有貓膩

      • HLE 是新天花板 :MMLU/GPQA 已經卷到 90+,HLE 這種 40-50% 段位的 benchmark 才是接下來一兩年衡量「前沿能力」的真正標尺

      • Agent 類 benchmark 是下一個主戰場 :Terminal-Bench、SWE-bench Pro 這種長鏈路、真實環境的考核,比傳統 QA 更能反映「能不能真用」

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      深夜打虎!戴瑞你都53了,才學又好,為什么要貪?現在后悔都沒用

      深夜打虎!戴瑞你都53了,才學又好,為什么要貪?現在后悔都沒用

      小陸搞笑日常
      2026-05-06 05:43:30
      早就知道丈夫變心,卻忍到節目結束才離婚,拿九成財產后徹底翻盤

      早就知道丈夫變心,卻忍到節目結束才離婚,拿九成財產后徹底翻盤

      一盅情懷
      2026-05-04 16:33:57
      被曝求復合48小時后,文章忙于餐廳合影,馬伊琍會吃回頭草嗎?

      被曝求復合48小時后,文章忙于餐廳合影,馬伊琍會吃回頭草嗎?

      一盅情懷
      2026-04-14 14:21:32
      強行換主演的十部電視劇,口碑雪崩,賠了夫人又折兵

      強行換主演的十部電視劇,口碑雪崩,賠了夫人又折兵

      小Q侃電影
      2026-05-05 21:47:39
      7種適合糖尿病人吃的主食,放心吃,血糖好!

      7種適合糖尿病人吃的主食,放心吃,血糖好!

      小胡軍事愛好
      2026-05-05 21:00:48
      威力堪比數百萬顆原子彈,有個“大家伙”可能落在了我國南海

      威力堪比數百萬顆原子彈,有個“大家伙”可能落在了我國南海

      果殼
      2026-05-05 16:06:50
      上海市紀委監委一則通報,讓一個名字再次進入公眾視野——吉玉萍

      上海市紀委監委一則通報,讓一個名字再次進入公眾視野——吉玉萍

      愛意隨風起呀
      2026-05-05 21:23:02
      高速免費大改賬:沒了節假日全免,換3000公里隨便跑,是賺是虧?

      高速免費大改賬:沒了節假日全免,換3000公里隨便跑,是賺是虧?

      娛樂圈的筆娛君
      2026-05-06 05:47:30
      2名中國游客日本登山遇險,1人獲救,另一人救援困難!朋友發中日雙語求助,稱氣溫極度寒冷,兩人食物耗盡

      2名中國游客日本登山遇險,1人獲救,另一人救援困難!朋友發中日雙語求助,稱氣溫極度寒冷,兩人食物耗盡

      揚子晚報
      2026-05-05 17:24:46
      王清海教授:山楂的3個黃金組合,掃清血管“垃圾”,便宜又好用

      王清海教授:山楂的3個黃金組合,掃清血管“垃圾”,便宜又好用

      蠟筆小小子
      2026-04-21 14:43:37
      大陸表態后、鄭麗文一鳴驚人!賴清德終成笑話,國民黨3人丟盡臉

      大陸表態后、鄭麗文一鳴驚人!賴清德終成笑話,國民黨3人丟盡臉

      青梅侃史啊
      2026-05-05 19:39:00
      善惡到頭終有報,如今73歲的唐國強,已經走上了一條不歸路!

      善惡到頭終有報,如今73歲的唐國強,已經走上了一條不歸路!

      吳蒂旅行ing
      2026-03-20 05:20:46
      老婆出軌后,對方的妻子上門找到我:你媳婦跟我老公好上了

      老婆出軌后,對方的妻子上門找到我:你媳婦跟我老公好上了

      千秋文化
      2026-05-04 18:38:07
      閨蜜大婚我隨了5000,她回禮雨傘,看見傘柄刻著地址和6個數字

      閨蜜大婚我隨了5000,她回禮雨傘,看見傘柄刻著地址和6個數字

      磊子講史
      2026-01-23 16:54:49
      賴清德返臺不到10小時,特朗普就對中國喊話,臺當局淪為犧牲品

      賴清德返臺不到10小時,特朗普就對中國喊話,臺當局淪為犧牲品

      徐竦解說
      2026-05-05 22:27:35
      羅翔:如果一個人突然努力工作,業余時間開始學習,不再參加社交活動,那么,身邊的人可能不僅不會幫他,還會拉他下來,原因就一個!

      羅翔:如果一個人突然努力工作,業余時間開始學習,不再參加社交活動,那么,身邊的人可能不僅不會幫他,還會拉他下來,原因就一個!

      譚老師地理大課堂
      2026-04-22 00:03:57
      2026年上海浦東新區房價大幅下滑區域

      2026年上海浦東新區房價大幅下滑區域

      石辰搞笑日常
      2026-05-06 05:51:11
      高圓圓坦言:40歲高齡為小丈夫誕下寶貝,是我這輩子最正確且決定

      高圓圓坦言:40歲高齡為小丈夫誕下寶貝,是我這輩子最正確且決定

      一盅情懷
      2026-05-04 15:53:35
      京東秒送“倒閉”神曲

      京東秒送“倒閉”神曲

      我不叫阿哏
      2026-05-05 15:53:09
      5.6凌晨世乒賽16強全:國乒絕地反擊大獲全勝 韓乒零封 張本又爆冷

      5.6凌晨世乒賽16強全:國乒絕地反擊大獲全勝 韓乒零封 張本又爆冷

      林子說事
      2026-05-06 05:47:41
      2026-05-06 08:32:49
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3372文章數 11146關注度
      往期回顧 全部

      科技要聞

      傳蘋果考慮讓英特爾、三星代工設備處理器

      頭條要聞

      小伙去理發被店家弄到VIP房間后臉白了 聯系父母要錢

      頭條要聞

      小伙去理發被店家弄到VIP房間后臉白了 聯系父母要錢

      體育要聞

      全世界都等著看他笑話,他帶國米拿下冠軍

      娛樂要聞

      內娛真情誼!楊紫為謝娜演唱會送花籃

      財經要聞

      套現約455億,李嘉誠又賣了

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態度原創

      家居
      時尚
      親子
      旅游
      房產

      家居要聞

      靈動實用 生活藝術場

      衣服不用準備太多,找到一些實用的單品才最重要,百搭又有性價比

      親子要聞

      這個五一,帶寶寶來北海看海啦~銀灘細沙海浪,是小朋友最愛的天

      旅游要聞

      山西應縣木塔推出AI沉浸式體驗 一起“云端登塔”探秘古建

      房產要聞

      五一樓市徹底明牌!塔尖人群都在重倉凱旋新世界

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲一区二区色一琪琪| 99热这里只有精品久久免费| 美女大bxxxxn内射| 日产亚洲一区二区三区| 丝袜美腿视频一区二区三区| 欧美有码在线| 丁香五月综合| 3p人妻少妇对白精彩视频| 视频二区中文字幕在线| 99re6在线视频精品免费| 99re8免费视频精品全部| 亚洲AV日韩AV无码中出| 凯里市| 亚洲AV午夜成人无码电影| 中文字幕日韩精品有码| 性天堂网| 久久久久久久久888| 亚洲成av人在线观看网站| 成人国产欧美大片一区| 亚洲高清WWW色好看美女| 无码人妻久久一区二区三区| 国产精品高清一区二区三区| 欧美精品在线视频观看| 一区二区三区放荡人妻| 手机av中文字幕| 国产一级二级三级毛片| 亚洲综合色成在线观看| 九九亚洲女同一区| 成人网在线| 免费观看一区二区三区| 成人东方AV天堂| 99久久无色码中文字幕人妻| 92在线精品视频在线播放| 在线播放精品一区二区啪视频| 日日橹狠狠爱欧美视频| 超碰人人草| 在线观看国产一区亚洲bd| 自偷自拍亚洲综合精品图片| 中文人妻无码一区二区三区信息 | 久久精品一区二区三区蜜桃| 日韩欧美性爱|