網易首頁 > 網易號 > 正文申請入駐

開源大模型榜單,10個主流Benchmark一次講清，附排名

2026-04-29 13:13:14　來源: Ai學習的老章

北京舉報

分享至

開源大模型必會附上在不同 benchmark 上的刷分情況以及排名

SWE-bench、GPQA、HLE、Terminal-Bench……

很多同學看不明白，這些 benchmark 都具體考驗的模型的哪些能力

剛在 HF 上看到一個動態 race 圖展示最近一年開源大模型在不同 benchmark 上，不同大模型的排名

本文就逐個、詳細介紹一下

地址：huggingface.co/spaces/davanstrien/benchmark-race 一、SWE-bench Verified —— 真實代碼倉庫的「修 bug 終極考」

出品方 ：OpenAI × Princeton（Preparedness 團隊聯合普林斯頓）
測什么 ：AI Agent 在 真實開源項目 里端到端解決 GitHub Issue 的能力
數據形式 ：500 道經過人工篩查的任務，全部來自 12 個主流 Python 開源倉庫（Django、sympy、scikit-learn 等）
怎么算對 ：每道題自帶兩組單元測試—— FAIL_TO_PASS （修好后才該通過）+ PASS_TO_PASS （不能把別的功能改壞），全部通過才算解決

為啥叫 Verified？因為原版 SWE-bench 里有不少題目本身描述模糊、測試不靠譜，會冤枉模型。OpenAI 找了一批專業工程師把 2294 道題逐道篩選，留下 500 道描述清晰、測試合理、人類工程師能搞定的高質量題，作為業界公認的「干凈版」SWE-bench

簡單說就是：把 AI 當一個真實程序員丟進開源項目里，讓它自己讀 issue、自己改代碼、自己跑測試，看它能不能把 bug 真的修掉

? 這是衡量「AI 編程 Agent」能力最權威的指標之一

目前最強：DeepSeek-V4-Pro

我沒想到 DeepSeek-V4-Flash 居然也這么強，可以拍第三

SWE-bench Verified 二、SWE-bench Pro —— 工業級長鏈路代碼工程考核

出品方 ：Scale AI
測什么 ：在 更大、更臟、更長鏈路 的工程任務上，Agent 能不能扛得住
數據形式 ：1865 道人工驗證的任務，覆蓋 41 個倉庫，平均一個補丁要改 100+ 行代碼、跨多個文件
核心創新 ：抗污染設計，專門用 GPL 強 copyleft 協議倉庫 + 商業閉源倉庫，降低被訓練數據「背過」的可能

數據集分三塊：

Public Set（731 題，11 個開源倉庫，公開可評測）
Held-Out Set（858 題，12 個私有倉庫，防過擬合）
Commercial Set（276 題，18 個商業倉庫，僅放榜不放數據）

主指標叫 Resolve Rate——Agent 給出的補丁能否在 Docker 隔離環境里完整通過 build + test

為什么要搞 Pro 版？因為 SWE-bench Verified 任務相對短小，而真實工業代碼動不動就幾百行修改、跨多文件重構。SWE-bench Pro 就是沖著「長程任務（long-horizon）」去的，目前頂級模型 Pass@1 也就 25% 左右，區分度極強

目前最強：Kimi-K2.6

SWE-bench Pro 三、MMLU-Pro —— MMLU 的「加難版」，14 個學科混合推理

出品方 ：滑鐵盧大學 TIGER-Lab，NeurIPS 2024 收錄
測什么 ：跨學科知識 + 推理能力 （不再是單純背知識）
數據形式 ：12000+ 道題，覆蓋數學、物理、化學、生物、計算機、經濟、法律、心理、哲學等 14 個學科
關鍵改造 ：選項從 4 個擴到 10 個 ，蒙對概率從 25% 直降到 10%；同時剔除 MMLU 里的噪聲題、加入更多需要多步推理的難題

老牌的 MMLU 這兩年已經被打榜打到「飽和」，頂級模型動輒 88-90%，區分不出誰更強。MMLU-Pro 一上來就把所有模型分數砍掉 16-33%，重新拉開差距

更關鍵的變化：在 MMLU 上「直接答」往往比 CoT（思維鏈）還好；但在 MMLU-Pro 上，**帶 CoT 推理的提分能到 20%**，說明它真的在測推理而不是測記憶

? 簡單理解：MMLU-Pro 是給 LLM 準備的「研究生綜合考試」，知識面 + 推理力一起考

目前最強：Qwen3.5-397B-A17B

為何不是 Qwen3.6，因為它沒開源呢

MMLU-Pro 四、GPQA Diamond —— 博士級別的「Google-Proof」科學推理

出品方 ：NYU + Cohere + Anthropic 聯合研究團隊
測什么 ： 博士級 生物、物理、化學的硬核推理能力
數據形式 ：從原版 GPQA 448 道題里抽出 最難的 198 道 作為 Diamond 子集，全是 PhD 出題、PhD 復核
核心特性 ：Google-Proof—— 專家聯網搜也搜不到答案 ，必須靠真理解

人類參考分數很有意思：

學科內 PhD 專家：約 81% 準確率
學科外的高水平非專家（聯網答題）：約 22%（基本等于瞎蒙的 25%）

題目長這樣：核磁共振譜里某個化學位移的位置變化，對應的反應可能用了哪一族元素？4 選 1，但每個選項都精心設計成似是而非。這種題你想用搜索引擎走捷徑基本沒戲

GPQA Diamond 已經是開源/閉源大模型評測的「博士理科卷」標配，你看到的多數模型 GPQA 分數指的就是 Diamond 子集

目前最強：Kimi-K2.6

GPQA Diamond 五、HLE（Humanity's Last Exam）—— 人類的「最后一卷」

出品方 ：Center for AI Safety（CAIS）× Scale AI，2026 年 1 月 Nature 正刊發表
測什么 ： 人類知識前沿 的封閉式考試，定位是「最后一份這種類型的學術 benchmark」
數據形式 ：2500 道公開題（另有私有集防過擬合），覆蓋數學、理工、人文、醫學、計算機等 100+ 學科；約 24% 是多選，其余是短答精確匹配；約 14% 題目帶圖（多模態）

參與出題的有近 1000 位貢獻者，來自 50+ 國家、500+ 機構，絕大多數是科研一線的教授/博士

為啥叫「最后一卷」？因為 MMLU、GPQA 這種已經被頂級模型打到 90%+，區分度走到盡頭。HLE 把難度往人類專家天花板推：

人類領域專家：約 90%
主流前沿模型（2026 年初）：40-50% 上下

每道題答案都設計成可機器自動驗證（精確匹配或單選），同時還能評估模型的「自信度校準」（calibration）——答錯時它有沒有自知之明

? 這是目前公認最難的封閉式學術 benchmark

目前最強：Kimi-K2.6

HLE 六、AIME 2026 —— 高中奧數級數學推理

出品方 ：題目源自 MAA（美國數學協會）每年舉辦的 American Invitational Mathematics Examination
測什么 ： 奧數級 多步符號推理、代數/幾何/數論/組合的硬核解題能力
數據形式 ：30 道題（AIME I 15 道 + AIME II 15 道，2026 年 2 月剛開考），每題答案是 0–999 的整數 ， 不給部分分
評測方式 ：Pass@1 精確匹配，閉卷做題，沒有任何工具/搜索輔助

為什么社區都在用 AIME 當數學 benchmark？

新鮮不污染 ：每年題目當年 2 月才公開，對任何 2025 年前訓練完的模型都是「真盲考」
不可背答案 ：30 道全是新題，沒有題庫可背
強逼 CoT ：每道題平均 5-10 步推理，不寫思維鏈根本做不出
難度足夠 ：高中競賽級，比 GSM8K、MATH 都更硬

人類頂級 AIME 選手中位數也就 4-6 題（約 30-40%），現在頂級 LLM 已經能做到 95%+，是 LLM 數學能力近兩年突飛猛進最直接的證據

目前最強：Step-3.5-Flash

這個模型我不太了解啊，不評價

這個榜單 DeepSeek-V4 沒參與

AIME 2026 七、HMMT Feb 2026 —— 哈佛-MIT 數學競賽 2 月賽

出品方 ：題目來自 Harvard-MIT Math Tournament（HMMT），評測平臺主要是 ETH Zurich SRI Lab 的 MathArena
測什么 ：和 AIME 同類，但 整體更難 ——介于 AIME 和奧賽之間
數據形式 ：2026 年 2 月賽的題目，覆蓋代數、幾何、數論、組合，部分是開放式答案
核心價值 ： 反污染 ——MathArena 的設計原則就是用「賽后第一時間發布」的新題來測 LLM，確保模型沒在訓練集里見過

HMMT 是和 Putnam、AMC、AIME 齊名的頂級高中/大學預科數學競賽，難度比 AIME 高一檔。這也是為啥同樣一個模型在 AIME 上能 95+，在 HMMT 上往往就掉到 80-90

如果你看到一個開源模型只刷 AIME 不刷 HMMT，那就要警惕——很可能在 AIME 上有「專項訓練」，但在更難、更新的 HMMT 上原形畢露

目前最強：Kimi-K2.6

HMMT Feb 2026 八、olmOCR-bench —— 文檔 OCR 的「單元測試式」評測

出品方 ：Allen Institute for AI（AI2）
測什么 ： 真實復雜文檔 的 OCR / 文檔理解能力（公式、表格、閱讀順序、掃描件、多欄排版……）
數據形式 ：1403 份真實/合成 PDF，附帶 7000+ 單元測試 （pass/fail 二元判定）
創新點 ：不再用「整頁字符串編輯距離」這種粗糙指標，而是把每道題做成 可機器驗證的「事實斷言」

具體來看，每個測試就是一條斷言，比如：

「這段文字必須出現，且順序正確」
「這個數學公式里 x 必須在分子位置」
「表格 A1 單元格的值必須出現在 B1 之上」
「頁眉/頁腳不該出現在正文里」

考點覆蓋六大典型場景：arXiv 論文里的公式、復雜嵌套表格、多欄布局、老舊掃描件、密集小字、頁眉頁腳的去除

? 這是目前評測「VLM/OCR 模型在真實文檔上能不能用」最嚴謹的開放 benchmark，國產 dots.ocr、PaddleOCR-VL、MinerU 等很多模型都在拿它打分

目前最強：不不熟悉的模型

眼熟的就拍第三的 dots

olmOCR-bench 九、Terminal-Bench 2.0 —— Agent 在真實命令行里搞工程

出品方 ：Stanford × Laude Institute，Anthropic 等前沿實驗室深度參與
測什么 ：AI Agent 在 真實 Linux 終端 里完成端到端工程任務的能力
數據形式 ：80+ 道人工策劃任務（2.0 版本），每道題在獨立 Docker 容器里運行，自動化測試判定成敗
覆蓋范圍 ：軟件工程（構建/調試/部署）、系統管理（服務器配置/網絡）、安全（漏洞評估/加密）、科學計算（蛋白質組裝/數據流水線）、機器學習（模型訓練/推理部署）

任務設計三原則：Solvable（人類有參考解法）、Realistic（真實工作場景）、Well-specified（成功標準明確可自動判定）

舉幾個真實題目你感受下：

編譯指定版本 Linux Kernel 并打補丁
給內網服務配置自簽 TLS 證書
調試一段并發 bug 的 Python async 代碼
在顯存/精度約束下跑完一次 ML 訓練

評測框架叫 Harbor，統一管理 Agent 生命周期、命令交互、日志記錄。這是目前 Anthropic、OpenAI、Google 都在卷的「Agentic 系統」實戰考場，跟 SWE-bench 的「修代碼」是互補的，更偏「在系統里干活」

目前最強：GLM-5.1

Terminal-Bench 2.0 十、EvasionBench —— 檢測 LLM「答非所問、避而不答」

出品方 ：開源團隊（IIIIQIIII），論文掛在 arXiv 2601.09142
測什么 ：模型在面對 敏感/尖銳問題 時，是否在用「話術繞過」「答非所問」這種隱性 evasion
數據來源 ：2270 萬對 S&P Capital IQ 上市公司財報電話會議 Q&A，過濾后構建 84000 訓練集 + 1000 道金標測試集（專家標注）

它把 evasion 分成三檔：

| 等級 | 含義 | ||| | Direct | 完整、明確地正面回答了核心問題 | | Intermediate | 給出相鄰信息、打太極、拐彎抹角不正面回答 | | Fully Evasive | 直接忽略問題、拒答，或徹底跑題 |

標注方法用了 Multi-Model Consensus（MMC）：多個強 LLM 投票打標，分歧大的題反而被當作「高價值難題」重點人工裁決，最終一致性 Cohen's κ = 0.835，相當扎實

配套還有一個 4B 參數的分類器 Eva-4B（基于 Qwen3-4B 微調），在金標集 Macro-F1 跑到 84.9%，反而把 Claude 4.5、GPT-5.2、Gemini 3 Flash 這些前沿模型都甩在后面——說明這件事「難在數據，不難在參數」

? 大模型評測從「答得對不對」走向「答得真不真」、「躲沒躲」，這是個有意思的方向

這個就不截圖了，N 多模型廠商不在此榜單公布分數了

One More Thing

回頭看這 10 個 benchmark，其實可以分成 5 個能力維度，方便你下次看榜單時心里有數：

| 能力維度 | 對應 Benchmark | ||-| | 代碼工程能力 | SWE-bench Verified、SWE-bench Pro | | 綜合知識 + 推理 | MMLU-Pro、GPQA Diamond、HLE | | 數學推理 | AIME 2026、HMMT Feb 2026 | | 多模態/文檔理解 | olmOCR-bench | | Agent 實戰 | Terminal-Bench 2.0 | | 誠實性/對齊 | EvasionBench |

下次再看到一張寫滿 benchmark 的開源模型海報，至少不會再被一堆縮寫繞暈了

幾個看榜單的小建議：

別只看一個數 ：每個 benchmark 測的是一個切面，編程強的不一定數學好，數學好的不一定 Agent 能力強
警惕「專項過擬合」 ：只刷 AIME 不刷 HMMT、只刷 Verified 不刷 Pro，往往有貓膩
HLE 是新天花板 ：MMLU/GPQA 已經卷到 90+，HLE 這種 40-50% 段位的 benchmark 才是接下來一兩年衡量「前沿能力」的真正標尺
Agent 類 benchmark 是下一個主戰場 ：Terminal-Bench、SWE-bench Pro 這種長鏈路、真實環境的考核，比傳統 QA 更能反映「能不能真用」

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.