開源大模型必會附上在不同 benchmark 上的刷分情況以及排名
SWE-bench、GPQA、HLE、Terminal-Bench……
很多同學看不明白,這些 benchmark 都具體考驗的模型的哪些能力
剛在 HF 上看到一個動態 race 圖展示最近一年開源大模型在不同 benchmark 上,不同大模型的排名
本文就逐個、詳細介紹一下
![]()
地址:huggingface.co/spaces/davanstrien/benchmark-race 一、SWE-bench Verified —— 真實代碼倉庫的「修 bug 終極考」
出品方 :OpenAI × Princeton(Preparedness 團隊聯合普林斯頓)
測什么 :AI Agent 在 真實開源項目 里端到端解決 GitHub Issue 的能力
數據形式 :500 道經過人工篩查的任務,全部來自 12 個主流 Python 開源倉庫(Django、sympy、scikit-learn 等)
怎么算對 :每道題自帶兩組單元測試——
FAIL_TO_PASS(修好后才該通過)+PASS_TO_PASS(不能把別的功能改壞),全部通過才算解決
為啥叫 Verified?因為原版 SWE-bench 里有不少題目本身描述模糊、測試不靠譜,會冤枉模型。OpenAI 找了一批專業工程師把 2294 道題逐道篩選,留下 500 道描述清晰、測試合理、人類工程師能搞定的高質量題,作為業界公認的「干凈版」SWE-bench
簡單說就是:把 AI 當一個真實程序員丟進開源項目里,讓它自己讀 issue、自己改代碼、自己跑測試,看它能不能把 bug 真的修掉
? 這是衡量「AI 編程 Agent」能力最權威的指標之一
目前最強:DeepSeek-V4-Pro
我沒想到 DeepSeek-V4-Flash 居然也這么強,可以拍第三
![]()
SWE-bench Verified 二、SWE-bench Pro —— 工業級長鏈路代碼工程考核
出品方 :Scale AI
測什么 :在 更大、更臟、更長鏈路 的工程任務上,Agent 能不能扛得住
數據形式 :1865 道人工驗證的任務,覆蓋 41 個倉庫,平均一個補丁要改 100+ 行代碼、跨多個文件
核心創新 :抗污染設計,專門用 GPL 強 copyleft 協議倉庫 + 商業閉源倉庫,降低被訓練數據「背過」的可能
數據集分三塊:
Public Set(731 題,11 個開源倉庫,公開可評測)
Held-Out Set(858 題,12 個私有倉庫,防過擬合)
Commercial Set(276 題,18 個商業倉庫,僅放榜不放數據)
主指標叫 Resolve Rate——Agent 給出的補丁能否在 Docker 隔離環境里完整通過 build + test
為什么要搞 Pro 版?因為 SWE-bench Verified 任務相對短小,而真實工業代碼動不動就幾百行修改、跨多文件重構。SWE-bench Pro 就是沖著「長程任務(long-horizon)」去的,目前頂級模型 Pass@1 也就 25% 左右,區分度極強
目前最強:Kimi-K2.6
![]()
SWE-bench Pro 三、MMLU-Pro —— MMLU 的「加難版」,14 個學科混合推理
出品方 :滑鐵盧大學 TIGER-Lab,NeurIPS 2024 收錄
測什么 :跨學科知識 + 推理能力 (不再是單純背知識)
數據形式 :12000+ 道題,覆蓋數學、物理、化學、生物、計算機、經濟、法律、心理、哲學等 14 個學科
關鍵改造 :選項從 4 個擴到 10 個 ,蒙對概率從 25% 直降到 10%;同時剔除 MMLU 里的噪聲題、加入更多需要多步推理的難題
老牌的 MMLU 這兩年已經被打榜打到「飽和」,頂級模型動輒 88-90%,區分不出誰更強。MMLU-Pro 一上來就把所有模型分數砍掉 16-33%,重新拉開差距
更關鍵的變化:在 MMLU 上「直接答」往往比 CoT(思維鏈)還好;但在 MMLU-Pro 上,**帶 CoT 推理的提分能到 20%**,說明它真的在測推理而不是測記憶
? 簡單理解:MMLU-Pro 是給 LLM 準備的「研究生綜合考試」,知識面 + 推理力一起考
目前最強:Qwen3.5-397B-A17B
為何不是 Qwen3.6,因為它沒開源呢
![]()
MMLU-Pro 四、GPQA Diamond —— 博士級別的「Google-Proof」科學推理
出品方 :NYU + Cohere + Anthropic 聯合研究團隊
測什么 : 博士級 生物、物理、化學的硬核推理能力
數據形式 :從原版 GPQA 448 道題里抽出 最難的 198 道 作為 Diamond 子集,全是 PhD 出題、PhD 復核
核心特性 :Google-Proof—— 專家聯網搜也搜不到答案 ,必須靠真理解
人類參考分數很有意思:
學科內 PhD 專家:約 81% 準確率
學科外的高水平非專家(聯網答題):約 22%(基本等于瞎蒙的 25%)
題目長這樣:核磁共振譜里某個化學位移的位置變化,對應的反應可能用了哪一族元素?4 選 1,但每個選項都精心設計成似是而非。這種題你想用搜索引擎走捷徑基本沒戲
GPQA Diamond 已經是開源/閉源大模型評測的「博士理科卷」標配,你看到的多數模型 GPQA 分數指的就是 Diamond 子集
目前最強:Kimi-K2.6
![]()
GPQA Diamond 五、HLE(Humanity's Last Exam)—— 人類的「最后一卷」
出品方 :Center for AI Safety(CAIS)× Scale AI,2026 年 1 月 Nature 正刊發表
測什么 : 人類知識前沿 的封閉式考試,定位是「最后一份這種類型的學術 benchmark」
數據形式 :2500 道公開題(另有私有集防過擬合),覆蓋數學、理工、人文、醫學、計算機等 100+ 學科;約 24% 是多選,其余是短答精確匹配;約 14% 題目帶圖(多模態)
參與出題的有近 1000 位貢獻者,來自 50+ 國家、500+ 機構,絕大多數是科研一線的教授/博士
為啥叫「最后一卷」?因為 MMLU、GPQA 這種已經被頂級模型打到 90%+,區分度走到盡頭。HLE 把難度往人類專家天花板推:
人類領域專家:約 90%
主流前沿模型(2026 年初):40-50% 上下
每道題答案都設計成可機器自動驗證(精確匹配或單選),同時還能評估模型的「自信度校準」(calibration)——答錯時它有沒有自知之明
? 這是目前公認最難的封閉式學術 benchmark
目前最強:Kimi-K2.6
![]()
HLE 六、AIME 2026 —— 高中奧數級數學推理
出品方 :題目源自 MAA(美國數學協會)每年舉辦的 American Invitational Mathematics Examination
測什么 : 奧數級 多步符號推理、代數/幾何/數論/組合的硬核解題能力
數據形式 :30 道題(AIME I 15 道 + AIME II 15 道,2026 年 2 月剛開考),每題答案是 0–999 的整數 , 不給部分分
評測方式 :Pass@1 精確匹配,閉卷做題,沒有任何工具/搜索輔助
為什么社區都在用 AIME 當數學 benchmark?
新鮮不污染 :每年題目當年 2 月才公開,對任何 2025 年前訓練完的模型都是「真盲考」
不可背答案 :30 道全是新題,沒有題庫可背
強逼 CoT :每道題平均 5-10 步推理,不寫思維鏈根本做不出
難度足夠 :高中競賽級,比 GSM8K、MATH 都更硬
人類頂級 AIME 選手中位數也就 4-6 題(約 30-40%),現在頂級 LLM 已經能做到 95%+,是 LLM 數學能力近兩年突飛猛進最直接的證據
目前最強:Step-3.5-Flash
這個模型我不太了解啊,不評價
這個榜單 DeepSeek-V4 沒參與
![]()
AIME 2026 七、HMMT Feb 2026 —— 哈佛-MIT 數學競賽 2 月賽
出品方 :題目來自 Harvard-MIT Math Tournament(HMMT),評測平臺主要是 ETH Zurich SRI Lab 的 MathArena
測什么 :和 AIME 同類,但 整體更難 ——介于 AIME 和奧賽之間
數據形式 :2026 年 2 月賽的題目,覆蓋代數、幾何、數論、組合,部分是開放式答案
核心價值 : 反污染 ——MathArena 的設計原則就是用「賽后第一時間發布」的新題來測 LLM,確保模型沒在訓練集里見過
HMMT 是和 Putnam、AMC、AIME 齊名的頂級高中/大學預科數學競賽,難度比 AIME 高一檔。這也是為啥同樣一個模型在 AIME 上能 95+,在 HMMT 上往往就掉到 80-90
如果你看到一個開源模型只刷 AIME 不刷 HMMT,那就要警惕——很可能在 AIME 上有「專項訓練」,但在更難、更新的 HMMT 上原形畢露
目前最強:Kimi-K2.6
![]()
HMMT Feb 2026 八、olmOCR-bench —— 文檔 OCR 的「單元測試式」評測
出品方 :Allen Institute for AI(AI2)
測什么 : 真實復雜文檔 的 OCR / 文檔理解能力(公式、表格、閱讀順序、掃描件、多欄排版……)
數據形式 :1403 份真實/合成 PDF,附帶 7000+ 單元測試 (pass/fail 二元判定)
創新點 :不再用「整頁字符串編輯距離」這種粗糙指標,而是把每道題做成 可機器驗證的「事實斷言」
具體來看,每個測試就是一條斷言,比如:
「這段文字必須出現,且順序正確」
「這個數學公式里 x 必須在分子位置」
「表格 A1 單元格的值必須出現在 B1 之上」
「頁眉/頁腳不該出現在正文里」
考點覆蓋六大典型場景:arXiv 論文里的公式、復雜嵌套表格、多欄布局、老舊掃描件、密集小字、頁眉頁腳的去除
? 這是目前評測「VLM/OCR 模型在真實文檔上能不能用」最嚴謹的開放 benchmark,國產 dots.ocr、PaddleOCR-VL、MinerU 等很多模型都在拿它打分
目前最強:不不熟悉的模型
眼熟的就拍第三的 dots
![]()
olmOCR-bench 九、Terminal-Bench 2.0 —— Agent 在真實命令行里搞工程
出品方 :Stanford × Laude Institute,Anthropic 等前沿實驗室深度參與
測什么 :AI Agent 在 真實 Linux 終端 里完成端到端工程任務的能力
數據形式 :80+ 道人工策劃任務(2.0 版本),每道題在獨立 Docker 容器里運行,自動化測試判定成敗
覆蓋范圍 :軟件工程(構建/調試/部署)、系統管理(服務器配置/網絡)、安全(漏洞評估/加密)、科學計算(蛋白質組裝/數據流水線)、機器學習(模型訓練/推理部署)
任務設計三原則:Solvable(人類有參考解法)、Realistic(真實工作場景)、Well-specified(成功標準明確可自動判定)
舉幾個真實題目你感受下:
編譯指定版本 Linux Kernel 并打補丁
給內網服務配置自簽 TLS 證書
調試一段并發 bug 的 Python async 代碼
在顯存/精度約束下跑完一次 ML 訓練
評測框架叫 Harbor,統一管理 Agent 生命周期、命令交互、日志記錄。這是目前 Anthropic、OpenAI、Google 都在卷的「Agentic 系統」實戰考場,跟 SWE-bench 的「修代碼」是互補的,更偏「在系統里干活」
目前最強:GLM-5.1
![]()
Terminal-Bench 2.0 十、EvasionBench —— 檢測 LLM「答非所問、避而不答」
出品方 :開源團隊(IIIIQIIII),論文掛在 arXiv 2601.09142
測什么 :模型在面對 敏感/尖銳問題 時,是否在用「話術繞過」「答非所問」這種隱性 evasion
數據來源 :2270 萬對 S&P Capital IQ 上市公司財報電話會議 Q&A,過濾后構建 84000 訓練集 + 1000 道金標測試集(專家標注)
它把 evasion 分成三檔:
| 等級 | 含義 | ||| | Direct | 完整、明確地正面回答了核心問題 | | Intermediate | 給出相鄰信息、打太極、拐彎抹角不正面回答 | | Fully Evasive | 直接忽略問題、拒答,或徹底跑題 |
標注方法用了 Multi-Model Consensus(MMC):多個強 LLM 投票打標,分歧大的題反而被當作「高價值難題」重點人工裁決,最終一致性 Cohen's κ = 0.835,相當扎實
配套還有一個 4B 參數的分類器 Eva-4B(基于 Qwen3-4B 微調),在金標集 Macro-F1 跑到 84.9%,反而把 Claude 4.5、GPT-5.2、Gemini 3 Flash 這些前沿模型都甩在后面——說明這件事「難在數據,不難在參數」
? 大模型評測從「答得對不對」走向「答得真不真」、「躲沒躲」,這是個有意思的方向
這個就不截圖了,N 多模型廠商不在此榜單公布分數了
One More Thing
回頭看這 10 個 benchmark,其實可以分成 5 個能力維度,方便你下次看榜單時心里有數:
| 能力維度 | 對應 Benchmark | ||-| | 代碼工程能力 | SWE-bench Verified、SWE-bench Pro | | 綜合知識 + 推理 | MMLU-Pro、GPQA Diamond、HLE | | 數學推理 | AIME 2026、HMMT Feb 2026 | | 多模態/文檔理解 | olmOCR-bench | | Agent 實戰 | Terminal-Bench 2.0 | | 誠實性/對齊 | EvasionBench |
下次再看到一張寫滿 benchmark 的開源模型海報,至少不會再被一堆縮寫繞暈了
幾個看榜單的小建議:
別只看一個數 :每個 benchmark 測的是一個切面,編程強的不一定數學好,數學好的不一定 Agent 能力強
警惕「專項過擬合」 :只刷 AIME 不刷 HMMT、只刷 Verified 不刷 Pro,往往有貓膩
HLE 是新天花板 :MMLU/GPQA 已經卷到 90+,HLE 這種 40-50% 段位的 benchmark 才是接下來一兩年衡量「前沿能力」的真正標尺
Agent 類 benchmark 是下一個主戰場 :Terminal-Bench、SWE-bench Pro 這種長鏈路、真實環境的考核,比傳統 QA 更能反映「能不能真用」
制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.