<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      評(píng)測(cè)大模型何須「萬題海戰(zhàn)」?上交 EssenceBench:數(shù)據(jù)壓縮200倍,排名一致性達(dá)95%

      0
      分享至


      僅需50道題就能測(cè)準(zhǔn)GSM8K?大模型評(píng)測(cè)界的“瘦身革命”來了!

      上海交通大學(xué)、阿里Qwen團(tuán)隊(duì)等提出 EssenceBench——首個(gè)由粗到細(xì)、結(jié)合進(jìn)化算法的評(píng)測(cè)基準(zhǔn)壓縮框架。它不僅能剔除榜單中的“水分”,還能通過遺傳算法(GA)精選出最具代表性的“精華題”,僅用 1/200 的數(shù)據(jù)量,就能實(shí)現(xiàn) 95% 的排名一致性!

      就像一位經(jīng)驗(yàn)豐富的考官,不用讓學(xué)生做完整本五三模擬,只挑幾道關(guān)鍵大題,就能精準(zhǔn)排好全班座次。


      論文基本信息

      論文標(biāo)題:Rethinking LLM Evaluation: Can We Evaluate LLMs with 200x Less Data?

      論文鏈接:https://arxiv.org/abs/2510.10457

      Github地址:https://github.com/gszfwsb/EssenceBench

      關(guān)鍵詞:基準(zhǔn)壓縮、大模型評(píng)測(cè)、遺傳算法、樣本冗余、排名一致性

      本文共同第一作者王少博(Shaobo Wang)為上海交通大學(xué)博士生,王聰(Cong Wang)來自上海交大 EPIC Lab, Wenjie Fu 來自復(fù)旦大學(xué)。通訊作者為其導(dǎo)師、上海交大助理教授張林峰。本文其他作者來自香港科技大學(xué)、上海AI Lab、智譜AI等機(jī)構(gòu)。

      01


      評(píng)測(cè)大模型,跑分跑斷腿?

      模型有苦難言:“OpenCompass有上百個(gè)任務(wù),測(cè)我一次要燒掉大約1000個(gè)GPU小時(shí),能不能省省?”

      隨著大模型能力維度的擴(kuò)張,Benchmark(評(píng)測(cè)基準(zhǔn))的數(shù)量和體積也急劇膨脹。傳統(tǒng)的全量評(píng)測(cè)存在三大痛點(diǎn):

      • 貴:測(cè)一個(gè)Qwen2.5-7B-Instruct就要耗費(fèi)數(shù)千萬Token;

      • 慢:迭代一個(gè)版本等評(píng)測(cè)結(jié)果要等到花兒都謝了;

      • 水:很多題目其實(shí)是“重復(fù)造輪子”,測(cè)了也白測(cè)。

      而 EssenceBench 就像評(píng)測(cè)界的“濃縮咖啡”——體積雖小,提神醒腦(效果保真)。

      02


      現(xiàn)象洞察:榜單“注水”有多嚴(yán)重?

      EssenceBench 首先對(duì)Open LLM Leaderboard進(jìn)行了深入的“體檢”,發(fā)現(xiàn)樣本冗余現(xiàn)象普遍存在。論文定義了兩種冗余:

      文本冗余 (Text Redundancy):

      • 定義:利用 BGE-M3 等嵌入模型計(jì)算題目間的語義相似度。

      • 現(xiàn)象:很多題目?jī)H僅是更換了人名、地名或微調(diào)了句式,核心語義完全一致。這種“換皮題”在榜單中大量存在。

      排名冗余 (Ranking Redundancy):

      • 定義:這是一種更隱蔽的冗余。論文計(jì)算了不同題目在所有模型上的排名之間的皮爾遜相關(guān)系數(shù)。

      • 現(xiàn)象:如果兩道題,所有模型的得分模式都一樣(例如:模型A、B都對(duì),模型C、D都錯(cuò)),那么它們提供的“區(qū)分度信息”就是重復(fù)的。保留兩道這樣的題,除了增加計(jì)算量,無法提供更多關(guān)于模型能力差異的信息。


      03


      方法機(jī)制:由粗到細(xì),遺傳算法“進(jìn)化”出黃金考卷

      與傳統(tǒng)的訓(xùn)練側(cè)數(shù)據(jù)壓縮不同,訓(xùn)練數(shù)據(jù)的壓縮往往基于注意力分?jǐn)?shù),梯度,EL2N分?jǐn)?shù),保證最終的性能與全集數(shù)據(jù)訓(xùn)練的性能持平甚至超過。測(cè)試集壓縮往往注重模型的排名一致性,而不簡(jiǎn)單的只進(jìn)行分?jǐn)?shù)重構(gòu)。

      EssenceBench 將基準(zhǔn)壓縮視為一個(gè)復(fù)雜的組合優(yōu)化問題,提出了一個(gè)三階段的由粗到細(xì) (Coarse-to-Fine)框架:

      1. 粗粒度過濾 (Coarse Filtering) —— 先把水的擠干

      榜單里充斥著“孿生題”!EssenceBench 發(fā)現(xiàn)主要有兩種冗余:

      • 文本冗余:題目換個(gè)說法,意思完全一樣;

      • 排名冗余:有些題大家要么都對(duì)、要么都錯(cuò),根本拉不開分差。 利用二進(jìn)制得分矩陣,直接砍掉這些無效樣本。

      2. 子集搜索 (Subset Search) —— 遺傳算法登場(chǎng)

      如何在剩下的題目中選出最好的組合?暴力搜索是不可能的(組合數(shù)是天文數(shù)字)。EssenceBench 引入了遺傳算法 (GA)

      • 利用遺傳算法 (GA)在剩下的題目中進(jìn)行“優(yōu)勝劣汰”;

      • 通過交叉、變異、錦標(biāo)賽選擇,尋找能最小化預(yù)測(cè)誤差(RMSE)的題目組合;

      • 訓(xùn)練一個(gè)輕量級(jí)預(yù)測(cè)器(GAM),快速預(yù)判子集分?jǐn)?shù)。

      3. 歸因細(xì)化 (attribution refinement) —— 歸因分析保多樣

      為了防止選出來的題太偏(比如只選了難題,忽略了基礎(chǔ)題),EssenceBench 引入了EBM (Explainable Boosting Machine)進(jìn)行歸因分析:

      • 為了防止選出來的題太偏,利用EBM (Explainable Boosting Machine)計(jì)算樣本歸因分?jǐn)?shù);

      • 根據(jù)分?jǐn)?shù)將題目分組(高貢獻(xiàn)、低貢獻(xiàn)、隨機(jī)),再次進(jìn)行微觀篩選,確保考卷既有區(qū)分度又覆蓋全面。

      • 這種策略確保了生成的考卷既有區(qū)分度(高貢獻(xiàn)),又覆蓋了容易被忽視的角落(低貢獻(xiàn)),保證了評(píng)測(cè)的魯棒性。

      這一套組合拳打下來,既保證了分?jǐn)?shù)準(zhǔn),又保證了排名穩(wěn)!


      04


      實(shí)驗(yàn)結(jié)果:效果炸裂,刷新SOTA

      1. 誤差大幅降低

      在五個(gè)主流榜單上,EssenceBench 的表現(xiàn)均優(yōu)于 MetaBench、GraNd、PPL 等現(xiàn)有方法。在 GSM8K 數(shù)據(jù)集上,當(dāng)子集大小為 500 時(shí),EssenceBench 的預(yù)測(cè)誤差(RMSE)僅為 0.3769,相比 SOTA 方法 MetaBench (0.9579) 降低了 60.7%。這意味著用極少的數(shù)據(jù)就能極準(zhǔn)地預(yù)測(cè)模型分?jǐn)?shù)。


      2. 排名高度一致

      評(píng)測(cè)的核心是“比大小”。EssenceBench 在壓縮后,依然能完美保持模型間的相對(duì)排名。在 HellaSwag 上,EssenceBench(橙色)的排名波動(dòng)顯著小于 MetaBench(綠色)。即便壓縮 200 倍(僅用 50 題),95% 的模型排名位移仍在 5% 以內(nèi)。


      05


      案例分析:它到底剔除了什么

      EssenceBench 之所以高效,是因?yàn)樗鼡碛幸浑p“火眼金睛”,能精準(zhǔn)識(shí)別出那些看似不同、實(shí)則重復(fù)的題目。論文展示了兩個(gè)極具代表性的剔除案例:

      1. 文本冗余:換湯不換藥的“孿生題”

      在 GSM8K 數(shù)學(xué)集中,EssenceBench 發(fā)現(xiàn)了大量?jī)H僅是數(shù)字或變量微調(diào)的題目:

      • 題目 A:“Zack 的儲(chǔ)物柜大小是 Timothy 的一半。Peter 的儲(chǔ)物柜大小是 Zack 的 1/4。如果 Peter 的儲(chǔ)物柜是 5 立方英寸,請(qǐng)問 Timothy 的儲(chǔ)物柜是多少立方英寸?

      • 題目 B:“Timothy 的儲(chǔ)物柜是 24 立方英寸。Zack 的儲(chǔ)物柜大小是 Timothy 的一半。Peter 的儲(chǔ)物柜大小是 Zack 的 1/4。請(qǐng)問 Peter 的儲(chǔ)物柜是多少立方英寸?

      [解析]這兩道題雖然問法相反(已知部分求整體 vs 已知整體求部分),但其核心考察的算術(shù)結(jié)構(gòu)邏輯鏈條是完全一致的。對(duì)于大模型來說,只要能做對(duì) A,大概率也能做對(duì) B。EssenceBench 果斷剔除其中之一,避免了無效的重復(fù)測(cè)試。

      2. 排名冗余:異曲同工的“隱形重復(fù)”

      這是 EssenceBench 最“聰明”的地方——它能發(fā)現(xiàn)那些題面完全不同,但區(qū)分度完全一致的題目:

      • 題目 A(貨幣計(jì)算):“Axel 有 50 個(gè)銀比索和 80 個(gè)金比索。他去拜訪朋友 Anna,Anna 擁有的銀比索數(shù)量是 Axel 的兩倍,金比索比 Axel 多 40 個(gè)。請(qǐng)問他們兩人總共有多少比索?

      • 題目 B(考試計(jì)分):“Amy 正在參加歷史考試。她答對(duì)了 80% 的多選題,90% 的判斷題,以及 60% 的簡(jiǎn)答題。多選題和判斷題每題 1 分,簡(jiǎn)答題每題 5 分。如果試卷上有 10 道多選題,20 道判斷題和 5 道簡(jiǎn)答題,請(qǐng)問 Amy 得了多少分?

      [解析]乍一看,一個(gè)是算錢,一個(gè)是算分,風(fēng)馬牛不相及。但 EssenceBench 通過分析模型表現(xiàn)發(fā)現(xiàn),這兩道題在模型排名上的貢獻(xiàn)是高度冗余的。它們都要求模型具備復(fù)雜的多步數(shù)值推理、中間變量推導(dǎo)以及加權(quán)求和的能力。 數(shù)據(jù)表明,能做對(duì) A 的模型幾乎都能做對(duì) B,做錯(cuò) A 的也幾乎都做錯(cuò) B。這意味著保留兩道題并不會(huì)改變模型的相對(duì)排名,刪掉一道,排名依然穩(wěn)如泰山。


      06


      泛化能力:不止老榜單,新題庫(kù)也通吃

      EssenceBench 不僅在經(jīng)典榜單上強(qiáng),面對(duì)MathVista(多模態(tài))、LiveMCPBench(Agent工具調(diào)用)、GPQA(博士級(jí)難題)等8個(gè)現(xiàn)代高難度基準(zhǔn)測(cè)試,同樣展現(xiàn)出強(qiáng)大的泛化能力。 例如在 GSM-Plus 對(duì)抗性數(shù)學(xué)評(píng)測(cè)中,RMSE 低至 0.010,幾乎完美復(fù)刻全量榜單表現(xiàn)。


      07
      核心優(yōu)勢(shì)總結(jié)

      相比于 MetaBench 或傳統(tǒng)的基于梯度/困惑度的選擇方法,EssenceBench 的殺手锏在于:

      1. 考慮了樣本間的相互作用:不是孤立地看一道題好不好,而是看它們組合起來能不能代表整體;

      2. 搜索效率高:遺傳算法比暴力搜索或簡(jiǎn)單啟發(fā)式更聰明地在巨大空間中尋找最優(yōu)解;

      3. 關(guān)注排名一致性:評(píng)測(cè)的核心是“比大小”,EssenceBench 緊緊咬住 Rank Stability 這一關(guān)鍵指標(biāo)。

      08


      啟示與未來

      EssenceBench 告訴我們,大模型評(píng)測(cè)的“摩爾定律”失效了——榜單規(guī)模的指數(shù)級(jí)增長(zhǎng)是不可持續(xù)的。未來的評(píng)測(cè)范式將從“大數(shù)據(jù)暴力測(cè)試”轉(zhuǎn)向“小數(shù)據(jù)精準(zhǔn)評(píng)估”。

      只要考題出得精,幾百道題足矣看穿一個(gè)千億參數(shù)模型的真實(shí)水平。從此以后,評(píng)測(cè)不再是巨頭專屬的“算力游戲”,小實(shí)驗(yàn)室也能快速迭代、精準(zhǔn)打榜!

      未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

      公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      在迪士尼花2000多買「插隊(duì)特權(quán)」怎么激怒普通游客?“排隊(duì)3小時(shí)快要昏厥突然有人插到你前面”

      在迪士尼花2000多買「插隊(duì)特權(quán)」怎么激怒普通游客?“排隊(duì)3小時(shí)快要昏厥突然有人插到你前面”

      Vista氫商業(yè)
      2026-05-15 15:21:52
      廣西貴港平南縣通報(bào):丹竹鎮(zhèn)廊廖村發(fā)生地面塌陷,未造成人員傷亡

      廣西貴港平南縣通報(bào):丹竹鎮(zhèn)廊廖村發(fā)生地面塌陷,未造成人員傷亡

      環(huán)球網(wǎng)資訊
      2026-05-15 21:28:10
      Nice!加盟凱爾特人!你好,小托馬斯!

      Nice!加盟凱爾特人!你好,小托馬斯!

      技巧君侃球
      2026-05-15 21:49:52
      洛夫頓18分上海勝首鋼,周琦13分不被橫掃已成首鋼的追求

      洛夫頓18分上海勝首鋼,周琦13分不被橫掃已成首鋼的追求

      李廣專業(yè)體育評(píng)論
      2026-05-15 21:35:49
      克橋關(guān)閉,烏東告急,俄羅斯卻要求烏克蘭撤走軍隊(duì),實(shí)在是買條咸魚放生——不知死活

      克橋關(guān)閉,烏東告急,俄羅斯卻要求烏克蘭撤走軍隊(duì),實(shí)在是買條咸魚放生——不知死活

      李未熟擒話2
      2026-05-14 09:09:16
      南京4個(gè)區(qū),區(qū)政府主要領(lǐng)導(dǎo)調(diào)整

      南京4個(gè)區(qū),區(qū)政府主要領(lǐng)導(dǎo)調(diào)整

      上觀新聞
      2026-05-15 18:08:13
      王洪文38歲正國(guó)級(jí),狂草藏三處神技,你絕對(duì)沒見過!

      王洪文38歲正國(guó)級(jí),狂草藏三處神技,你絕對(duì)沒見過!

      書畫相約
      2026-05-14 09:15:45
      曹德旺沒想到,兒子平穩(wěn)接班才半年,女兒憑一個(gè)舉動(dòng)再次給他長(zhǎng)臉

      曹德旺沒想到,兒子平穩(wěn)接班才半年,女兒憑一個(gè)舉動(dòng)再次給他長(zhǎng)臉

      好賢觀史記
      2026-05-11 15:06:08
      在日本工作的華人感慨:不要信媒體吹牛,日本相當(dāng)于我國(guó)二線城市

      在日本工作的華人感慨:不要信媒體吹牛,日本相當(dāng)于我國(guó)二線城市

      娛樂圈見解說
      2026-05-15 19:19:31
      北京遭噩夢(mèng)!威廉姆斯G1完美輸出卻遭左腿拉傷,期待無礙吧!

      北京遭噩夢(mèng)!威廉姆斯G1完美輸出卻遭左腿拉傷,期待無礙吧!

      阿晞體育
      2026-05-15 21:40:33
      上海乒羽主任:樊振東是國(guó)乒獨(dú)一無二的領(lǐng)軍人物 比王楚欽高出一塊

      上海乒羽主任:樊振東是國(guó)乒獨(dú)一無二的領(lǐng)軍人物 比王楚欽高出一塊

      818體育
      2026-05-14 23:56:01
      岳父是高管,岳母開公司,娶了乒乓冠軍的許昕,在上海兒女雙全

      岳父是高管,岳母開公司,娶了乒乓冠軍的許昕,在上海兒女雙全

      科學(xué)發(fā)掘
      2026-05-15 12:55:40
      千萬網(wǎng)紅發(fā)視頻“坑我?guī)浊f,還要把我送進(jìn)去”,解封后再被禁言

      千萬網(wǎng)紅發(fā)視頻“坑我?guī)浊f,還要把我送進(jìn)去”,解封后再被禁言

      韓小娛
      2026-05-14 18:22:34
      特朗普玩脫了??jī)?nèi)部人士公開重大擔(dān)憂,貝森特慌忙動(dòng)身

      特朗普玩脫了??jī)?nèi)部人士公開重大擔(dān)憂,貝森特慌忙動(dòng)身

      墨染時(shí)光
      2026-05-15 21:38:02
      姆巴佩:沒首發(fā)是因?yàn)榻叹毟艺f,我是他的第四前鋒

      姆巴佩:沒首發(fā)是因?yàn)榻叹毟艺f,我是他的第四前鋒

      懂球帝
      2026-05-15 07:03:08
      中央5臺(tái)直播乒乓球時(shí)間表:5月15日CCTV5播國(guó)乒!梁靖崑獲重獎(jiǎng)

      中央5臺(tái)直播乒乓球時(shí)間表:5月15日CCTV5播國(guó)乒!梁靖崑獲重獎(jiǎng)

      不寫散文詩
      2026-05-15 20:18:55
      法拉利Amalfi Spider敞篷跑車在滬首發(fā),同步推出中國(guó)市場(chǎng)專屬“馬到成功”特別款

      法拉利Amalfi Spider敞篷跑車在滬首發(fā),同步推出中國(guó)市場(chǎng)專屬“馬到成功”特別款

      澎湃新聞
      2026-05-14 20:34:17
      王楚欽不打球時(shí)帥到掉渣!珠寶展一身黑西裝:胸針價(jià)值預(yù)估超60萬

      王楚欽不打球時(shí)帥到掉渣!珠寶展一身黑西裝:胸針價(jià)值預(yù)估超60萬

      顏小白的籃球夢(mèng)
      2026-05-15 08:59:27
      男子買榴蓮,11480錯(cuò)輸成114804,多掏10萬元!商家稱早已退款,錢卻退到銷售賬上!律師解讀→

      男子買榴蓮,11480錯(cuò)輸成114804,多掏10萬元!商家稱早已退款,錢卻退到銷售賬上!律師解讀→

      大風(fēng)新聞
      2026-05-14 17:44:04
      中美長(zhǎng)談兩小時(shí),謠言不攻自破,特朗普親自推銷,向中方許下承諾

      中美長(zhǎng)談兩小時(shí),謠言不攻自破,特朗普親自推銷,向中方許下承諾

      相思賦予誰a
      2026-05-15 21:28:16
      2026-05-15 22:12:49
      AI科技評(píng)論 incentive-icons
      AI科技評(píng)論
      點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
      7280文章數(shù) 20751關(guān)注度
      往期回顧 全部

      科技要聞

      直降千元起步!蘋果華為率先開啟618讓利

      頭條要聞

      生產(chǎn)成本疑不足40元 "童鞋界愛馬仕"泰蘭尼斯廣告翻車

      頭條要聞

      生產(chǎn)成本疑不足40元 "童鞋界愛馬仕"泰蘭尼斯廣告翻車

      體育要聞

      德約科維奇買的球隊(duì),從第6級(jí)聯(lián)賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財(cái)經(jīng)要聞

      騰訊掉隊(duì),馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀(jì)錄 ID. Polo GTI迎全球首秀

      態(tài)度原創(chuàng)

      家居
      手機(jī)
      房產(chǎn)
      旅游
      軍事航空

      家居要聞

      110㎡淡而有致的生活表達(dá)

      手機(jī)要聞

      PGYTECH推出GO Ultra趣拍套裝,可組合實(shí)現(xiàn)拍立得照片打印功能

      房產(chǎn)要聞

      老黃埔熱銷之下,珠江春,為何去化僅3成?

      旅游要聞

      瓣瓣一線|門票優(yōu)惠、公益講解!河南三門峽送出“5·19”游玩大禮包 ?

      軍事要聞

      烏克蘭首都基輔遭空襲 死亡人數(shù)增至12人

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产精品久久久久久影视| 国产精品欧美亚洲韩国日本久久| 韩国午夜福利片在线观看| 日本一区二区三区四区看片| 久久人人爽人人人人片| 国产一区二区一卡二卡| 亚洲日本午夜| 久久无码精品精品古装毛片| 国产精品成人免费视频网站| 各类熟女熟妇真实视频| 亚洲久悠悠色悠在线播放| 丰满人妻一区二区三区视频| 思思99思思久久最新精品| 色护士精品影院| 欧美精品高清在线观看| 欧美自拍视频| 国产无遮挡裸体免费视频| 日日噜噜噜噜夜夜爽亚洲精品 | 天堂中文最新版在线官网在线| 亚洲欧美日韩成人一区| 乱亲女h秽乱长久久久| 大学生高潮无套内谢视频| 国产免费好大好硬视频| 一区二区三区精品99久久| 色橹橹欧美在线观看视频高清| 久久国产成人精品av| 中文字幕乱码人妻综合二区三区| 亚洲精品欧美二区三区中文字幕| 中阳县| 国产无遮挡又黄又大又爽| 欧美成人动态图| 亚洲免费视频P| 铁岭县| 国产精品无码一区二区三区电影| 亚洲日韩第2页| 91欧洲在线视精品在亚洲| 国产xxxxx在线观看免费| 精品人妻少妇一区二区三区在线| 久久久久久久av| 男女日屄视频| 嗯91色色|