<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      AI解數學題的速度比科學家編考題還快——技術飛速迭代,基準測試正以前所未有的速度過時——IEEE Spectrum

      0
      分享至

      置頂zzllrr小樂公眾號(主頁右上角)數學科普不迷路!

      AI解數學題的速度比科學家編考題還快。技術飛速迭代,基準測試正以前所未有的速度過時。

      作者:Benjamin Skuse(本杰明·斯庫斯)IEEE Spectrum 2026-2-26

      譯者:zzllrr小樂(數學科普公眾號)2026-2-27


      圖表:折線圖顯示,谷歌DeepMind的Aletheia AI在博士階段數學習題中的得分,比最新版Gemini Deep Think至少高出5%。

      AI解決高階數學問題的能力正飛速提升

      圖源:谷歌DeepMind

      數學常被視為有效衡量AI進展的理想領域。其分步推進的邏輯易于追蹤,且答案明確、可自動驗證,能排除人為或主觀因素的干擾。但AI系統的進步速度如此之快,以至于數學基準測試已難以跟上其步伐。

      早在2024年11月,非營利研究機構Epoch AI悄然發布了FrontierMath基準測試。這一標準化、嚴謹的測試工具,旨在衡量最先進AI工具的數學推理能力。

      “它包含一系列難度極高的數學題,”Epoch AI高級研究員格雷格·伯納姆解釋道,“最初只有300道題,也就是我們現在所說的1-3級;但目睹AI能力突飛猛進后,我們意識到必須全力跟進才能保持領先,因此新增了一組精心設計的特殊挑戰題,命名為4級。”

      大致來說,1-4級的難度覆蓋從高等本科到博士后初期階段的數學水平。該測試推出時,最先進的AI模型最多只能解決其中2%的題目。而如今,GPT-5.2、Claude Opus 4.6等最優秀的公開AI模型,已能解決FrontierMath 300道1-3級題目中的40%以上,以及50道4級題目中的30%以上。

      AI挑戰博士級數學研究

      這種驚人的進步速度毫無放緩跡象。例如,谷歌DeepMind近期宣布,其基于Gemini Deep Think開發的實驗性AI系統Aletheia,取得了可發表級別的博士水平研究成果。盡管從數學角度來看較為冷門——計算算術幾何中名為“特征權重”的特定結構常數——但這一成果在AI發展史上具有重要意義。

      “他們聲稱該系統基本實現了自主研究,即無需人類指導,且研究結果達到了發表標準,”伯納姆說,“這雖然算不上能讓數學家們興奮不已的重大成果,但它是全新的——是我們此前從未見過的突破。”

      為了讓這一成就更易理解:FrontierMath的所有題目都有人類已推導得出的已知答案,而Aletheia的成果,盡管“人類若花一周時間潛心鉆研或許也能完成”,但在此之前,從未有人做到過。

      Aletheia的成果及其他AI“數學家”近期的突破表明,我們亟需更快地推出更嚴苛的新基準測試來評估AI能力,因為現有測試很快就會過時。“已有好幾代較簡單的數學基準測試被淘汰了,”伯納姆說,“FrontierMath可能在未來兩年內達到飽和狀態(即最先進AI模型得分為100%),甚至可能更快。”

      “首輪證明”挑戰賽

      為應對這一問題,2月6日,11位頂尖數學家聯合發起了“首輪證明”(First Proof)挑戰賽。該挑戰賽包含10道極難的數學題,均源自出題者自身的研究過程,證明過程約5頁紙以內,且此前未向任何人公開。這一挑戰賽是評估AI系統獨立解決研究級數學問題能力的初步嘗試。詳情參閱:

      挑戰賽在數學界引發了廣泛關注,專業與業余數學家紛紛參與,OpenAI等團隊也積極應戰。但截至2月14日出題者公布證明過程時,尚無任何參與者能提交全部10道題的正確解答。

      事實上,差距還很大。出題者本人使用Gemini 3.0 Deep Think和ChatGPT 5.2 Pro,也僅解決了其中2道題。除OpenAI和谷歌DeepMind的Aletheia小團隊外,多數外部參與者的表現都不盡如人意。在“有限人類監督”下,OpenAI最先進的內部AI系統解決了10道題中的5道,Aletheia也取得了類似成績——數學界對此反應不一,有人驚嘆,也有人失望。“首輪證明”挑戰賽團隊計劃于3月14日推出難度更高的第二輪挑戰。

      AI的新前沿

      “我認為‘首輪證明’挑戰賽非常出色:它盡可能真實地讓AI系統模擬數學家的工作場景,”伯納姆說。盡管他贊賞該挑戰賽能測試AI對各類數學領域及數學家的實用價值,但Epoch AI也推出了自己的新測試方案——FrontierMath:開放問題 (參閱 )。這一試點基準測試的獨特之處在于,它包含16道來自研究領域的開放問題(后續還將新增),這些問題都是專業數學家嘗試解決但未能成功的難題。自1月27日推出以來,尚無AI能解決其中任何一道題。

      “通過‘開放問題’測試,我們試圖讓挑戰難度再上一個臺階,”伯納姆說,“僅達到基準線的成果就具備發表價值,至少能在專業期刊上發表。”更重要的是,每道題都設計成可自動評分的形式。“這有點違反直覺,”伯納姆補充道,“雖然沒人知道答案,但我們有一個計算機程序,能夠判斷提交的答案是否正確。”

      伯納姆認為“首輪證明”與“開放問題”這兩項測試是互補的。“我認為對AI能力的了解越多越好,”他說,“AI已經發展到在某些方面優于大多數博士生的水平,因此我們需要提出一些人類數學家至少會適度感興趣的問題——不是因為這些問題是AI在解決,而是因為它們本身就是人類數學家關注的數學問題。”

      參考資料

      https://spectrum.ieee.org/ai-math-benchmarks

      小樂數學科普近期文章

      ·開放 · 友好 · 多元 · 普適 · 守拙·

      讓數學

      更加

      易學易練

      易教易研

      易賞易玩

      易見易得

      易傳易及

      歡迎評論、點贊、在看、在聽

      收藏、分享、轉載、投稿

      查看原始文章出處

      點擊zzllrr小樂

      公眾號主頁

      右上角

      置頂★加星

      數學科普不迷路!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      安徽18歲男子蹊蹺失聯 警方通報

      安徽18歲男子蹊蹺失聯 警方通報

      黃河新聞網呂梁
      2026-05-01 18:20:55
      冰箱可靠性排名出爐:第一名不是LG也不是三星

      冰箱可靠性排名出爐:第一名不是LG也不是三星

      灰度測試中
      2026-05-01 04:59:13
      紅場閱兵涼了:去年27國捧,今年只剩4家“自己人”

      紅場閱兵涼了:去年27國捧,今年只剩4家“自己人”

      斯德哥爾摩的帕金森
      2026-05-01 12:29:58
      懂事!劉國梁倫敦世乒賽看望國乒,王楚欽停步給劉主席王勵勤讓路

      懂事!劉國梁倫敦世乒賽看望國乒,王楚欽停步給劉主席王勵勤讓路

      818體育
      2026-05-01 21:55:54
      暴雨!大風!最強時段確定!江蘇天氣最新預測

      暴雨!大風!最強時段確定!江蘇天氣最新預測

      江南晚報
      2026-05-02 03:34:14
      三項“罪證”實錘,莎拉沒有亂說,她真打算要馬科斯一家的命?

      三項“罪證”實錘,莎拉沒有亂說,她真打算要馬科斯一家的命?

      溫讀史
      2026-05-02 06:13:59
      生理旺盛的女性,大多有這3個特征,超準!

      生理旺盛的女性,大多有這3個特征,超準!

      皓皓情感說
      2026-04-25 19:09:10
      中途散伙!針對中國的軍演,美日菲發現自己真實身份,排隊跑路了

      中途散伙!針對中國的軍演,美日菲發現自己真實身份,排隊跑路了

      阿雹娛樂
      2026-05-01 11:28:27
      勞拉新形象太丑胸圍被大砍!祖國人看了都沒食欲

      勞拉新形象太丑胸圍被大砍!祖國人看了都沒食欲

      游民星空
      2026-04-29 16:11:32
      申花蓉城之戰創造上海體育場新紀錄,61815人現場觀戰背后的“經濟賬”

      申花蓉城之戰創造上海體育場新紀錄,61815人現場觀戰背后的“經濟賬”

      上觀新聞
      2026-05-02 05:11:13
      伊朗最高領袖致辭

      伊朗最高領袖致辭

      揚子晚報
      2026-04-30 20:46:28
      爆冷淘汰掘金!森林狼主帥賽后扎心懟掘金:是你們挑的我們

      爆冷淘汰掘金!森林狼主帥賽后扎心懟掘金:是你們挑的我們

      仰臥撐FTUer
      2026-05-01 14:26:14
      動容!東莞街頭一男子突然倒地失去呼吸脈搏,3歲幼童在一旁茫然……他們出現了!

      動容!東莞街頭一男子突然倒地失去呼吸脈搏,3歲幼童在一旁茫然……他們出現了!

      廣東活動
      2026-05-01 12:09:07
      基輔急瘋了!俄拿下盧甘斯克,美國無暇顧及,乘勝拿下決定性勝利

      基輔急瘋了!俄拿下盧甘斯克,美國無暇顧及,乘勝拿下決定性勝利

      愛吃醋的貓咪
      2026-04-28 20:27:46
      “只顧自己紋眉,不管女兒死活?”14歲女孩生日照,臉上全是槽點

      “只顧自己紋眉,不管女兒死活?”14歲女孩生日照,臉上全是槽點

      蝴蝶花雨話教育
      2026-04-25 00:45:03
      首個退群北約的國家來了:已走程序,退意已決!

      首個退群北約的國家來了:已走程序,退意已決!

      福建睿平
      2026-04-27 11:46:08
      海航空姐賣貨,真的是太拼了

      海航空姐賣貨,真的是太拼了

      微微熱評
      2026-05-01 15:58:13
      美伊一旦結束,這幾個國家下場會很慘,特朗普已列出名單!

      美伊一旦結束,這幾個國家下場會很慘,特朗普已列出名單!

      深度報
      2026-04-29 22:37:38
      兒子深夜生幻覺屢次性侵母親,婦女終于無法忍受,凌晨揮刀

      兒子深夜生幻覺屢次性侵母親,婦女終于無法忍受,凌晨揮刀

      長安一孤客
      2026-04-26 13:18:18
      Q1國內激活量數據出爐,華為第一,蘋果第二

      Q1國內激活量數據出爐,華為第一,蘋果第二

      科技鋒說
      2026-05-02 05:45:39
      2026-05-02 07:04:49
      小樂數學科普 incentive-icons
      小樂數學科普
      zzllrr小樂,小樂數學科普,讓前沿數學流行起來~
      330文章數 7關注度
      往期回顧 全部

      科技要聞

      DeepSeek發布多模態論文又連夜刪除

      頭條要聞

      美國也搞起"人肉代購" "去墨西哥買中國車"教程瘋傳

      頭條要聞

      美國也搞起"人肉代購" "去墨西哥買中國車"教程瘋傳

      體育要聞

      無奈!約基奇:這要在塞爾維亞 全隊早被炒了

      娛樂要聞

      馬筱梅產后身材恢復超好 現身戶外直播

      財經要聞

      GPU神話松動,AI真正的戰場變了

      汽車要聞

      限時9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

      態度原創

      藝術
      教育
      健康
      親子
      手機

      藝術要聞

      畫畫的你絕不能錯過!色塊與筆觸的激情之旅!

      教育要聞

      高考地理中的機制問題

      干細胞治燒燙傷面臨這些“瓶頸”

      親子要聞

      豌豆的球掉進小水坑,很難過,一只青蛙幫她把球撿了回來

      手機要聞

      記錄一場說走就走的旅行 長假影像手機入手指南

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 狠狠人妻久久久久久| 国产成人无码A区在线观| 亚州精品熟女在线| wwwwwwww在线观看久久| 无码午夜福利免费区久久| 精品人妻人人做人人爽| 亚洲天堂区| 字幕av在线| 99国产亚洲精品美女久久久久| 久久精品AⅤ无码中文字字幕蜜桃| 亚洲精品中国国产嫩草影院美女| 日本国产精品第一页久久| 日韩av手机免费观看| 精品免费看国产一区二区| 美女丝袜诱惑一区二区三区| 亚洲人成无码网www电影榴莲| 日韩av手机免费观看| 国产裸体美女视频全黄扒开| 大理市| 中文AV无码人妻一区二区三区| 天天躁日日躁很很躁2022| 亚洲人成伊人成综合网小说| 亚洲人成小说网站色| 视频一区 中文字幕| 人人妻人人添人人爽欧美一区| 国产无套内射又大又猛又粗又爽| 特级aa毛片在线播放| 亚洲AV无码1区2区久久| 国产裸拍裸体视频在线观看| 国产精品自在欧美一区| 国产精品67人妻无码久久| 综合AV| 欧美日韩国产一区二区三区欧| 伊人久久大香线蕉av色| 亚洲 欧美 激情 小说 另类| 亚洲中文在线看视频一区| 亚洲欧洲久久激情久av| 中文字幕无码A片| 亚洲欧美另类久久久精品| 日韩一区二区三区影片| 日韩精品无码一区二区三区|