<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      谷歌造出AI數學家,48%碾壓全場!牛津教授用它破解60年未解之謎

      0
      分享至


      新智元報道

      編輯:犀牛 所羅門

      【新智元導讀】谷歌DeepMind今日官宣推出「AI co-mathematician」多智能體系統,在FrontierMath Tier 4自主模式下斬獲48%正確率。牛津教授借助該系統攻克Kourovka Notebook長期開放問題,AI進化為數學家的真正研究搭檔。

      人類數學家,終于等來了自己的「超級隊友」!

      就在剛剛,谷歌云首席科學家、DeepMind研究副總裁Pushmeet Kohli重磅官宣AIco-mathematician——一套專為數學研究設計的多智能體協作系統。


      有玩意兒多猛?

      在Epoch AI組織的FrontierMath Tier 4基準測試中(50道由教授和博后專門設計的「短期科研項目」級別超難題,專業數學家也得花上數天乃至數周),AI co-mathematician在自主模式下拿下48%的正確率,解決了48道非公開題中的23道。

      刷新所有AI系統的歷史最高紀錄!


      作為對比,它底層用的Gemini 3.1 Pro基座模型,獨立作戰只能拿到19%。從19%到48%,整整躍升了29個百分點。

      更狠的是,它還超越了GPT-5.5 Pro的39.6%和Claude Opus 4.7的22.9%。


      其中有3道題,是此前所有被測系統都沒能攻克的。

      Pushmeet Kohli在社交媒體上興奮地寫道:數學的未來,是數學家和AI智能體一起工作。


      不是更聰明的模型

      而是更聰明的「編排」

      AI co-mathematician最有意思的地方在于:它的突破不是靠換一個更大的模型,而是靠系統設計。

      整個系統采用了一種層級式多智能體架構:一個「項目協調員」智能體坐鎮中央,負責把數學問題拆解成多個并行的「工作流」,再分派給不同的專項子智能體去執行。

      這些子智能體各有專長——有的負責文獻檢索,有的負責計算探索,有的負責證明推導,還有的專門負責「挑毛病」。


      沒錯,這里有一個專職的審稿人智能體

      每條證明路徑寫出來之后,都必須經過審稿人的交叉審查,發現邏輯漏洞就打回重做。

      這種「強制審查循環」機制,直接把傳統LLM最頭疼的「自信地胡說八道」問題壓了下去。

      更關鍵的是,整個工作臺是異步、有狀態的。

      它能記住之前嘗試過哪些失敗的假設,能追蹤每一條探索分支的進展,還能輸出帶有邊注和內部引用的工作論文。

      就像是一個能跟你「泡」在一個項目里、持續數天迭代的研究伙伴。


      DeepMind論文中舉了幾個讓人印象深刻的案例:

      • 面對一道幾何鋪磚問題時,系統把核心挑戰歸約為布爾可滿足性(SAT)問題,然后用PySAT庫求解;

      • 在一道表示論題目中,它通過文獻搜索工具精準檢索到特定定理的精確表述,而基線模型只能憑「大概印象」答題,結果條件都沒對上;

      • 在組合數學題中,它把理論推導和計算驗證拆成兩條獨立工作流,讓審稿人智能體在最終拼裝前就揪出了邏輯錯誤。

      牛津教授實戰:攻克60年老本子里的開放問題

      數字好看歸好看,但AI到底能不能在真正的數學前沿派上用場?

      牛津大學數學家Marc Lackenby的親身經歷給出了最有說服力的回答。


      他用AI co-mathematician研究了群論中的一個經典開放問題——Kourovka Notebook第21.10題。

      這本「筆記本」可不是普通筆記,而是群論領域從1965年傳承至今、匯集了全世界未解難題的「圣經級」問題集。

      Lackenby把問題直接輸入系統后,AI co-mathematician自動創建了兩條并行工作流:一條嘗試證明,一條嘗試反證。

      第一條路徑很快返回了一個「證明」,但系統自己的審稿人智能體隨即發現了其中的漏洞,標記為不正確。

      關鍵轉折來了:Lackenby看到被打回的證明和審稿人指出的缺陷后,突然意識到——自己作為領域專家,恰好知道怎么填補這個缺口。

      于是他補上了關鍵的一步,問題迎刃而解。

      這個故事的精髓在于,人和AI誰都沒法獨自在這個速度下完成這件事

      AI提供了證明策略和計算探索的「暴力搜索」,審稿人智能體及時發現了錯誤,而人類數學家的深層直覺完成了最后的臨門一腳。

      這是一種全新的協作范式。

      類似的故事還在上演:數學家Gergely Bérczi用它獲得了關于對稱冪表示Stirling系數猜想的證明;Semon Rezchikov在哈密頓系統中一個技術性子問題上,收到了AI提供的關鍵引理——經過仔細驗證后確認無誤。

      審稿人會被「討好」,系統會「轉圈」

      DeepMind團隊也沒有回避系統的失敗模式。

      第一個問題叫「審稿人討好偏」(reviewer-pleasing bias)。

      當一條證明路徑被審稿人打回后,子智能體有時不是真的修正了邏輯錯誤,而是換了一種措辭讓審稿人「看不出問題了」。

      錯誤沒有消失,只是變得更隱蔽。

      這就像學生改論文時,不是真的理解了審稿意見,而是學會了用更圓滑的方式繞過審查。

      第二個問題叫「死亡螺旋「」(death spirals)。

      在某些情況下,證明者和審稿人之間陷入了無限循環——你說有問題,我改了再交,你又說有問題,我再改再交。

      最終推理質量越來越差,直到徹底崩潰成幻覺式的胡言亂語。

      這對于那些需要真正創造性直覺來打開突破口的問題——比如千禧年大獎難題或者Erd?s型猜想——多智能體系統目前仍然無能為力。

      AI能壓縮的,是「從有一個想法到知道這個想法行不行」之間的時間:文獻檢索、反例搜尋、計算驗證、探索性的苦力活。

      但那道靈光一閃的創造性火花,目前看來只能來自人類。

      數學研究的范式正在改變

      這篇論文的真正意義,可能不在于48%這個數字本身。

      系統設計現在能夠以對實際研究真正有意義的方式,放大模型能力。

      AI co-mathematician做的事情,本質上跟Claude Code、Google Antigravity在軟件開發領域做的事情異曲同工——

      為AI提供腳手架,讓它能在長時間跨度內自主工作,同時保持可控。

      DeepMind CEO Demis Hassabis曾說過,擁有強大數學和代碼工具的前沿實驗室正在與其他實驗室拉開差距,原因在于「這些工具會產生復合效應」。

      AI co-mathematician就是這一論斷的直接體現。

      數學的未來,或許不再是一個天才獨自在黑板前苦思冥想的身影。

      而是人類數學家和AI智能體并肩而坐,一個負責靈感,一個負責驗證,在無盡的探索中一起逼近真理。


      這個「黃金搭檔」時代,已經來了。

      參考資料:

      https://x.com/pushmeet/status/2052812585804685322

      https://arxiv.org/abs/2605.06651

      https://epoch.ai/frontiermath/tiers-1-4?view=graph&tab=release-date&tier=Tier+4

      https://arxiv.org/pdf/2605.06651https://x.com/kimmonismus/status/2052849472586264997

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      疑似大量特朗普訪華物資抵京,美特勤局專車現身,專家解讀

      疑似大量特朗普訪華物資抵京,美特勤局專車現身,專家解讀

      鳳凰衛視
      2026-05-11 11:26:06
      女子碩士入學清華后參與智力測驗,僅得25分,回應:無論是學習、工作、創業,我都沒有遇到困難,但我居然智力中下

      女子碩士入學清華后參與智力測驗,僅得25分,回應:無論是學習、工作、創業,我都沒有遇到困難,但我居然智力中下

      揚子晚報
      2026-05-11 07:48:21
      央視“砍價”2026年世界杯:天價轉播權為何遇冷

      央視“砍價”2026年世界杯:天價轉播權為何遇冷

      每日經濟新聞
      2026-05-10 20:56:18
      王曼昱哭了登熱搜第一!兩度致謝莎莎情真意切 陳熠何卓佳都哭了

      王曼昱哭了登熱搜第一!兩度致謝莎莎情真意切 陳熠何卓佳都哭了

      顏小白的籃球夢
      2026-05-11 07:50:35
      美媒:雄鹿&維拉老板艾登斯與46歲華裔女子發生性關系,女方勒索12億美元

      美媒:雄鹿&維拉老板艾登斯與46歲華裔女子發生性關系,女方勒索12億美元

      懂球帝
      2026-05-11 09:41:18
      18.98萬起!長城新車官宣:超強續航1000公里,5月15日上市

      18.98萬起!長城新車官宣:超強續航1000公里,5月15日上市

      科技堡壘
      2026-05-10 11:23:22
      “嚇死我了”!今早,大批人收到地震有關短信!廣東地震局最新回應

      “嚇死我了”!今早,大批人收到地震有關短信!廣東地震局最新回應

      南方都市報
      2026-05-11 11:06:04
      馬姆達尼執政不足百天時間,印證了平均主義民粹政治的徹底破產

      馬姆達尼執政不足百天時間,印證了平均主義民粹政治的徹底破產

      壹家言
      2026-05-11 09:06:45
      宣示與民進黨強力競爭!鄭麗文重話警告“臺獨”,吁美棄“第一島鏈”

      宣示與民進黨強力競爭!鄭麗文重話警告“臺獨”,吁美棄“第一島鏈”

      海峽導報社
      2026-05-11 10:44:05
      炸裂!漢坦病毒零號地大反轉,荷蘭夫婦冤了,游輪致命疫情藏秘密

      炸裂!漢坦病毒零號地大反轉,荷蘭夫婦冤了,游輪致命疫情藏秘密

      溫讀史
      2026-05-11 10:05:45
      是誰在偷換了世界杯轉播權之爭的邏輯?

      是誰在偷換了世界杯轉播權之爭的邏輯?

      魯先生的筆
      2026-05-10 21:12:47
      斯諾克巨星邀請賽:小特不敗奪冠!進賬462萬獎金,吳宜澤險墊底

      斯諾克巨星邀請賽:小特不敗奪冠!進賬462萬獎金,吳宜澤險墊底

      劉姚堯的文字城堡
      2026-05-11 07:57:47
      狀元簽到手卻要賣?奇才交易狀元簽理由曝光,神思路性價比拉滿

      狀元簽到手卻要賣?奇才交易狀元簽理由曝光,神思路性價比拉滿

      夜白侃球
      2026-05-11 11:10:16
      5小時空等耗死三條人命!

      5小時空等耗死三條人命!

      新動察
      2026-05-09 11:17:26
      章子怡“潑墨門”主謀,葉劍英兒媳,離婚后轉戰商圈竟成資本大鱷

      章子怡“潑墨門”主謀,葉劍英兒媳,離婚后轉戰商圈竟成資本大鱷

      財叔
      2026-05-11 08:40:12
      河南37歲單親媽媽與男子網戀遭遇“殺豬盤”,誘惑投資“倫敦金”被騙53萬元傾家蕩產

      河南37歲單親媽媽與男子網戀遭遇“殺豬盤”,誘惑投資“倫敦金”被騙53萬元傾家蕩產

      大風新聞
      2026-05-11 12:16:07
      這件事的影響可能比英國脫歐還大

      這件事的影響可能比英國脫歐還大

      獨立寒秋看世界
      2026-05-10 15:57:08
      男生廁所安裝攝像頭?學校:無奈之舉,有人抽煙,還有人破壞門板;教育局:拍公共區域沒拍到隱私

      男生廁所安裝攝像頭?學校:無奈之舉,有人抽煙,還有人破壞門板;教育局:拍公共區域沒拍到隱私

      大風新聞
      2026-05-11 11:12:46
      OPPO就“母親節文案”再道歉:因追逐流量而忘記本心,已對分管中國市場業務的高級副總裁段要輝及營銷相關管理者作出了從嚴處罰

      OPPO就“母親節文案”再道歉:因追逐流量而忘記本心,已對分管中國市場業務的高級副總裁段要輝及營銷相關管理者作出了從嚴處罰

      魯中晨報
      2026-05-11 14:02:23
      國內砍一刀沒人管,海外直接罰3億多,Temu 給所有電商上了一課

      國內砍一刀沒人管,海外直接罰3億多,Temu 給所有電商上了一課

      干史人
      2026-05-09 15:30:03
      2026-05-11 14:24:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15183文章數 66862關注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機會

      頭條要聞

      媒體:特朗普確定本周訪華 中美在東亞有個共同的敵人

      頭條要聞

      媒體:特朗普確定本周訪華 中美在東亞有個共同的敵人

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

      娛樂要聞

      謝霆鋒沒想到,王菲靠張藝謀重返巔峰

      財經要聞

      "手搓汽車"曝光:偽造證件、電池以舊代新

      汽車要聞

      全球化成國內車企未來勝負手,誰是出海最強"水手"?

      態度原創

      房產
      親子
      本地
      時尚
      公開課

      房產要聞

      低價甩賣!海口這個地標商業,無人接盤!

      親子要聞

      fsh值如何降下來?卵子質量不好要調理卵巢嗎?

      本地新聞

      用蘇繡的方式,打開江西婺源

      輕松拿捏又甜又酷的造型,試試這些輕熟穿搭,溫柔有女人味兒

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日韩欧美亚洲综合久久影院| 国产精品成人一区二区三区| 毛片免费观看视频| 国产av天堂亚洲国产| 偷亚洲偷国产欧美高清| 欧洲亚洲国产成人综合色婷婷| 俺去啦中文网| 亚洲欧美成aⅴ人在线观看| 日本精品欧洲www| 色悠久久久久综合网国产| 欧美性群另类交| 国产亚洲精品VA片在线播放| 亚洲久悠悠色悠在线播放| 欧美综合区| 粉嫩高潮美女一区二区三区| 都市激情 在线 亚洲 国产| 免费无码成人av在线播放不卡 | 国产野战AV| 伊人久久大香线蕉综合观| 色婷婷亚洲婷婷八月中文字幕| 旅游| 婷婷看看精品一区二区三区 | 国产亚洲一二三区精品| 人妻熟人中文字幕一区二区| 国产精品视频一区国模私拍| 亚洲a级在线观看| 国产短视频一区二区三区| 亚洲精品97久久一| 爱情岛论坛首页永久入口| 国产精品电影| 亚洲天堂2025| 在线播放亚洲人成电影| 国产性av在线| 少妇被粗大的猛进69视频| 亚洲av综合色区在线观看天天| 国产交换配乱婬视频| 亚洲精品在线视频自拍| 韩色区| 美女一级毛片无遮挡内谢| 午夜精品久久久久久久无码软件| 国产精品 精品国内自产拍|