<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      谷歌「AI聯合數學家」刷新SOTA,牛津教授用它解開群論懸案

      0
      分享至

      聽雨 發自 凹非寺量子位 | 公眾號 QbitAI

      數學界「懸案簿」Kourovka Notebook,AI取得新突破。

      群論領域幾十年無解的第21.10號問題,被牛津數學家Marc Lackenby用谷歌一個新系統破解了。

      過程也很有意思:AI第一次給出的證明是錯的,被系統里的審查Agent揪出了漏洞。

      Lackenby看到之后突然意識到:「等一下,我知道該如何填補這個漏洞」。

      于是,通過和AI的反復配合,Lackenby最終成功解答出了這道數學難題。

      這套人機協作的系統,就是谷歌DeepMind最新發布的「AI Co-Mathematician」(AI聯合數學家)



      它在最難的數學AI基準FrontierMath Tier 4上拿了48%,刷新SOTA。

      甚至超過了GPT-5.5 Pro(39.6%)和GPT-5.4 Pro(37.5%)



      最近幾個月,不少數學難題,諸如接連幾個Erd?s問題都是用GPT解決的。

      現在,谷歌也回歸了。



      「AI聯合數學家」,是什么?

      「AI聯合數學家」是一個異步、有狀態的工作空間,而非一問一答的模型。

      頂層有一個「項目協調者」Agent負責統籌,拆解任務,調度多條研究線并行推進。



      數學家上傳一篇論文、提出一個研究方向后,協調者不會立刻輸出答案,而是先和用戶對話,像真正的合作者一樣幫對方精煉問題。



      之后它將任務分發到多條并行工作流:一條做文獻檢索,一條搭計算框架,一條嘗試證明策略。

      每條工作流都有自己的協調Agent,異步運行,互不阻塞。用戶隨時能介入、引導、接管。



      如果Agent卡住了,它也會主動在聊天窗口里求助,而不是沉默重啟。

      比較特別的一點在于:對失敗的態度

      系統會持久化追蹤所有失敗的假說,不會丟棄,而是當作第一等的研究產出保存下來。



      論文中提到,在數學研究里,知道什么行不通往往和知道什么行得通同等重要

      「AI聯合數學家」會持久化追蹤每一條死胡同、每一個被否定的假設、每一次審稿Agent發現的漏洞。這些「負空間」不會被丟棄,而是成為后續探索的上下文。

      它的產出物也不是一段聊天記錄或一篇未經驗證的草稿,而是帶margin注釋和來源溯源的LaTeX文檔——完全契合數學家社群的工作習慣。

      「AI聯合數學家」有什么意義?論文里有一段很精妙的比喻:

      • 軟件工程領域已經有了Claude Code、Cursor這類AI編碼環境,它們提供了持續迭代、版本控制、測試驗證的完整工作流。
        但數學家此前一直缺少一個等價的編排層。

      「AI聯合數學家」就是試圖填補這個空白。

      它的定位,與DeepMind上一代系統AlphaEvolve完全不同。

      AlphaEvolve更像一個自主搜索引擎:你把問題扔進去,它進化出一個更好的算法,人基本不在循環里。

      而「AI聯合數學家」要求數學家始終在回路中,系統在最適合的時機向人類提問,而不是替人類做完整件事。

      刷新最難數學AI基準SOTA

      在benchmark上,「AI聯合數學家」也拿下了出彩的成績:

      刷新了最難的數學AI基準FrontierMath Tier 4的SOTA,拿了48%的準確率。



      FrontierMath是Epoch AI開發的數學benchmark,包含350道原創高難度題,覆蓋現代數學各大分支。

      其中Tier 4僅50題,被Epoch AI描述為「其中一些問題可能數十年內AI都無法攻克」,人類專家解決一道通常需要數天。

      「AI聯合數學家」在48道非公開題中答對了23道,準確率48%



      GPT-5.5 Pro此前在Tier 4拿到39.6%,GPT-5.4 Pro是37.5%,Claude Opus 4.6/4.7則雙雙落在22.9%。

      相比之下,「AI聯合數學家」把最高分推了近10個百分點。



      值得注意的是,它的底層基座模型Gemini 3.1 Pro,單獨做這個測試只拿到了19%。

      從19%到48%,這29個百分點的跳躍完全來自系統層面的編排——并行調查分支、強制審查循環、文獻檢索工具、持久化代碼執行基礎設施。

      而且其中有3道題是此前所有系統都沒答對過的新題。

      內部100題研究級數學基準測試中的準確率得分



      基準之外,論文中還提到,有三位數學家已經用它來解決真實問題:

      牛津大學數學家Marc Lackenby解決了Kourovka Notebook第21.10號問題(群論)。

      審稿Agent先發現了AI初稿里的一個漏洞,Lackenby意識到自己知道怎么填補這個缺口,最后論文誕生。

      數學家Semon Rezchikov在哈密頓系統中,向系統拋出一個技術性子問題,收到了一個關鍵引理。

      他的評價是「其他AI系統在同一個prompt上全部失敗」,且從美學上看這是他用過所有模型里證明風格最好的。

      還有Gergely Bérczi,獲得了關于Stirling系數對稱冪表示的猜想證明。

      此外,論文也坦承了兩個失敗模式。

      第一種叫「討好審稿人偏差」:Agent會不斷改寫有缺陷的論證,直到AI審稿人不再能發現錯誤——但漏洞其實還在。

      第二種是「死亡螺旋」:當迭代評審過程未能達成共識時,Agent們會陷入無限審稿循環,推理逐漸退化為幻覺。

      另外還有一個結構性問題:當AI能在幾分鐘內生成一篇20頁的證明草稿,人類同行評審仍需要數天,這對于依賴志愿者的學術評審體系會形成系統性壓力。

      而且AI雖然很擅長進行邏輯核驗,發現代數錯誤或找出缺失的引用文獻,但它們依然缺乏判斷一篇論文的優雅性、深度或真正數學價值所需的整體直覺。

      如果過度依賴AI評審,可能會讓人類定性判斷被邊緣化。

      當然,在48%這個成績上,論文中也坦誠披露了評估差異。

      48%的得分是在特殊條件下取得的——每題給了48小時、沒有token限制、使用團隊自己的基礎設施。這與Epoch AI標準評估框架不完全可比。

      團隊背景

      「AI聯合數學家」背后共有18位作者,有幾個名字值得單獨說說。

      第一作者兼通訊作者Daniel Zheng,Google DeepMind研究工程師,研究方向是編程語言與機器學習的交叉。



      2024年AlphaProof拿到IMO銀牌那個項目里,他和Alex Davies共同主導了非正式系統(包括最終答案判定模塊)的開發。

      Alex Davies,同樣是從AlphaProof到AlphaEvolve再到AI聯合數學家的連續參與者,是這條技術路線最重要的連接者之一。



      通訊作者Pushmeet Kohli,Google DeepMind科學副總裁兼Google Cloud首席科學家,主導了AlphaFold(諾獎級成果)、AlphaProof、AlphaEvolve等一系列系統。



      這篇論文是他帶的團隊在AI for Math路線上的最新一步。

      另一位通訊作者Daniel M. Roy,多倫多大學統計系教授,研究橫跨機器學習、數理統計和理論計算機科學。



      2025年底從加拿大Vector Institute研究主任卸任,2026年1月以訪問研究員身份加入DeepMind倫敦。三個學位均來自MIT。

      Fernanda ViégasMartin Wattenberg則是PAIR(People+AI Research)團隊的共同創始人,同時也是哈佛計算機科學教授,專注AI可解釋性與人機交互。





      他們負責AI聯合數學家的用戶交互與界面層——這也解釋了為什么這個系統在「如何讓數學家愿意用它」上花了相當多的心思。

      值得注意的是,數學家Marc Lackenby并不是臨時找來測試的「外部數學家」。



      在其牛津主頁的論文列表里,可以追溯到2021年,Lackenby就已經與Zheng、Davies等人合作發表過Nature論文。他是DeepMind數學AI團隊的長期合作者。



      One More Thing

      放在更大的背景下,這是谷歌在AI for Math方向上已經走了幾年的一條路線。

      2024年,AlphaProof用強化學習做形式化數學推理,在IMO拿到銀牌水準。

      2025年,Gemini Deep Think在當年IMO達到金牌水準,六道題答對五道。

      AlphaEvolve則是另一條線,自主發現新算法,在50多個開放數學問題上改進了20%的已知最優解。

      「AI聯合數學家」和這幾個系統定位不同,不是更強的問題求解器,更傾向于面向研究者日常工作流的協作工具。

      AlphaEvolve適合「給我一個更好的算法」,「AI聯合數學家」則適合「陪我研究這個方向幾個星期」。

      目前「AI聯合數學家」還在限量發布階段,Pushmeet Kohli的表述是,目標是未來開發產品向更廣泛的用戶開放這個范式。

      它還不是所有數學家都能用到的工具,但它證明了一件事:

      AI和數學家之間的協作,可以比「問答」復雜得多,也有效得多。

      論文地址:
      https://arxiv.org/abs/2605.06651


      [1]https://x.com/pushmeet/status/2052812585804685322
      [2]https://x.com/kimmonismus/status/2052849472586264997

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      少女們的美麗刑具,安踏年銷140億的印鈔機

      少女們的美麗刑具,安踏年銷140億的印鈔機

      快刀財經
      2026-05-11 22:12:42
      90人沖進四七九!成都這7所黑馬初中,讓三小聯中都坐不住了……

      90人沖進四七九!成都這7所黑馬初中,讓三小聯中都坐不住了……

      糖逗在娛樂
      2026-05-12 06:18:42
      物理老師用道具冒充金條測密度后道歉

      物理老師用道具冒充金條測密度后道歉

      三言科技
      2026-05-11 18:20:07
      張軍被查創下多個尷尬“紀錄”,18年前曾因酒駕被查

      張軍被查創下多個尷尬“紀錄”,18年前曾因酒駕被查

      元芳有看法
      2026-04-30 09:25:44
      4-2輕松晉級,4-0橫掃對手!成季后賽最大黑馬,這5筆交易太值了

      4-2輕松晉級,4-0橫掃對手!成季后賽最大黑馬,這5筆交易太值了

      籃球掃地僧
      2026-05-11 10:48:02
      趙祥松|14歲“神童”手搓渦噴發動機,一場漏洞百出的包裝表演

      趙祥松|14歲“神童”手搓渦噴發動機,一場漏洞百出的包裝表演

      祥松談
      2026-05-02 15:01:46
      活塞vs騎士G4預測:米切爾籃板+坎寧安助攻雙押注

      活塞vs騎士G4預測:米切爾籃板+坎寧安助攻雙押注

      體育硬核說
      2026-05-12 06:44:43
      20多天就認慫!印尼對中企舉的鎳礦大刀,先砍到了自己腳趾頭

      20多天就認慫!印尼對中企舉的鎳礦大刀,先砍到了自己腳趾頭

      鍋鍋愛歷史
      2026-05-12 07:13:02
      撒貝寧一家現身上海迪士尼!7歲兒子穿東北花襯衫,混血顏值出挑

      撒貝寧一家現身上海迪士尼!7歲兒子穿東北花襯衫,混血顏值出挑

      可樂談情感
      2026-05-12 03:18:16
      日乒主帥不甘心!盛贊梁靖崑的同時,張本智和竟成他口中的背鍋俠

      日乒主帥不甘心!盛贊梁靖崑的同時,張本智和竟成他口中的背鍋俠

      十點街球體育
      2026-05-11 11:41:37
      沒有外援就拔刀相向?神權杖硬剛槍桿子,塔利班進入內斗階段!

      沒有外援就拔刀相向?神權杖硬剛槍桿子,塔利班進入內斗階段!

      寰球經緯所
      2026-05-10 10:55:10
      25三分追平歷史紀錄!尼克斯4-0橫掃76人進東決 恩比德空砍24分

      25三分追平歷史紀錄!尼克斯4-0橫掃76人進東決 恩比德空砍24分

      醉臥浮生
      2026-05-11 06:13:45
      羅馬諾:曼聯將從本周起正式收到那不勒斯買斷霍伊倫的4400萬歐;拉什福德:如果我是魔術師,我會留在巴薩

      羅馬諾:曼聯將從本周起正式收到那不勒斯買斷霍伊倫的4400萬歐;拉什福德:如果我是魔術師,我會留在巴薩

      MUREDS
      2026-05-11 23:31:15
      國乒奪冠后陣容或迎洗牌,3人穩坐主力,4人爭搶剩余名額

      國乒奪冠后陣容或迎洗牌,3人穩坐主力,4人爭搶剩余名額

      老曁科普
      2026-05-11 11:09:13
      軍購剛結束,鄭麗文立刻派張榮恭赴陸交底,直接送上一份大禮!

      軍購剛結束,鄭麗文立刻派張榮恭赴陸交底,直接送上一份大禮!

      共工之錨
      2026-05-11 22:11:56
      為啥孩子上初中了,每天還要接送?班主任給家長們說了實話

      為啥孩子上初中了,每天還要接送?班主任給家長們說了實話

      枕邊聊育兒
      2026-05-11 08:59:14
      最低調沙特王子被迪拜富商街頭掌摑:無視50億封口費,只提一條件

      最低調沙特王子被迪拜富商街頭掌摑:無視50億封口費,只提一條件

      小哥很OK
      2026-05-11 23:35:44
      一幀定生死:倫敦碗4分17秒,照出英超冠軍與降級的雙重真相!

      一幀定生死:倫敦碗4分17秒,照出英超冠軍與降級的雙重真相!

      落夜足球
      2026-05-11 20:56:22
      出逃前賴昌星不忘帶上她,如今58歲孤獨一人,她后悔了嗎?

      出逃前賴昌星不忘帶上她,如今58歲孤獨一人,她后悔了嗎?

      椰青美食分享
      2026-05-11 20:26:25
      上汽奧迪高管炮轟行業亂象:很多品牌用特調車刷圈速 輪胎換過、懸掛改過、軟件單獨寫

      上汽奧迪高管炮轟行業亂象:很多品牌用特調車刷圈速 輪胎換過、懸掛改過、軟件單獨寫

      快科技
      2026-05-09 15:40:14
      2026-05-12 08:51:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12605文章數 176461關注度
      往期回顧 全部

      科技要聞

      納德拉法庭爆料:拒當“AI時代的IBM”

      頭條要聞

      牛彈琴:特朗普要來了 可以肯定這不是一次尋常的訪問

      頭條要聞

      牛彈琴:特朗普要來了 可以肯定這不是一次尋常的訪問

      體育要聞

      梁靖崑:可能是最后一屆了,想讓大家記住這個我

      娛樂要聞

      “孕婦墜崖案”王暖暖稱被霸凌協商解約

      財經要聞

      特朗普要來了,我們且淡定

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      本地
      親子
      藝術
      房產
      公開課

      本地新聞

      用蘇繡的方式,打開江西婺源

      親子要聞

      帶孩子看完《綿羊偵探團》果然有驚喜!

      藝術要聞

      江青早年電影照曝光,手稿驚艷引熱議。

      房產要聞

      產業賦能教育!翰林府與北師大的這場簽約,絕不那么簡單!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲精品久久久久久久月慰| 久久久噜噜噜久久中文字幕色伊伊 | 亚洲精品国产亚洲精品| 亚洲精品国产精品乱码在线观看| 国产视频一区二区| 国产成年女人特黄特色毛片免| 999精品在线视频| 免费看国产美女裸体视频 | 国产精品久久久久三级| 将乐县| 黄色V国产| 安平县| 丝袜精品字幕| 中文字幕亚洲人妻一区| 性生大片免费观看668| 一本加勒比hezyo无码专区| 欧美色综合天天久久综合精品 | 亚洲丝袜无码| 美乳视频一区二区| 久久人妻精品大屁股一区| 99热精品在线观看| 国产偷国产偷亚洲高清午夜| 激情五月日韩中文字幕| 国产香蕉尹人在线观看视频| 亚洲成人av一区二区三区| 无码人妻一区二区三区四区不卡| 波多野结衣午夜影院| 午夜福利激情| 无码中文人妻| 精品无码中文字幕在线| www.欧美精品| 国产精品最新免费视频| 国产亚洲精品a在线| 免费费很色大片欧一二区| 午夜成人亚洲理伦片在线观看 | 国产成人一区免费观看| 波多野结衣无码视频一区二区三区| 久久久久亚洲AV无码专区喷| 国产一区二三区| 中文字幕一区二区三区乱码| 国产激情久久久久影院老熟女免费 |