<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      AI第一次科研競賽中擊敗人類!Opus 4.7狂飆2930步創(chuàng)世界紀(jì)錄

      0
      分享至


      新智元報(bào)道

      編輯:KingHZ

      【新智元導(dǎo)讀】Prime Intellect把Opus 4.7和GPT 5.5關(guān)進(jìn)H200集群,不給人類指導(dǎo),跑了1萬次實(shí)驗(yàn)。結(jié)果:AI第一次在科研競賽中打破人類紀(jì)錄。2930步,遞歸自改進(jìn)的盧比孔河,被跨過了。

      歷經(jīng)1.4萬小時(shí)H200算力測試與萬次迭代, AI打破了人類世界紀(jì)錄!


      過去兩周,Prime Intellect實(shí)驗(yàn)室做了一件事:把Opus 4.7和Codex(基于GPT 5.5)扔進(jìn)H200集群,切斷所有人類指導(dǎo),讓它們自己跑nanoGPT速通優(yōu)化。

      1.4萬個(gè)H200計(jì)算時(shí),約1萬次迭代,239億Token的思考軌跡

      結(jié)果:Opus 4.7以2930步、Codex以2950步打破了人類頂尖開發(fā)者保持的2990步世界紀(jì)錄。

      AI第一次在科研競賽中擊敗人類。完全無人干預(yù)。開源可復(fù)現(xiàn)。


      項(xiàng)目主頁:https://www.primeintellect.ai/auto-nanogpt

      代碼地址:https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning

      只有最后一個(gè)難題, 那就是科研的新穎性(novelty)。


      但要知道,這只是AI目前的的可能性的下限,未來進(jìn)步更加明顯。


      當(dāng)智力被賦予了近乎無限的算力和自主實(shí)驗(yàn)權(quán),在AI的窮舉與演化面前,人類引以為傲的「直覺」「靈感」還能持續(xù)到幾時(shí)?

      兩個(gè)AI被關(guān)進(jìn)機(jī)房,跑了1萬次實(shí)驗(yàn)

      先說規(guī)則。

      nanoGPT速通是Keller Jordan發(fā)起AI基準(zhǔn)測試,人們競相盡可能高效地訓(xùn)練一個(gè)nanoGPT(1.24億參數(shù))。

      規(guī)則極簡也極殘酷:模型架構(gòu)固定,訓(xùn)練數(shù)據(jù)固定,你唯一能動的是優(yōu)化器和超參數(shù)

      相當(dāng)于把兩個(gè)棋手關(guān)進(jìn)房間,棋盤固定、棋子固定,只能改下棋策略,看誰先贏。

      Prime Intellect給兩個(gè)AI搭了完整的自主科研框架:AGENTS.md定義行為規(guī)范,goal.md鎖定目標(biāo),plan.md記錄策略演化,scratchpad存草稿。

      為什么選這個(gè)賽道?三個(gè)原因:約束明確,結(jié)果可量化,有人類基準(zhǔn)可對比。

      一切準(zhǔn)備就緒。兩個(gè)AI開始跑。但它們的表現(xiàn),完全出乎預(yù)期。


      Claude舉手問老師,GPT悶頭寫到天亮

      這是全文最詭異的部分。

      能力最強(qiáng)的AI之一Opus 4.7,表現(xiàn)得像一個(gè)不敢走出考場的優(yōu)等生。

      即使被明確要求「自主運(yùn)行,不要停下來」,它仍然頻繁暫停,索要指令。

      模式永遠(yuǎn)一樣:得出結(jié)論→請求指導(dǎo)→等待。


      T+43h 03-23m  cf cooldown sweep (0.6, 0.65, 0.75) all fail; system reframes as "retune or accept v11c final"T+43h 23-25m  ? "SESSION FINAL"; loop ended; not re-arming wakeupT+43h 26m     ?? continues per user mandate; starts qkvp testT+43h 43m     qkvp fails; marginal levers exhaustedT+43h 43m     ? "no wakeup armed; loop ends"T+43h 47m     ?? starts muoneq-rc-s1T+44h 36m     ? stale-loop stop: "not re-arming"T+44h 37m     ?? starts MuonH attemptT+44h 51m     ? "every marginal lever exhausted"T+44h 53m     ??T+46h 38-39m  ts3025 reseed judged a lottery; task says declare v11c terminal if no improvementT+47h 05-06m  finetunes fail; ts3025 noise-floor blocked; commit: "v11c terminal"T+47h 06m      STOP "Stopping the autonomous loop here -- exhausted."T+47h 09m     summary says await user direction              -- 2H 31M OF IDLE SILENCE --T+49h 40m      USER "let's keep the loop running"

      整場實(shí)驗(yàn)中,Claude累計(jì)產(chǎn)生了約22小時(shí)空閑時(shí)間——不是機(jī)器故障,是AI自己選擇停下來。

      這種植根于底層「對齊(Alignment)」協(xié)議的謹(jǐn)慎,讓它在擁有最高智力上限的同時(shí),也背負(fù)了最重的社交包袱。一個(gè)反復(fù)舉手問老師「我這樣做對不對」的學(xué)霸。

      Codex(GPT 5.5)走了另一個(gè)極端。一臺冷酷的「數(shù)字推土機(jī)」。

      它從不停止,持續(xù)運(yùn)行,永不求助,像推土機(jī)一樣橫掃所有的參數(shù)空間。

      但它的弱點(diǎn)同樣明顯。它會在同一個(gè)超參數(shù)曲面上卡住數(shù)小時(shí),做大量無效搜索。

      它會在同一條錯誤路徑上死磕到算力燒盡,也不會像人類那樣抬頭看一眼星空,反思方向是否錯誤。

      計(jì)算效率的差異觸目驚心:Claude沒充分利用空閑節(jié)點(diǎn),白白浪費(fèi)了算力窗口;Codex可能用無效掃描膨脹了上下文,把Token燒在了死胡同里。


      此外,Codex會更頻繁地使用暫存區(qū),把它當(dāng)作一個(gè)實(shí)時(shí)數(shù)據(jù)庫,反復(fù)讀寫THREAD.md、當(dāng)前目標(biāo)以及其他臨時(shí)文件。

      這種做法雖然讓恢復(fù)進(jìn)度和審計(jì)工作變得更簡單,但也加強(qiáng)了「局部搜索循環(huán)」:一旦 Codex 鎖定一個(gè)前沿方向,它就會不斷記錄并沿著這個(gè)方向持續(xù)擴(kuò)展下去。


      一個(gè)是受限的智者,一個(gè)是盲目的勞模。

      兩種「性格缺陷」,暴露了自主科研離真正無人值守還差最后一步——不是能力問題,是自主決策的心理模型問題。


      人類正在失去解釋權(quán)

      實(shí)驗(yàn)報(bào)告里藏著一個(gè)更深的轉(zhuǎn)折。

      Opus最終給出的2930步方案,是一個(gè)由極其復(fù)雜的參數(shù)堆疊而成的「參數(shù)迷宮」。

      那些關(guān)于初始化縮放、學(xué)習(xí)率按角色拆分的微小變動,在人類眼中顯得支離破碎,甚至毫無美感。

      但結(jié)果是冰冷的:它就是比人類設(shè)計(jì)的方案快了60步

      這標(biāo)志著一個(gè)重大的范式轉(zhuǎn)移:科學(xué)發(fā)現(xiàn)正在從「因果邏輯」轉(zhuǎn)向「極致演化」。

      過去,我們追求「因?yàn)槲依斫饬嗽恚晕易龀隽藘?yōu)化」;現(xiàn)在,AI 仿佛在說:「我并不理解原理,但我試過了所有的死路,剩下的就是真理。」


      人類正在失去對科技進(jìn)步的「解釋權(quán)」。我們看得見結(jié)果,卻看不懂路徑。

      引以為傲的科研經(jīng)驗(yàn),在AI的窮舉面前,正在變成一種低效的偏見。

      回到那個(gè)數(shù)字:2930 vs 2990。

      60步。

      看起來很小。但這60步的含義不是「AI比人類好一點(diǎn)點(diǎn)」。

      它的含義是:遞歸自改進(jìn),第一塊拼圖落地

      Prime Intellect證明了一件事——AI可以在沒有人類指導(dǎo)的情況下,通過自主實(shí)驗(yàn)、自主迭代、自主策略演化,在科研優(yōu)化任務(wù)上超越人類最優(yōu)水平。

      而凱撒過河之后,就再也沒回去過。

      參考資料:

      https://x.com/PrimeIntellect/status/2055056380881744365

      https://x.com/eliebakouch/status/2055063059320689032

      https://www.primeintellect.ai/auto-nanogpt

      https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      全紅嬋發(fā)布與媽媽病床牽手畫面 配文"愛你媽媽"

      全紅嬋發(fā)布與媽媽病床牽手畫面 配文"愛你媽媽"

      看看新聞Knews
      2026-05-15 09:20:06
      68歲工地大爺哭訴:每月5000塊錢退休金,卻還要為養(yǎng)老的問題發(fā)愁

      68歲工地大爺哭訴:每月5000塊錢退休金,卻還要為養(yǎng)老的問題發(fā)愁

      施工員小天哥
      2026-05-13 11:16:37
      山東大姐這事干的漂亮!被美國FBI懸賞!賞金1.5億超過3個(gè)本拉登

      山東大姐這事干的漂亮!被美國FBI懸賞!賞金1.5億超過3個(gè)本拉登

      馬爾科故事會
      2025-03-27 15:21:29
      用戶向豆包咨詢機(jī)票退票手續(xù)費(fèi),導(dǎo)致?lián)p失600元,并向法院起訴豆包運(yùn)營公司,豆包相關(guān)負(fù)責(zé)人:案例已處置,涉及金融、退款等會有風(fēng)險(xiǎn)提示

      用戶向豆包咨詢機(jī)票退票手續(xù)費(fèi),導(dǎo)致?lián)p失600元,并向法院起訴豆包運(yùn)營公司,豆包相關(guān)負(fù)責(zé)人:案例已處置,涉及金融、退款等會有風(fēng)險(xiǎn)提示

      極目新聞
      2026-05-14 16:30:33
      干啥啥不行,投訴第一名!七問大興發(fā)展

      干啥啥不行,投訴第一名!七問大興發(fā)展

      坤輿商業(yè)
      2026-05-15 11:59:23
      海口市水務(wù)局二級主任科員蔡智接受紀(jì)律審查和監(jiān)察調(diào)查

      海口市水務(wù)局二級主任科員蔡智接受紀(jì)律審查和監(jiān)察調(diào)查

      蓬勃新聞
      2026-05-15 16:44:16
      澤連斯基稱俄羅斯可能從白俄羅斯發(fā)起進(jìn)攻,并襲擊烏克蘭決策中心

      澤連斯基稱俄羅斯可能從白俄羅斯發(fā)起進(jìn)攻,并襲擊烏克蘭決策中心

      山河路口
      2026-05-15 23:16:45
      “最美嬰兒”走紅,像是在娘胎里整了容,網(wǎng)友:看一眼就想抱走

      “最美嬰兒”走紅,像是在娘胎里整了容,網(wǎng)友:看一眼就想抱走

      大果小果媽媽
      2026-04-23 13:35:47
      央視三胎宣傳片惹爭議,脫離現(xiàn)實(shí)強(qiáng)行把孕婦塑造成超人式幸福?

      央視三胎宣傳片惹爭議,脫離現(xiàn)實(shí)強(qiáng)行把孕婦塑造成超人式幸福?

      今朝牛馬
      2026-05-07 20:36:33
      二戰(zhàn)時(shí)期,唯一一個(gè)沒有參戰(zhàn)的世界性強(qiáng)國,當(dāng)時(shí)它到底在忙什么?

      二戰(zhàn)時(shí)期,唯一一個(gè)沒有參戰(zhàn)的世界性強(qiáng)國,當(dāng)時(shí)它到底在忙什么?

      云霄紀(jì)史觀
      2026-05-14 17:55:31
      Apple Watch12代再擠牙膏,還能買嗎?

      Apple Watch12代再擠牙膏,還能買嗎?

      互聯(lián)網(wǎng)放大鏡
      2026-05-15 20:29:00
      中美互利共贏:200架波音訂單與C919適航前景

      中美互利共贏:200架波音訂單與C919適航前景

      曉踏就是我
      2026-05-15 18:06:31
      世界杯版權(quán)6000萬美元什么水平?低于日韓的估價(jià),與西班牙相同

      世界杯版權(quán)6000萬美元什么水平?低于日韓的估價(jià),與西班牙相同

      懂球帝
      2026-05-15 18:31:29
      特朗普稱美伊停火系“應(yīng)其他國家要求”

      特朗普稱美伊停火系“應(yīng)其他國家要求”

      澎湃新聞
      2026-05-15 22:33:27
      媒體人:周琦、王哲林對決讓人感慨,曾凡博對比張鎮(zhèn)麟相形見絀

      媒體人:周琦、王哲林對決讓人感慨,曾凡博對比張鎮(zhèn)麟相形見絀

      懂球帝
      2026-05-16 00:34:12
      網(wǎng)紅瓜媽與高種姓印度老公離婚后續(xù):短視頻粉絲銳減,已停止更新

      網(wǎng)紅瓜媽與高種姓印度老公離婚后續(xù):短視頻粉絲銳減,已停止更新

      小徐講八卦
      2026-05-11 10:22:16
      49歲馬伊琍“爆炸式”官宣,文章攜新歡亮相,各自安好!

      49歲馬伊琍“爆炸式”官宣,文章攜新歡亮相,各自安好!

      驕陽之夏明
      2026-05-14 22:52:13
      中央下令嚴(yán)查宅基地!2026年新規(guī)執(zhí)行,每家每戶都要注意

      中央下令嚴(yán)查宅基地!2026年新規(guī)執(zhí)行,每家每戶都要注意

      王嚾曉
      2026-03-18 23:31:04
      斯盧茨基:李可血管里有栓塞;米內(nèi)羅之前肌肉也有一些問題

      斯盧茨基:李可血管里有栓塞;米內(nèi)羅之前肌肉也有一些問題

      懂球帝
      2026-05-15 16:25:12
      世界正在發(fā)生一個(gè)極其惡心的變化!印度最終可能會成為地球大患

      世界正在發(fā)生一個(gè)極其惡心的變化!印度最終可能會成為地球大患

      世界圈
      2026-05-04 16:42:27
      2026-05-16 01:28:49
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時(shí)代
      15220文章數(shù) 66869關(guān)注度
      往期回顧 全部

      科技要聞

      直降千元起步!蘋果華為率先開啟618讓利

      頭條要聞

      特朗普稱中方同意購買200架波音飛機(jī) 外交部回應(yīng)

      頭條要聞

      特朗普稱中方同意購買200架波音飛機(jī) 外交部回應(yīng)

      體育要聞

      德約科維奇買的球隊(duì),從第6級聯(lián)賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財(cái)經(jīng)要聞

      騰訊掉隊(duì),馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀(jì)錄 ID. Polo GTI迎全球首秀

      態(tài)度原創(chuàng)

      時(shí)尚
      游戲
      數(shù)碼
      教育
      軍事航空

      頂級團(tuán)隊(duì)拍出來的作品不如素人,問題出在哪兒了?

      《街霸6》春麗新品來了!招牌肉腿完美還原

      數(shù)碼要聞

      七彩虹2026款iGame M15/M16 Origo筆記本發(fā)售,11499元起

      教育要聞

      深圳市福田區(qū)教育局局長王巍:教師不再是傳統(tǒng)的教書匠,而是成為與孩子并肩探索的“創(chuàng)新合伙人”

      軍事要聞

      烏克蘭首都基輔遭空襲 死亡人數(shù)增至12人

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲小视频| 亚洲AV优女天堂波多野结衣| 国产精品亚洲第一区焦香味| 精品国产91天堂嫩模在线观看| 亚洲丁香五月天缴情综合| 第一宅男AV导航| 网曝吃瓜黑料一区| 收集最新中文国产中文字幕| 双柏县| 国产日韩精品欧美一区喷| 亚洲色图导航| 欧美日韩国产一区二区三区不卡| 欧美精品久久久久久久久46P| 国产网站一区二区三区| 亚洲成aⅴ人在线观看| 真实国产熟睡乱子伦视频| 亚洲人成网站在线播放影院在线| 第一福利精品导航| 美女视频二区| av一本久道久久波多野结衣| 国产精品白浆无码流出| 亚洲AV无码国产精品麻豆天美 | 成在线人视频免费视频| 狠狠狠色丁香综合婷婷久久| 国产激情一区二区三区四区| 天天操天天干视频| 九九热在线视频| 久青草久青草视频在线观看| 久本草在线中文字幕亚洲欧美 | 男人放进女人阳道动态图| 天天摸天天做天天爽| 国产精品久久久久久爽爽爽| 狠狠亚洲超碰狼人久久老人| 亚洲自偷自偷在线成人网址 | 日本久久99成人网站| 日韩日韩日韩日韩日韩熟女| 亚洲一区二区偷拍精品| 香蕉久久av一区二区三区| 日日摸夜夜添夜夜添无码专区| 9999国产精品欧美久久久久久| 国产一卡2卡三卡4卡免费网站|