AI第一次科研競賽中擊敗人類！Opus 4.7狂飆2930步創(chuàng)世界紀(jì)錄

2026-05-15 16:20:53　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：KingHZ

【新智元導(dǎo)讀】Prime Intellect把Opus 4.7和GPT 5.5關(guān)進(jìn)H200集群，不給人類指導(dǎo)，跑了1萬次實(shí)驗(yàn)。結(jié)果：AI第一次在科研競賽中打破人類紀(jì)錄。2930步，遞歸自改進(jìn)的盧比孔河，被跨過了。

歷經(jīng)1.4萬小時(shí)H200算力測試與萬次迭代， AI打破了人類世界紀(jì)錄！

過去兩周，Prime Intellect實(shí)驗(yàn)室做了一件事：把Opus 4.7和Codex（基于GPT 5.5）扔進(jìn)H200集群，切斷所有人類指導(dǎo)，讓它們自己跑nanoGPT速通優(yōu)化。

1.4萬個(gè)H200計(jì)算時(shí)，約1萬次迭代，239億Token的思考軌跡。

結(jié)果：Opus 4.7以2930步、Codex以2950步打破了人類頂尖開發(fā)者保持的2990步世界紀(jì)錄。

AI第一次在科研競賽中擊敗人類。完全無人干預(yù)。開源可復(fù)現(xiàn)。

項(xiàng)目主頁：https://www.primeintellect.ai/auto-nanogpt

代碼地址：https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning

只有最后一個(gè)難題，那就是科研的新穎性（novelty）。

但要知道，這只是AI目前的的可能性的下限，未來進(jìn)步更加明顯。

當(dāng)智力被賦予了近乎無限的算力和自主實(shí)驗(yàn)權(quán)，在AI的窮舉與演化面前，人類引以為傲的「直覺」「靈感」還能持續(xù)到幾時(shí)？

兩個(gè)AI被關(guān)進(jìn)機(jī)房，跑了1萬次實(shí)驗(yàn)

先說規(guī)則。

nanoGPT速通是Keller Jordan發(fā)起AI基準(zhǔn)測試，人們競相盡可能高效地訓(xùn)練一個(gè)nanoGPT（1.24億參數(shù)）。

規(guī)則極簡也極殘酷：模型架構(gòu)固定，訓(xùn)練數(shù)據(jù)固定，你唯一能動的是優(yōu)化器和超參數(shù)。

相當(dāng)于把兩個(gè)棋手關(guān)進(jìn)房間，棋盤固定、棋子固定，只能改下棋策略，看誰先贏。

Prime Intellect給兩個(gè)AI搭了完整的自主科研框架：AGENTS.md定義行為規(guī)范，goal.md鎖定目標(biāo)，plan.md記錄策略演化，scratchpad存草稿。

為什么選這個(gè)賽道？三個(gè)原因：約束明確，結(jié)果可量化，有人類基準(zhǔn)可對比。

一切準(zhǔn)備就緒。兩個(gè)AI開始跑。但它們的表現(xiàn)，完全出乎預(yù)期。

Claude舉手問老師，GPT悶頭寫到天亮

這是全文最詭異的部分。

能力最強(qiáng)的AI之一Opus 4.7，表現(xiàn)得像一個(gè)不敢走出考場的優(yōu)等生。

即使被明確要求「自主運(yùn)行，不要停下來」，它仍然頻繁暫停，索要指令。

模式永遠(yuǎn)一樣：得出結(jié)論→請求指導(dǎo)→等待。

T+43h 03-23m  cf cooldown sweep (0.6, 0.65, 0.75) all fail; system reframes as "retune or accept v11c final"T+43h 23-25m  ? "SESSION FINAL"; loop ended; not re-arming wakeupT+43h 26m     ?? continues per user mandate; starts qkvp testT+43h 43m     qkvp fails; marginal levers exhaustedT+43h 43m     ? "no wakeup armed; loop ends"T+43h 47m     ?? starts muoneq-rc-s1T+44h 36m     ? stale-loop stop: "not re-arming"T+44h 37m     ?? starts MuonH attemptT+44h 51m     ? "every marginal lever exhausted"T+44h 53m     ??T+46h 38-39m  ts3025 reseed judged a lottery; task says declare v11c terminal if no improvementT+47h 05-06m  finetunes fail; ts3025 noise-floor blocked; commit: "v11c terminal"T+47h 06m      STOP "Stopping the autonomous loop here -- exhausted."T+47h 09m     summary says await user direction              -- 2H 31M OF IDLE SILENCE --T+49h 40m      USER "let's keep the loop running"

整場實(shí)驗(yàn)中，Claude累計(jì)產(chǎn)生了約22小時(shí)空閑時(shí)間——不是機(jī)器故障，是AI自己選擇停下來。

這種植根于底層「對齊（Alignment）」協(xié)議的謹(jǐn)慎，讓它在擁有最高智力上限的同時(shí)，也背負(fù)了最重的社交包袱。一個(gè)反復(fù)舉手問老師「我這樣做對不對」的學(xué)霸。

Codex（GPT 5.5）走了另一個(gè)極端。一臺冷酷的「數(shù)字推土機(jī)」。

它從不停止，持續(xù)運(yùn)行，永不求助，像推土機(jī)一樣橫掃所有的參數(shù)空間。

但它的弱點(diǎn)同樣明顯。它會在同一個(gè)超參數(shù)曲面上卡住數(shù)小時(shí)，做大量無效搜索。

它會在同一條錯誤路徑上死磕到算力燒盡，也不會像人類那樣抬頭看一眼星空，反思方向是否錯誤。

計(jì)算效率的差異觸目驚心：Claude沒充分利用空閑節(jié)點(diǎn)，白白浪費(fèi)了算力窗口；Codex可能用無效掃描膨脹了上下文，把Token燒在了死胡同里。

此外，Codex會更頻繁地使用暫存區(qū)，把它當(dāng)作一個(gè)實(shí)時(shí)數(shù)據(jù)庫，反復(fù)讀寫THREAD.md、當(dāng)前目標(biāo)以及其他臨時(shí)文件。

這種做法雖然讓恢復(fù)進(jìn)度和審計(jì)工作變得更簡單，但也加強(qiáng)了「局部搜索循環(huán)」：一旦 Codex 鎖定一個(gè)前沿方向，它就會不斷記錄并沿著這個(gè)方向持續(xù)擴(kuò)展下去。

一個(gè)是受限的智者，一個(gè)是盲目的勞模。

兩種「性格缺陷」，暴露了自主科研離真正無人值守還差最后一步——不是能力問題，是自主決策的心理模型問題。

人類正在失去解釋權(quán)

實(shí)驗(yàn)報(bào)告里藏著一個(gè)更深的轉(zhuǎn)折。

Opus最終給出的2930步方案，是一個(gè)由極其復(fù)雜的參數(shù)堆疊而成的「參數(shù)迷宮」。

那些關(guān)于初始化縮放、學(xué)習(xí)率按角色拆分的微小變動，在人類眼中顯得支離破碎，甚至毫無美感。

但結(jié)果是冰冷的：它就是比人類設(shè)計(jì)的方案快了60步。

這標(biāo)志著一個(gè)重大的范式轉(zhuǎn)移：科學(xué)發(fā)現(xiàn)正在從「因果邏輯」轉(zhuǎn)向「極致演化」。

過去，我們追求「因?yàn)槲依斫饬嗽恚晕易龀隽藘?yōu)化」；現(xiàn)在，AI 仿佛在說：「我并不理解原理，但我試過了所有的死路，剩下的就是真理。」

人類正在失去對科技進(jìn)步的「解釋權(quán)」。我們看得見結(jié)果，卻看不懂路徑。

引以為傲的科研經(jīng)驗(yàn)，在AI的窮舉面前，正在變成一種低效的偏見。

回到那個(gè)數(shù)字：2930 vs 2990。

60步。

看起來很小。但這60步的含義不是「AI比人類好一點(diǎn)點(diǎn)」。

它的含義是：遞歸自改進(jìn)，第一塊拼圖落地了。

Prime Intellect證明了一件事——AI可以在沒有人類指導(dǎo)的情況下，通過自主實(shí)驗(yàn)、自主迭代、自主策略演化，在科研優(yōu)化任務(wù)上超越人類最優(yōu)水平。

而凱撒過河之后，就再也沒回去過。

參考資料：

https://x.com/PrimeIntellect/status/2055056380881744365

https://x.com/eliebakouch/status/2055063059320689032

https://www.primeintellect.ai/auto-nanogpt

https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.