![]()
新智元報道
編輯:Aeneas KingHZ
【新智元導讀】五一假期前,AI社區被一篇「GPT-5.5擁有近10萬億參數」的論文刷屏,今天這項研究就被研究者打假了!研究者表示,修正論文中的各種問題后,GPT-5.5的參數很可能約為1.5T。
2026年4月底,AI界被一篇名為《不可壓縮知識探針》(Incompressible Knowledge Probes,簡稱 IKP)的論文震動了。
![]()
論文地址:https://www.alphaxiv.org/abs/2604.24827
Pine AI的首席科學家Bojie Li發表了一項研究,聲稱通過一種全新的「黑盒探測法」,推算出了那些閉源模型的真實體量。
GPT-5.5:9.7萬億(9.7T)參數
Claude Opus 4.7:4.0萬億(4.0T)參數
o1:3.5萬億(3.5T)參數
這個數據瞬間引爆了社交媒體。
要知道,如果GPT-5.5真的達到了10T規模,那意味著它比傳聞中的GPT-4(約1.8T)大了5倍有余。
一時間,這個參數瞬間傳遍全網。
![]()
然而,僅僅幾天后,反轉就來了。
邏輯的漏洞:從10T到1.5T的縮水內幕
最近,來自UC伯克利CHAI實驗室的Lawrence Chan和UK AISI的研究員Ben Sturgeon對這篇論文進行了深挖。
![]()
他們發現,這篇聲稱「逆推大模型規模」的爆火論文,竟然存在嚴重的邏輯與代碼偏差。
![]()
修復這些問題后,GPT-5.5的參數約為1.5T(90% 置信區間:256B-8.3T)。
![]()
被修飾的擬合曲線
在原始論文中,作者聲稱沒有對模型的得分進行「保底處理」(flooring)。但在復現代碼時,研究者發現作者在計算小模型得分時,偷偷地將負分歸零了。
科普:當模型遇到不知道的冷知識時,如果亂猜(幻覺),得分會是負數。
如果把這個「歸零」操作去掉,小模型的得分會大幅下降。這意味著原本陡峭的「得分-參數」擬合曲線會變得平緩。修正后,估算的GPT-5.5規模直接從9.7T暴跌至1.5T。
![]()
![]()
「人工智障」出題:25%的題目本身就有錯
研究者發現,這套用來測試模型的「冷知識題庫」質量同樣堪憂。
歧義性:約25%的專家知識題存在歧義(例如重名研究員)。
事實錯誤:部分標準答案本身就是錯的。
最戲劇性的是,原作者Bojie Li后來坦言:這篇研究是他在AI智能體的輔助下,僅用4天時間完成的早期探索。
這種「AI寫論文研究AI」的模式,被Lawrence Chan戲稱為「充滿槽點的Vibe-coding」。
![]()
![]()
核心理論依然堅挺
知識「不可壓縮」
用嚴謹的話說,論文的核心思想——IKP 得分與對數參數數量之間的線性關系——仍然成立,但參數數量的估計卻不成立。
![]()
解決這兩個問題后,基于IKP的前沿模型估計的參數數量通常會下降,置信區間會擴大:
GPT 5.5:9.7T -> 1.5T
Claude Opus 4.7:4.0T -> 1.1T
DeepSeek R1(實際大小671B):424 B -> 760 B
![]()
難得的是,論文中的三種說法,承受住了各種測試,被證明依然是正確的。
比如,IKP分數和模型的參數呈對數線性關系。
![]()
總之,論文提出的核心模型依然得到了學界的認可:不可壓縮知識探針(IKP)。
這個理論認為,大模型的能力可以分為兩部分。
程序性能力(邏輯、推理、代碼):這是可以壓縮的。隨著架構優化,更小的模型可以擁有更強的推理能力。
事實性知識(某人的出生日期、冷門研究領域):這是不可壓縮的。
你可以把模型想象成一個硬盤,存一個事實就需要占幾個比特位。
因此,測試模型到底知道多少「不可壓縮」的冷知識,確實是目前探測閉源模型參數最科學的「測力計」。
誰才是真正的「知識之王」?
而且,盡管參數規模下調了,但各家模型的「有效容量」排名依然極具參考價值。
梯隊格局
第一梯隊(巔峰王者):GPT-5.5。雖然可能只有1.5T左右,但它在T6級別的超冷門知識表現上依然冠絕群雄。
第二梯隊(貼身肉搏):Claude Opus 4.7、o1、Grok-4。這幾款模型的有效容量高度接近,競爭進入白熱化。
MoE(混合專家模型)的秘密:研究發現,MoE模型的知識量取決于其總參數,而非每次運行時的「激活參數」。這意味著,如果你想讓模型博學,堆參數依然是唯一的硬道理。
「思考模式」的玄學
測試顯示,開啟「思維鏈」(Thinking Mode)并不能顯著增加模型的知識量。這再次印證了:思考能提高邏輯,但不能憑空變出你沒讀過的書。
最后,Lawrence Chan吐槽說:這項工作果然是AI智能體在四天內完成的,因為網站和代碼庫到處都體現著vibe coding的粗糙風格。
![]()
GPT-5.5參數有9.7T?
4月30日,Pine AI的首席科學家李博杰的這篇論文引發了熱議。
![]()
核心觀點是:事實性容量與模型規模呈對數線性關系。
論文展示了 7 個知識層級,其中T7對所有模型來說幾乎都是0%左右,這表明預訓練仍有巨大的提升空間。
![]()
Gemini 3.1 Pro很可能超過 10T,因為它被用作錨點,但論文中沒有對其直接估算。
這意味著,我們可以在一定程度上推斷不同模型的訓練成本,以及它們的后訓練效果——即在給定規模下,在某些非事實性任務上的表現。
在原作中,李博杰構建了一個包含1400個事實性問題的數據集,并將準確率與參數數量進行擬合。
通過反轉擬合,從閉源模型的數據集得分,研究人員推斷出其參數數量。
![]()
特別要注意最后一行的90%預測區間「Predicition interval, PI」非常大。
此前,就有網友注意到這些「規模只是推測,不應當作事實」。
![]()
現在許多人,想知道估算對方法論有多敏感——
![]()
李博杰直言,「同一個評估任務,結果橫跨60倍區間 → 任何單一的點估計都不誠實。」
![]()
不過,IKP本是一個起點,而非終點。
作者坦誠自己匆忙上傳了一篇未成熟的arXiv論文,只是為了把這個想法放出來。
論文、代碼、數據集和網站都是在 4 天內完成的,主要借助 Claude Code,發布前未經同行審閱。采用下限處理和 λ=?1,是為了在開放權重模型上最大化R2。
我們期待未來的工作能將它做得更好!
Scaling Law失效了嗎?
這次「參數神話」的破滅,給行業敲響了警鐘:盲目崇拜大數字的時代正在過去。
GPT-5.5從10T降到1.5T,并不意味著它變弱了,而是意味著OpenAI可能在數據質量和參數效率上做了更驚人的優化。
正如Lawrence Chan在總結中所說:「GPT-5.5到底有多少參數?我們依然不確定。但這種通過探測知識容量來反推規模的方法,為我們揭開黑盒模型的面紗提供了一條新路徑。」
在通往AGI的路上,我們需要的或許不再是更大的硬盤,而是更聰明的索引方式。
參考資料:
https://x.com/deedydas/status/2049523583517634862
https://x.com/justanotherlaw/status/2050399317782155726
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.