<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      GPT-5.5參數有10T?病毒式論文剛剛被打假,實際縮水至1.5T

      0
      分享至


      新智元報道

      編輯:Aeneas KingHZ

      【新智元導讀】五一假期前,AI社區被一篇「GPT-5.5擁有近10萬億參數」的論文刷屏,今天這項研究就被研究者打假了!研究者表示,修正論文中的各種問題后,GPT-5.5的參數很可能約為1.5T。

      2026年4月底,AI界被一篇名為《不可壓縮知識探針》(Incompressible Knowledge Probes,簡稱 IKP)的論文震動了。


      論文地址:https://www.alphaxiv.org/abs/2604.24827

      Pine AI的首席科學家Bojie Li發表了一項研究,聲稱通過一種全新的「黑盒探測法」,推算出了那些閉源模型的真實體量。

      • GPT-5.5:9.7萬億(9.7T)參數

      • Claude Opus 4.7:4.0萬億(4.0T)參數

      • o1:3.5萬億(3.5T)參數

      這個數據瞬間引爆了社交媒體。

      要知道,如果GPT-5.5真的達到了10T規模,那意味著它比傳聞中的GPT-4(約1.8T)大了5倍有余。

      一時間,這個參數瞬間傳遍全網。


      然而,僅僅幾天后,反轉就來了。

      邏輯的漏洞:從10T到1.5T的縮水內幕

      最近,來自UC伯克利CHAI實驗室的Lawrence Chan和UK AISI的研究員Ben Sturgeon對這篇論文進行了深挖。


      他們發現,這篇聲稱「逆推大模型規模」的爆火論文,竟然存在嚴重的邏輯與代碼偏差。


      修復這些問題后,GPT-5.5的參數約為1.5T(90% 置信區間:256B-8.3T)。


      被修飾的擬合曲線

      在原始論文中,作者聲稱沒有對模型的得分進行「保底處理」(flooring)。但在復現代碼時,研究者發現作者在計算小模型得分時,偷偷地將負分歸零了。

      科普:當模型遇到不知道的冷知識時,如果亂猜(幻覺),得分會是負數。

      如果把這個「歸零」操作去掉,小模型的得分會大幅下降。這意味著原本陡峭的「得分-參數」擬合曲線會變得平緩。修正后,估算的GPT-5.5規模直接從9.7T暴跌至1.5T



      「人工智障」出題:25%的題目本身就有錯

      研究者發現,這套用來測試模型的「冷知識題庫」質量同樣堪憂。

      • 歧義性:約25%的專家知識題存在歧義(例如重名研究員)。

      • 事實錯誤:部分標準答案本身就是錯的。

      最戲劇性的是,原作者Bojie Li后來坦言:這篇研究是他在AI智能體的輔助下,僅用4天時間完成的早期探索。

      這種「AI寫論文研究AI」的模式,被Lawrence Chan戲稱為「充滿槽點的Vibe-coding」。



      核心理論依然堅挺

      知識「不可壓縮」

      用嚴謹的話說,論文的核心思想——IKP 得分與對數參數數量之間的線性關系——仍然成立,但參數數量的估計卻不成立。


      解決這兩個問題后,基于IKP的前沿模型估計的參數數量通常會下降,置信區間會擴大:

      GPT 5.5:9.7T -> 1.5T

      Claude Opus 4.7:4.0T -> 1.1T

      DeepSeek R1(實際大小671B):424 B -> 760 B


      難得的是,論文中的三種說法,承受住了各種測試,被證明依然是正確的。

      比如,IKP分數和模型的參數呈對數線性關系。


      總之,論文提出的核心模型依然得到了學界的認可:不可壓縮知識探針(IKP)。

      這個理論認為,大模型的能力可以分為兩部分。

      1. 程序性能力(邏輯、推理、代碼):這是可以壓縮的。隨著架構優化,更小的模型可以擁有更強的推理能力。

      2. 事實性知識(某人的出生日期、冷門研究領域):這是不可壓縮的。

      你可以把模型想象成一個硬盤,存一個事實就需要占幾個比特位。

      因此,測試模型到底知道多少「不可壓縮」的冷知識,確實是目前探測閉源模型參數最科學的「測力計」。

      誰才是真正的「知識之王」?

      而且,盡管參數規模下調了,但各家模型的「有效容量」排名依然極具參考價值。

      梯隊格局

      • 第一梯隊(巔峰王者):GPT-5.5。雖然可能只有1.5T左右,但它在T6級別的超冷門知識表現上依然冠絕群雄。

      • 第二梯隊(貼身肉搏):Claude Opus 4.7、o1、Grok-4。這幾款模型的有效容量高度接近,競爭進入白熱化。

      • MoE(混合專家模型)的秘密:研究發現,MoE模型的知識量取決于其總參數,而非每次運行時的「激活參數」。這意味著,如果你想讓模型博學,堆參數依然是唯一的硬道理。

      「思考模式」的玄學

      測試顯示,開啟「思維鏈」(Thinking Mode)并不能顯著增加模型的知識量。這再次印證了:思考能提高邏輯,但不能憑空變出你沒讀過的書。

      最后,Lawrence Chan吐槽說:這項工作果然是AI智能體在四天內完成的,因為網站和代碼庫到處都體現著vibe coding的粗糙風格。


      GPT-5.5參數有9.7T?

      4月30日,Pine AI的首席科學家李博杰的這篇論文引發了熱議。


      核心觀點是:事實性容量與模型規模呈對數線性關系。

      論文展示了 7 個知識層級,其中T7對所有模型來說幾乎都是0%左右,這表明預訓練仍有巨大的提升空間。


      Gemini 3.1 Pro很可能超過 10T,因為它被用作錨點,但論文中沒有對其直接估算。

      這意味著,我們可以在一定程度上推斷不同模型的訓練成本,以及它們的后訓練效果——即在給定規模下,在某些非事實性任務上的表現。

      在原作中,李博杰構建了一個包含1400個事實性問題的數據集,并將準確率與參數數量進行擬合。

      通過反轉擬合,從閉源模型的數據集得分,研究人員推斷出其參數數量。


      特別要注意最后一行的90%預測區間「Predicition interval, PI」非常大。

      此前,就有網友注意到這些「規模只是推測,不應當作事實」。


      現在許多人,想知道估算對方法論有多敏感——


      李博杰直言,「同一個評估任務,結果橫跨60倍區間 → 任何單一的點估計都不誠實。」


      不過,IKP本是一個起點,而非終點。

      作者坦誠自己匆忙上傳了一篇未成熟的arXiv論文,只是為了把這個想法放出來。

      論文、代碼、數據集和網站都是在 4 天內完成的,主要借助 Claude Code,發布前未經同行審閱。采用下限處理和 λ=?1,是為了在開放權重模型上最大化R2。

      我們期待未來的工作能將它做得更好!

      Scaling Law失效了嗎?

      這次「參數神話」的破滅,給行業敲響了警鐘:盲目崇拜大數字的時代正在過去。

      GPT-5.5從10T降到1.5T,并不意味著它變弱了,而是意味著OpenAI可能在數據質量和參數效率上做了更驚人的優化。

      正如Lawrence Chan在總結中所說:「GPT-5.5到底有多少參數?我們依然不確定。但這種通過探測知識容量來反推規模的方法,為我們揭開黑盒模型的面紗提供了一條新路徑。」

      在通往AGI的路上,我們需要的或許不再是更大的硬盤,而是更聰明的索引方式。

      參考資料:

      https://x.com/deedydas/status/2049523583517634862

      https://x.com/justanotherlaw/status/2050399317782155726

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      不知道有沒有人發現一個規律,
只要是唐嫣參演的作品

      不知道有沒有人發現一個規律, 只要是唐嫣參演的作品

      小光侃娛樂
      2026-05-01 20:45:09
      逼走陳忠和,打壓劉國梁,排擠郎平,90歲“體壇惡人”現今咋樣了

      逼走陳忠和,打壓劉國梁,排擠郎平,90歲“體壇惡人”現今咋樣了

      拳擊時空
      2026-05-03 06:12:49
      “初代白月光”翻紅!183薄肌小狗爆改陰濕人夫,網友:越老越香

      “初代白月光”翻紅!183薄肌小狗爆改陰濕人夫,網友:越老越香

      FUFASHION
      2026-05-03 00:25:05
      艾倫:榮譽歸中國小將!吳宜澤決勝局被觀眾干擾,將和墨菲爭冠

      艾倫:榮譽歸中國小將!吳宜澤決勝局被觀眾干擾,將和墨菲爭冠

      排球黃金眼
      2026-05-03 08:15:42
      心理學上有個詞叫:螃蟹效應。永遠要記住,和周圍人搞好關系的秘訣就是,不分享喜悅、不炫耀成功、不說三道四、不假裝聰明

      心理學上有個詞叫:螃蟹效應。永遠要記住,和周圍人搞好關系的秘訣就是,不分享喜悅、不炫耀成功、不說三道四、不假裝聰明

      德魯克博雅管理
      2026-04-28 17:04:30
      與董潔牽手同框3個月,50歲陳坤現狀曝光,兒子身世早已明了

      與董潔牽手同框3個月,50歲陳坤現狀曝光,兒子身世早已明了

      以茶帶書
      2026-05-01 18:13:28
      情報站|濟南午后突刮大風,大樹連根拔起砸中路邊車輛幸無人受傷

      情報站|濟南午后突刮大風,大樹連根拔起砸中路邊車輛幸無人受傷

      齊魯壹點
      2026-05-03 17:54:08
      一把手是沒有辦法監督的

      一把手是沒有辦法監督的

      職場資深秘書
      2026-05-02 12:02:19
      穆帥的本菲卡逃過一劫,因競爭對手葡體憾平,暫時保住聯賽第2位

      穆帥的本菲卡逃過一劫,因競爭對手葡體憾平,暫時保住聯賽第2位

      福醬的小時光
      2026-05-03 10:16:01
      A·史密斯談與詹姆斯恩怨:我干這行32年了 絕不會攻擊別人的家庭

      A·史密斯談與詹姆斯恩怨:我干這行32年了 絕不會攻擊別人的家庭

      蘭亭墨未干
      2026-05-03 15:28:06
      韓國史上最大稅單!三星繼承人已付清12萬億韓元遺產稅

      韓國史上最大稅單!三星繼承人已付清12萬億韓元遺產稅

      快科技
      2026-05-03 17:51:09
      特朗普也救不回,首家被油價干倒閉的美企出現了…

      特朗普也救不回,首家被油價干倒閉的美企出現了…

      觀察者網
      2026-05-03 11:52:08
      絕殺奪冠!瓦倫丁怒吼:不是我不行,是以前的車真不行

      絕殺奪冠!瓦倫丁怒吼:不是我不行,是以前的車真不行

      樂悠悠娛樂
      2026-05-03 10:09:58
      3球領先遭絕殺!梅西親歷生涯最慘一役,后防線徹底坑慘球王!

      3球領先遭絕殺!梅西親歷生涯最慘一役,后防線徹底坑慘球王!

      田先生籃球
      2026-05-03 10:11:57
      特朗普:美國或重啟對伊朗空襲 伊朗:已做好準備

      特朗普:美國或重啟對伊朗空襲 伊朗:已做好準備

      看看新聞Knews
      2026-05-03 08:16:03
      TVB那個演了一輩子丑角的馬蹄露,這次把張敬軒的遮羞布扯下來了

      TVB那個演了一輩子丑角的馬蹄露,這次把張敬軒的遮羞布扯下來了

      小娛樂悠悠
      2026-04-17 09:44:54
      10年麻將館老板囗述:凡是愛打麻將的,沒有一個人日子是過得好的

      10年麻將館老板囗述:凡是愛打麻將的,沒有一個人日子是過得好的

      小噎論事
      2026-04-24 17:15:21
      申花中衛位置可能迎來久違強援復出!曾是國足絕對主力,值得期待

      申花中衛位置可能迎來久違強援復出!曾是國足絕對主力,值得期待

      張麗說足球
      2026-05-03 15:06:06
      遇到這些奇葩的“中國好鄰居”,只想賣房走人,給大家曬曬

      遇到這些奇葩的“中國好鄰居”,只想賣房走人,給大家曬曬

      巢客HOME
      2026-04-27 04:05:03
      班主任的真心話:寧愿孩子普通高中混三年,也別輕易選擇技校

      班主任的真心話:寧愿孩子普通高中混三年,也別輕易選擇技校

      戶外阿毽
      2026-05-03 13:08:00
      2026-05-03 18:52:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15121文章數 66832關注度
      往期回顧 全部

      科技要聞

      庫克罕見"拒答"!蘋果正被AI供應鏈卡脖子

      頭條要聞

      機票價大跳水接近"腰斬" 上海出發機票最高降幅達7成

      頭條要聞

      機票價大跳水接近"腰斬" 上海出發機票最高降幅達7成

      體育要聞

      裁判準備下班,結果吳宜澤進了決賽

      娛樂要聞

      蔡卓妍婚后首現身 戴結婚戒指笑容不斷

      財經要聞

      后巴菲特時代,首場股東會透露了啥

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態度原創

      時尚
      教育
      本地
      數碼
      手機

      春天別總傻傻穿一身黑,看看這些日常穿搭,高級舒適又優雅

      教育要聞

      考懵寶媽的一道二年級思考題,思維受限

      本地新聞

      用青花瓷的方式,打開西溪濕地

      數碼要聞

      華為5A最新支持設備清單公布,含Pura X Max、暢享90系列等

      手機要聞

      華為手機星閃(NearLink)最新適配清單公布,功能差異一表看懂

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美在线观看a| 亚洲精品tv久久久久久久久j| 国产乱沈阳女人高潮乱叫老| 国产美女在线精品| 深爱激情久久综合玖玖爱| 中文字幕av无码免费久久| 中文字幕亚洲精品无码| 四库影院永久国产精品| 亚洲国产成人资源在线桃色| 亚洲精品久久久中文字幕痴女| 日本乱子伦xxxx| 99久久婷婷国产综合精品青草五月| AVAV观看精品| 固原市| 国产99视频精品免费视频36| 男人天堂中文字幕| 亚洲熟妇av不卡一区二区三区| 永久免费无码日韩视频| 亚洲一区成人av在线| 久久福利| 亚洲一区二区三区免费av在线| 亚洲精品久久久久中文第一幕 | 中文字幕中文字幕亚洲| 日韩亚洲中文图片小说| 337p日本欧洲亚洲大胆精筑| 亚洲熟女综合色一区二区三区 | 国产精品久久国产精麻豆99网站| 美女福利一区二区三区| 亚洲一区二区三区波多野结衣| 色狠狠色狠狠综合天天| 亚洲?欧美?自拍?偷拍| 国产av日韩av一区二区三区| 国产69精品久久久久9999apgf| 精品人妻av区乱码| jizz国产精品| 国产av天堂| 日韩熟妇无套内射视频| 国产精品hd在线播放| 邻居少妇张开腿让我爽了在线观看 | 日韩在线欧美| 国内精品伊人久久久久av影院|