<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      有人只用API就猜出了GPT、Claude、Gemini的參數量?社區吵翻了

      0
      分享至



      機器之心編輯部

      最近,研究人員李博杰在 arXiv 發布論文,提出一個名為「不可壓縮知識探針」的評測框架,嘗試僅通過黑盒 API 調用,來逆向估算任意 LLM 的參數規模。



      • 論文標題:Incompressible Knowledge Probes: Estimating Black-Box LLM Parameter Counts via Factual Capacity
      • 論文地址:https://arxiv.org/pdf/2604.24827

      該研究的靈感源于一項持續三年的非正式測試。據李博杰介紹,其團隊成員長期向各代主流大模型提出同一個冷門問題:「你了解中科大 Hackergame 嗎?」(一項 CTF 網絡安全競賽)。



      跨越多個版本的觀察結果,直觀展示了模型對世界知識認知的發展:2024 年 5 月,GPT-4o 對該賽事題目存在明顯的「幻覺」與編造;至 2025 年 2 月,Claude 3.7 Sonnet 已能準確列出 2023 年賽季的 19 道題目;而到了 2026 年 4 月,多個前沿模型已能精確回憶起連續多屆賽事的具體細節。

      受此啟發,在 DeepSeek-V4 發布后,研究團隊利用 AI Agent 歷時四天自主構建了完整的 IKP 正式數據集。該數據集包含 1400 個問題,按信息的稀缺程度劃分為 7 個層級,并在涵蓋 27 家廠商的 188 個模型上進行了全面測試。

      研究的核心假設在于:模型的邏輯推理能力可以通過訓練技巧被壓縮或蒸餾,但對冷門「事實性知識」的記憶容量則無法大幅壓縮,其主要取決于模型的物理參數規模。

      基于此,研究者在 89 個參數量已知的開源模型(規模從 1.35 億到 1.6 萬億參數)上擬合出事實準確率與參數量的對數線性關系,擬合優度 R2 = 0.917,并據此對閉源模型進行參數估算。

      根據該方法,論文給出的估算數字(90% 置信區間約為 0.3 至 3 倍)如下:

      • GPT-5.5:約 9 萬億參數
      • Claude Opus 4.7:約 4 萬億參數
      • GPT-5.4:約 2.2 萬億參數
      • Claude Sonnet 4.6:約 1.7 萬億參數
      • Gemini 2.5 Pro:約 1.2 萬億參數

      論文同時指出另外兩項發現:

      一是引用數量和 h 指數并不能有效預測研究者是否被模型記住,模型更傾向于記住那些產生了領域性影響的工作,而非高產但影響相對分散的學者;

      二是跨越三年的 96 個開源模型數據顯示,事實記憶容量的時間系數在統計上接近于零,這與此前「Densing Law」所預測的效率隨時間提升的規律相悖,研究者據此認為推理能力基準趨于飽和,而事實容量仍主要受制于參數規模。

      這組直觀的數據迅速在技術社區傳播并引發廣泛討論,但也伴隨著巨大的爭議。



      有博主基于這組估算數據,結合近期 Claude Opus 4.7 在部分長文本任務中的主觀體驗波動,推演出一套完整的邏輯:Anthropic 因算力儲備不足(僅為 OpenAI 的四分之一),在訓練 Mythos 模型后資源見底,被迫將 Opus 4.7 的參數量從上一代的 5.3T 「反向升級」閹割至 4T;而 OpenAI 則憑借充足的算力將 GPT-5.5 堆到了 9T,從而實現了體驗上的反轉。



      也有多位研究者和從業者對估算數字及方法論提出了不同程度的質疑。

      對于 GPT-5.5 約 9 萬億參數的估算,部分用戶認為與實際服務能力不符,指出若規模真達到這一量級,OpenAI 現有基礎設施難以支撐此前的推出方式,且 GPT-5.4 到 GPT-5.5 的性能提升幅度與 10 倍參數差距并不匹配。有人認為兩者規模比約在 2 倍左右更為合理。



      同時,定向引入「合成數據」進行微調,同樣能顯著提升模型對冷門知識的掌握度,這會直接干擾「事實知識不可壓縮」的核心前提。



      根據該方法估算,Gemini 2.5 Pro 和 Claude Sonnet 的規模約 1.7T,而行業已知國內模型 Kimi k2.6 和 GLM 5.1 約為 800B。若參數差距僅在兩倍左右,單純的數據差異極難解釋目前兩者間的巨大性能鴻溝。



      此外,業內長期流傳的 GPT-4 規模約 1.7T,這與論文估算的結果出入極大。



      發起討論的另一位 X 博主也補充說明:「這些數字不應被視為事實,置信區間非常大,我私下收到的反饋表明某些模型的估算可能相差甚遠?!?/p>



      當然,在爭議與質疑之外,技術社區中也涌現出了許多極具建設性的正向探討。

      例如,有用戶認為 MoE 架構和稠密模型在知識壓縮效率上可能存在本質不同(MoE 的事實可能被分散在不同專家中),建議將這兩類模型分開統計以觀察趨勢。







      對這組數據你怎么看?

      https://x.com/deedydas/status/2049523583517634862

      https://x.com/bojie_li/status/2049314403208896521

      https://www.zhihu.com/pin/2032769685012361774

      https://x.com/yiran2037840/status/2049827667034439821

      https://x.com/Yampeleg/status/2049573913399607711

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      國米叛徒想加入圣西羅:跟孔蒂分道揚鑣在即,阿萊格里想招募他

      國米叛徒想加入圣西羅:跟孔蒂分道揚鑣在即,阿萊格里想招募他

      里芃芃體育
      2026-05-02 00:10:07
      肉麻!許家印被4名老藝術家歌功頌德 回應:每天納稅1億 捐了58億

      肉麻!許家印被4名老藝術家歌功頌德 回應:每天納稅1億 捐了58億

      鄉野小珥
      2026-04-29 08:09:08
      三星為什么敢砍掉3倍長焦?

      三星為什么敢砍掉3倍長焦?

      我是一個養蝦人
      2026-05-01 03:15:30
      兩桿破百+六桿50加,10-2大勝!吳宜澤下一關,是塞爾比還是奇跡

      兩桿破百+六桿50加,10-2大勝!吳宜澤下一關,是塞爾比還是奇跡

      曹老師評球
      2026-04-21 23:22:10
      《黑袍》星光在GTA6“下?!保〗诸^服務“攬客”

      《黑袍》星光在GTA6“下?!?!街頭服務“攬客”

      游民星空
      2026-04-29 19:43:05
      許家印案塵埃落定,幫他瞞天過海14年的審計巨頭栽了

      許家印案塵埃落定,幫他瞞天過海14年的審計巨頭栽了

      流蘇晚晴
      2026-05-01 20:40:19
      王鷗的腳真漂亮

      王鷗的腳真漂亮

      喜歡歷史的阿繁
      2026-05-01 18:21:52
      毛新宇少將擔任副部長!妻子劉濱擔任扇子協會會長

      毛新宇少將擔任副部長!妻子劉濱擔任扇子協會會長

      李昕言溫度空間
      2025-11-09 14:50:17
      勞務派遣已瘋魔到何種地步?網友說:收錢上崗、教師醫生很多都是

      勞務派遣已瘋魔到何種地步?網友說:收錢上崗、教師醫生很多都是

      黯泉
      2026-05-02 00:20:03
      南通又一商場被爆商戶跑路,網友:商場完全不管!

      南通又一商場被爆商戶跑路,網友:商場完全不管!

      好通網
      2026-05-01 18:36:11
      安徽18歲男子蹊蹺失聯 警方通報

      安徽18歲男子蹊蹺失聯 警方通報

      黃河新聞網呂梁
      2026-05-01 18:20:55
      伊朗談判方案已被轉交美國

      伊朗談判方案已被轉交美國

      界面新聞
      2026-05-01 22:24:01
      是否支持彈劾賴清德?8.6萬名臺灣網友參與投票,結果一面倒

      是否支持彈劾賴清德?8.6萬名臺灣網友參與投票,結果一面倒

      海峽導報社
      2026-05-01 21:56:06
      2026江蘇一季度GDP出爐!蘇州斷層領跑,蘇北強勢逆襲

      2026江蘇一季度GDP出爐!蘇州斷層領跑,蘇北強勢逆襲

      奇思妙想生活家
      2026-05-01 14:20:06
      60歲才發現:很多有兒子的家庭,只要兒子和兒媳另外買了房,沒跟父母住在一起,那兒子和父母之間,慢慢就變成了親戚

      60歲才發現:很多有兒子的家庭,只要兒子和兒媳另外買了房,沒跟父母住在一起,那兒子和父母之間,慢慢就變成了親戚

      心理觀察局
      2026-05-01 17:36:26
      大連英博1-0重慶銅梁龍,賽后評分出爐:大連英博8號排第一

      大連英博1-0重慶銅梁龍,賽后評分出爐:大連英博8號排第一

      側身凌空斬
      2026-05-01 20:59:01
      上海戶籍的含金量為什么會跌跌不休?網友:完全對有錢人開放的

      上海戶籍的含金量為什么會跌跌不休?網友:完全對有錢人開放的

      夜深愛雜談
      2026-05-01 21:51:08
      央媒發文,高調宣布梁朝偉新身份,定居日本傳聞5個月前早有真相

      央媒發文,高調宣布梁朝偉新身份,定居日本傳聞5個月前早有真相

      楊仔述
      2026-04-30 22:49:04
      北京第一家ZARA閉店!從巔峰20家到僅剩5家,快時尚巨頭涼了?

      北京第一家ZARA閉店!從巔峰20家到僅剩5家,快時尚巨頭涼了?

      王二哥老搞笑
      2026-05-01 20:18:29
      錢再多有什么用?31歲彭昱暢,給所有年輕人提了個醒

      錢再多有什么用?31歲彭昱暢,給所有年輕人提了個醒

      小熊侃史
      2026-04-05 13:50:02
      2026-05-02 04:52:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12902文章數 142639關注度
      往期回顧 全部

      科技要聞

      DeepSeek發布多模態論文又連夜刪除

      頭條要聞

      伊朗未爆彈藥爆炸 致革命衛隊14人死亡

      頭條要聞

      伊朗未爆彈藥爆炸 致革命衛隊14人死亡

      體育要聞

      無奈!約基奇:這要在塞爾維亞 全隊早被炒了

      娛樂要聞

      馬筱梅產后身材恢復超好 現身戶外直播

      財經要聞

      GPU神話松動,AI真正的戰場變了

      汽車要聞

      限時9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

      態度原創

      家居
      手機
      數碼
      公開課
      軍事航空

      家居要聞

      靈動實用 生活藝術場

      手機要聞

      曝iPhone18Pro相機史詩級升級,這次你期待嗎?

      數碼要聞

      索尼推出HT-A7100回音壁:搭60智能穹頂聲場2.0技術,5282元

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗:持續推進海上封鎖的行為不可容忍

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 成人国产精品中文字幕| 男受被做哭激烈娇喘gv视频| 男人天堂2025| 97人洗澡人人澡人人爽人人模| 成人综合网亚洲伊人| 丁香激情网| 网友偷拍久久精品视频| 日韩五月天| 欧美国产日韩在线三区| 国产午夜福利在线观看视频| 国产精品久久久影院色| 2020精品自拍视频曝光| 少妇极品熟妇人妻高清| 免费观看四虎精品国产地址| 国产欧美日韩精品丝袜高跟鞋| 欧美3p视频| 99久久无色码中文字幕人妻| 精品一卡2卡三卡4卡免费网站| 国产麻豆精品一区二区三区v视界| 国产午夜福利片在线观看| 精品女人久久久| 免费乱码人妻系列无码专区| 精品无套内射后入少妇| 国产精品自产拍在线18禁| 久久人与动人物a级毛片| 愛爱视频在线3| 精品无码中文视频在线观看| 亚洲国产性夜夜综合| 亚洲大色堂人在线视频| 国产美女MM131爽爽爽| 日本亲与子乱xxx| 中文字幕日韩人妻不卡一区| 亚洲一二三区免费视频| 2018亚洲а∨天堂| 暖暖视频日本| 亚洲无码视频在线观看| 高白浆久久| 亚洲精品一区三区三区在线观看 | 疯狂做受xxxx高潮欧美日本| 国产精品久久久久亚洲| 广宁县|