<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      有人只用API就猜出了GPT、Claude、Gemini的參數(shù)量?社區(qū)吵翻了

      0
      分享至



      機(jī)器之心編輯部

      最近,研究人員李博杰在 arXiv 發(fā)布論文,提出一個名為「不可壓縮知識探針」的評測框架,嘗試僅通過黑盒 API 調(diào)用,來逆向估算任意 LLM 的參數(shù)規(guī)模。



      • 論文標(biāo)題:Incompressible Knowledge Probes: Estimating Black-Box LLM Parameter Counts via Factual Capacity
      • 論文地址:https://arxiv.org/pdf/2604.24827

      該研究的靈感源于一項(xiàng)持續(xù)三年的非正式測試。據(jù)李博杰介紹,其團(tuán)隊(duì)成員長期向各代主流大模型提出同一個冷門問題:「你了解中科大 Hackergame 嗎?」(一項(xiàng) CTF 網(wǎng)絡(luò)安全競賽)。



      跨越多個版本的觀察結(jié)果,直觀展示了模型對世界知識認(rèn)知的發(fā)展:2024 年 5 月,GPT-4o 對該賽事題目存在明顯的「幻覺」與編造;至 2025 年 2 月,Claude 3.7 Sonnet 已能準(zhǔn)確列出 2023 年賽季的 19 道題目;而到了 2026 年 4 月,多個前沿模型已能精確回憶起連續(xù)多屆賽事的具體細(xì)節(jié)。

      受此啟發(fā),在 DeepSeek-V4 發(fā)布后,研究團(tuán)隊(duì)利用 AI Agent 歷時四天自主構(gòu)建了完整的 IKP 正式數(shù)據(jù)集。該數(shù)據(jù)集包含 1400 個問題,按信息的稀缺程度劃分為 7 個層級,并在涵蓋 27 家廠商的 188 個模型上進(jìn)行了全面測試。

      研究的核心假設(shè)在于:模型的邏輯推理能力可以通過訓(xùn)練技巧被壓縮或蒸餾,但對冷門「事實(shí)性知識」的記憶容量則無法大幅壓縮,其主要取決于模型的物理參數(shù)規(guī)模。

      基于此,研究者在 89 個參數(shù)量已知的開源模型(規(guī)模從 1.35 億到 1.6 萬億參數(shù))上擬合出事實(shí)準(zhǔn)確率與參數(shù)量的對數(shù)線性關(guān)系,擬合優(yōu)度 R2 = 0.917,并據(jù)此對閉源模型進(jìn)行參數(shù)估算。

      根據(jù)該方法,論文給出的估算數(shù)字(90% 置信區(qū)間約為 0.3 至 3 倍)如下:

      • GPT-5.5:約 9 萬億參數(shù)
      • Claude Opus 4.7:約 4 萬億參數(shù)
      • GPT-5.4:約 2.2 萬億參數(shù)
      • Claude Sonnet 4.6:約 1.7 萬億參數(shù)
      • Gemini 2.5 Pro:約 1.2 萬億參數(shù)

      論文同時指出另外兩項(xiàng)發(fā)現(xiàn):

      一是引用數(shù)量和 h 指數(shù)并不能有效預(yù)測研究者是否被模型記住,模型更傾向于記住那些產(chǎn)生了領(lǐng)域性影響的工作,而非高產(chǎn)但影響相對分散的學(xué)者;

      二是跨越三年的 96 個開源模型數(shù)據(jù)顯示,事實(shí)記憶容量的時間系數(shù)在統(tǒng)計(jì)上接近于零,這與此前「Densing Law」所預(yù)測的效率隨時間提升的規(guī)律相悖,研究者據(jù)此認(rèn)為推理能力基準(zhǔn)趨于飽和,而事實(shí)容量仍主要受制于參數(shù)規(guī)模。

      這組直觀的數(shù)據(jù)迅速在技術(shù)社區(qū)傳播并引發(fā)廣泛討論,但也伴隨著巨大的爭議。



      有博主基于這組估算數(shù)據(jù),結(jié)合近期 Claude Opus 4.7 在部分長文本任務(wù)中的主觀體驗(yàn)波動,推演出一套完整的邏輯:Anthropic 因算力儲備不足(僅為 OpenAI 的四分之一),在訓(xùn)練 Mythos 模型后資源見底,被迫將 Opus 4.7 的參數(shù)量從上一代的 5.3T 「反向升級」閹割至 4T;而 OpenAI 則憑借充足的算力將 GPT-5.5 堆到了 9T,從而實(shí)現(xiàn)了體驗(yàn)上的反轉(zhuǎn)。



      也有多位研究者和從業(yè)者對估算數(shù)字及方法論提出了不同程度的質(zhì)疑。

      對于 GPT-5.5 約 9 萬億參數(shù)的估算,部分用戶認(rèn)為與實(shí)際服務(wù)能力不符,指出若規(guī)模真達(dá)到這一量級,OpenAI 現(xiàn)有基礎(chǔ)設(shè)施難以支撐此前的推出方式,且 GPT-5.4 到 GPT-5.5 的性能提升幅度與 10 倍參數(shù)差距并不匹配。有人認(rèn)為兩者規(guī)模比約在 2 倍左右更為合理。



      同時,定向引入「合成數(shù)據(jù)」進(jìn)行微調(diào),同樣能顯著提升模型對冷門知識的掌握度,這會直接干擾「事實(shí)知識不可壓縮」的核心前提。



      根據(jù)該方法估算,Gemini 2.5 Pro 和 Claude Sonnet 的規(guī)模約 1.7T,而行業(yè)已知國內(nèi)模型 Kimi k2.6 和 GLM 5.1 約為 800B。若參數(shù)差距僅在兩倍左右,單純的數(shù)據(jù)差異極難解釋目前兩者間的巨大性能鴻溝。



      此外,業(yè)內(nèi)長期流傳的 GPT-4 規(guī)模約 1.7T,這與論文估算的結(jié)果出入極大。



      發(fā)起討論的另一位 X 博主也補(bǔ)充說明:「這些數(shù)字不應(yīng)被視為事實(shí),置信區(qū)間非常大,我私下收到的反饋表明某些模型的估算可能相差甚遠(yuǎn)。」



      當(dāng)然,在爭議與質(zhì)疑之外,技術(shù)社區(qū)中也涌現(xiàn)出了許多極具建設(shè)性的正向探討。

      例如,有用戶認(rèn)為 MoE 架構(gòu)和稠密模型在知識壓縮效率上可能存在本質(zhì)不同(MoE 的事實(shí)可能被分散在不同專家中),建議將這兩類模型分開統(tǒng)計(jì)以觀察趨勢。







      對這組數(shù)據(jù)你怎么看?

      https://x.com/deedydas/status/2049523583517634862

      https://x.com/bojie_li/status/2049314403208896521

      https://www.zhihu.com/pin/2032769685012361774

      https://x.com/yiran2037840/status/2049827667034439821

      https://x.com/Yampeleg/status/2049573913399607711

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      34年后,《縱橫四海》憑什么還能收割票房?

      34年后,《縱橫四海》憑什么還能收割票房?

      閃存獵手
      2026-04-16 11:05:49
      “骨盆前傾成這樣,還不去醫(yī)院?”家長曬一年級女兒體態(tài),被群嘲

      “骨盆前傾成這樣,還不去醫(yī)院?”家長曬一年級女兒體態(tài),被群嘲

      妍妍教育日記
      2026-04-24 11:15:25
      還能活多久,看體重就知?醫(yī)生強(qiáng)調(diào):上了年紀(jì)的人,體重這些剛好

      還能活多久,看體重就知?醫(yī)生強(qiáng)調(diào):上了年紀(jì)的人,體重這些剛好

      醫(yī)學(xué)科普匯
      2026-04-18 17:05:51
      菲爾茲獎獲得者埃菲?杰曼諾夫:中國的科創(chuàng)沃土讓基礎(chǔ)研究的根扎得深扎得穩(wěn)

      菲爾茲獎獲得者埃菲?杰曼諾夫:中國的科創(chuàng)沃土讓基礎(chǔ)研究的根扎得深扎得穩(wěn)

      國際在線
      2026-05-01 16:48:04
      川航小姐姐,紅裙黑絲,太美了

      川航小姐姐,紅裙黑絲,太美了

      微微熱評
      2026-05-01 17:34:57
      硬剛到底!黃一鳴放話起訴王思聰做親子鑒定:我要錢更要女兒名分

      硬剛到底!黃一鳴放話起訴王思聰做親子鑒定:我要錢更要女兒名分

      觀魚聽雨
      2026-04-29 23:20:16
      中國隊(duì)3-0戰(zhàn)勝馬來西亞隊(duì) 晉級湯姆斯杯四強(qiáng)

      中國隊(duì)3-0戰(zhàn)勝馬來西亞隊(duì) 晉級湯姆斯杯四強(qiáng)

      環(huán)球網(wǎng)資訊
      2026-05-01 20:47:15
      我退休金1萬,找個農(nóng)村50歲老伴,她:你每月給我2千,其他不用管

      我退休金1萬,找個農(nóng)村50歲老伴,她:你每月給我2千,其他不用管

      白云故事
      2025-05-07 07:30:09
      登山告別粗木棍,共享登山杖來了!五一期間1元租12小時游泰山

      登山告別粗木棍,共享登山杖來了!五一期間1元租12小時游泰山

      齊魯壹點(diǎn)
      2026-04-30 23:26:12
      黃一鳴豪門夢徹底碎成一地雞毛!

      黃一鳴豪門夢徹底碎成一地雞毛!

      鄉(xiāng)野小珥
      2026-05-01 19:26:20
      張玉寧現(xiàn)狀:兩鬢已斑白,離婚要兒子不要房,至今單身征戰(zhàn)蘇超

      張玉寧現(xiàn)狀:兩鬢已斑白,離婚要兒子不要房,至今單身征戰(zhàn)蘇超

      楠楠自語
      2026-04-13 18:35:30
      男子用2條毒蛇泡酒,12年后打開本想品嘗美酒,誰知出現(xiàn)驚人現(xiàn)象

      男子用2條毒蛇泡酒,12年后打開本想品嘗美酒,誰知出現(xiàn)驚人現(xiàn)象

      詭譎怪談
      2025-04-01 17:37:59
      陜西11歲男孩失聯(lián)10天后確認(rèn)遇難,排除刑事案件,家屬回應(yīng):孩子父親情緒崩潰不愿意和人說話,落水原因還在調(diào)查中

      陜西11歲男孩失聯(lián)10天后確認(rèn)遇難,排除刑事案件,家屬回應(yīng):孩子父親情緒崩潰不愿意和人說話,落水原因還在調(diào)查中

      極目新聞
      2026-05-01 19:12:44
      家底再厚也沒用,嫁給富豪13年、獨(dú)守娘家的潘陽,點(diǎn)醒了年輕人

      家底再厚也沒用,嫁給富豪13年、獨(dú)守娘家的潘陽,點(diǎn)醒了年輕人

      喜歡歷史的阿繁
      2026-05-01 20:31:40
      破案了!杜鋒用年輕球員時間為何減少?張明池道出了原因

      破案了!杜鋒用年輕球員時間為何減少?張明池道出了原因

      體育哲人
      2026-04-30 23:37:12
      離譜!許家印只喝2700一瓶水 馬桶必須噴香水 隨身配備女按摩師

      離譜!許家印只喝2700一瓶水 馬桶必須噴香水 隨身配備女按摩師

      念洲
      2026-04-28 11:37:39
      又一匹黑馬殺出!第一人出局,史上最偉大爆冷

      又一匹黑馬殺出!第一人出局,史上最偉大爆冷

      體育新角度
      2026-05-01 17:34:43
      證據(jù)有了:山海經(jīng)顯示,三星堆文明,極有可能是夏朝遺民

      證據(jù)有了:山海經(jīng)顯示,三星堆文明,極有可能是夏朝遺民

      觀史搜尋著
      2026-03-21 23:23:56
      22隊(duì)哄搶杜蘭特!爵士梭哈4號簽+3大核心,火箭賺翻?

      22隊(duì)哄搶杜蘭特!爵士梭哈4號簽+3大核心,火箭賺翻?

      夕落秋山
      2026-05-01 14:38:09
      杜鋒變陣雙大外!胡明軒殺紅眼造21分大勝!廣東一夜蛻變1-1廣州

      杜鋒變陣雙大外!胡明軒殺紅眼造21分大勝!廣東一夜蛻變1-1廣州

      后仰大風(fēng)車
      2026-05-01 21:37:31
      2026-05-01 21:47:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12902文章數(shù) 142639關(guān)注度
      往期回顧 全部

      科技要聞

      DeepSeek發(fā)布多模態(tài)論文又連夜刪除

      頭條要聞

      74歲老人郵輪旅行登船次日突發(fā)急癥離世 家屬索賠90萬

      頭條要聞

      74歲老人郵輪旅行登船次日突發(fā)急癥離世 家屬索賠90萬

      體育要聞

      無奈!約基奇:這要在塞爾維亞 全隊(duì)早被炒了

      娛樂要聞

      馬筱梅產(chǎn)后身材恢復(fù)超好 現(xiàn)身戶外直播

      財(cái)經(jīng)要聞

      GPU神話松動,AI真正的戰(zhàn)場變了

      汽車要聞

      限時9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

      態(tài)度原創(chuàng)

      旅游
      數(shù)碼
      時尚
      親子
      本地

      旅游要聞

      “五一”首日,延慶八達(dá)嶺長城、通州牡丹園等迎客流高峰

      數(shù)碼要聞

      戴森“迷你酷”手持無葉風(fēng)扇HushJet Mini Cool上架,799元

      她們看起來氣血好足,每套搭配我都想抄

      親子要聞

      這個爸爸老是老了點(diǎn) 但是真可愛

      本地新聞

      用青花瓷的方式,打開西溪濕地

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: a男人的天堂久久a毛片| 久久久噜久噜久久gif动图| 国产尤物av一区二区三区| 性饥渴熟妇乱子伦HD| 中文亚洲成A人片在线观看| 日韩福利片午夜免费观着| 人妻中文在线| 欧美成人A片在线观看| 91网站国产| 色欲天天天综合网免费| 国产99re热这里只有精品| 日韩av一区二区高清不卡| 亚洲男人第一无码av网| 国产午精品午夜福利757视频播放 91精品国产丝袜在线国语 | 日韩精品久| 日韩人妻中文字幕精品| 九九热视频在线播放| 手机看片福利一区二区三区| 日本乱码一区二区三区| 18岁日韩内射颜射午夜久久成人 | 一本之道加勒比人妻| 成人国产综合| 久久99精品久久久久久9| 人妻少妇嫩草AV无码| 麻豆视频在线| 91亚洲国产三上悠亚在线播放 | 韩国无码一区二区三区精品| 国产第99页| 92自拍偷拍精品视频| 亚洲欧美人成电影在线观看| 国产AV大全| 欧美日韩综合在线精品| 狠狠躁夜夜躁AV网站中文字幕| 欧洲国产精品无码专区影院| 亚洲视频欧美视频| 乱码精品一区二区三区| 久久亚洲熟女中文字幕| 国产强奷在线播放| 亚洲欧洲日产国码高潮αv| 大胸少妇午夜三级| 久久精品亚洲精品毛片 |