<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Google 新算法,Mac Mini 也能跑 Qwen3.5

      0
      分享至

      RESEARCH

      3 月 24 日,Google Research 發布了一套量化壓縮算法,叫 TurboQuant。核心能力一句話講完:把 LLM 推理時最吃內存的 KV cache 壓到極低的 bit 寬度,3.5 bit 精度零損失,2.5 bit 僅有極微小的質量下降,內存縮小至少 6 倍,attention 計算在 H100 上最高快 8 倍

      整個過程免訓練、免微調、免校準,純軟件方案,拿來就能用

      32 bit per channel 幾十 GB 內存 → TurboQuant → 3.5 bit per channel 零精度損失 內存 ÷6 速度 ×8 3.5 bit 零損失

      有多直接呢,發布不到 24 小時,已經有人在一臺幾千塊的 Mac Mini 上用它跑通了 Qwen3.5-35B-A3B 的 64K token 長對話,回答質量跟不壓縮的時候完全一樣

      論文下個月在 ICLR 2026 主會上發表。作者來自 Google Research、Google DeepMind 和紐約大學

      6 倍壓縮,什么概念

      先把這個數字翻譯成大家能摸到的東西

      一個 8B 參數的模型跑長對話推理的時候,KV cache 可以吃掉幾十 GB 內存。一張 80GB 的 H100 顯卡,光 KV cache 就能占掉一大半。壓縮 6 倍 之后,這部分從幾十 GB 降到幾個 GB

      直接的效果:同一張顯卡能跑更長的對話,或者同時服務更多用戶

      再換一個更直覺的場景。一臺 Mac Mini M4 Pro,24GB 統一內存。之前跑 Qwen3.5-35B 做長對話,KV cache 膨脹到一定程度就撐不住了。TurboQuant 把 KV cache 壓下來之后,這個上限往后推了很多

      Mac Mini 上跑 Qwen3.5-35B 的 6 萬字長對話,needle-in-a-haystack 測試全部命中

      發布不到 24 小時,Twitter @Prince_Canuma 已經把 TurboQuant 移植到了 Apple Silicon 的 MLX 框架上,用 Qwen3.5-35B 做了驗證。從 8.5K 到 64K token 上下文,2.5 bit 量化,KV cache 縮小近 5 倍,needle-in-a-haystack 測試 6/6 精確命中

      第三方模型,第三方硬件,跟 Google 自己的 benchmark 結果吻合


      https://x.com/Prince_Canuma/status/2036611007523512397

      KV cache 為什么是瓶頸

      你跟 AI 聊天的時候,對話越長,AI 需要記住的「前文」就越多,內存占用就越大。這部分專門用來存「前文」的內存,叫 KV cache

      技術上:LLM 生成文本的時候,每讀到一個 token,都會算出一組 key 和 value 向量存起來。后面生成新 token 時,模型要回頭查這些 key-value 對,來決定該關注之前哪些內容

      對話越長,存的越多,內存線性增長。上下文到了 32K、64K、128K token 的時候,KV cache 的內存開銷經常比模型權重還大

      壓縮 KV cache 是自然的方向。把 32 bit 浮點數量化成更少的 bit,內存就省下來了。但傳統的量化方法有一個很煩的問題

      傳統方法在壓縮的同時,需要額外存儲一堆歸一化常數。這些常數要用高精度來存(比如 16 bit),每個數據塊都配一組。算下來,額外開銷大概 1-2 bit

      壓縮省了 3 bit,歸一化常數吃回去 1-2 bit,凈收益就打折了

      TurboQuant 要解決的就是這個問題

      TurboQuant 怎么做的

      兩步壓縮。第一步把數據壓小,第二步把壓縮帶來的誤差修掉。最終效果:32 bit 的數據變成 3 bit 多一點,模型該記住的東西一個都沒丟

      TurboQuant 兩步壓縮 32 bit 原始向量 Step 1 · PolarQuant 隨機旋轉 → 極坐標變換 歸一化開銷 → 0 消耗 b-1 bit · 捕獲主體信息 微小殘差 ↓ Step 2 · QJL JL 變換 → 符號位 (+1/-1) 消耗 1 bit · 消除內積偏差 b bit · 零偏差 · 零額外開銷

      第一步:PolarQuant

      傳統壓縮方法在壓數據的同時,要額外存一堆「輔助參數」保證精度。這些參數本身也占內存,相當于壓縮打了折。PolarQuant 通過一個數學技巧,讓這些輔助參數變得不再需要

      具體做法:先對輸入向量施加一個隨機旋轉矩陣。旋轉之后,每個維度上的數值分布變得非常集中、非常規律,跟原始數據長什么樣無關。分布規律了,就可以用一套事先算好的固定量化表來處理所有數據

      數學上:把向量從笛卡爾坐標系轉成極坐標系。笛卡爾坐標是「沿 X 軸走多少、Y 軸走多少」,極坐標是「總距離多少、角度多少」。角度的分布在高維空間中是已知的、高度集中的 Beta 分布

      歸一化開銷,消掉了

      隨機旋轉還帶來一個額外好處:高維空間中,旋轉后的各個坐標之間近似獨立同分布(i.i.d.)。獨立了,就可以把多維的量化問題拆成一堆一維的標量量化問題(Max-Lloyd 問題),每個維度單獨求最優解。算一次,存好 codebook,之后在線推理直接查表

      PolarQuant 單獨作為一篇論文,將在 AISTATS 2026 上發表

      第二步:QJL

      第一步壓完之后,數據體積大幅縮小了,但會帶一點微小的誤差。這個誤差如果不管,模型在判斷「這段對話里哪些內容更重要」的時候會出現系統性偏差。聊幾千字可能看不出來,聊幾萬字就會累積

      給一個數學直覺:一個 1-bit 的 MSE 最優量化器在高維空間中,會引入一個 2/π 的乘性偏差。這個偏差聽起來不大,但在 attention 計算中會被放大

      QJL 的做法是:對第一步的殘差向量施加 Johnson-Lindenstrauss 變換,把每個數值壓成 1 bit 的符號位(+1 或 -1)。然后用一個特殊的估計器,在數學上保證內積估計無偏

      E[?y, Q?1(Q(x))?] = ?y, x?

      壓縮后的內積期望值,嚴格等于真實內積。偏差消除了,額外開銷只有 1 bit

      QJL 這篇論文已經在 AAAI 2025 上發表

      合起來

      兩步加在一起:b-1 bit 給 PolarQuant 做主體壓縮,1 bit 給 QJL 做殘差糾錯??偽粚?b bit

      論文證明,TurboQuant 的 MSE 失真率距離信息論的理論下界只差大約 2.7 倍 的常數因子。在低 bit 寬度下這個差距更小

      3.5 bit,零損失,免重訓

      傳統方法用 3 bit 壓縮,1-2 bit 被歸一化開銷吃掉,實際有效壓縮可能只有 1-2 bit。TurboQuant 的每一個 bit 都是有效壓縮

      Benchmark 數據

      說了這么多原理,回到大家最關心的問題:壓完之后模型到底還好不好用

      Google 在五個長上下文 benchmark 上做了測試:LongBench、Needle In A Haystack、ZeroSCROLLS、RULER、L-Eval。測試模型用的是開源的 Gemma、Mistral 和 Llama-3.1-8B-Instruct

      KV cache 壓縮

      論文里的精確表述:3.5 bit 達到「absolute quality neutrality」(絕對質量中性),2.5 bit 只有「marginal quality degradation」

      →內存縮小至少 6 倍

      →LongBench 的 QA、代碼生成、摘要任務上,匹配或超過 KIVI baseline

      →Needle-in-a-Haystack(在海量文本里精確找到一條特定信息):滿分

      →PolarQuant 單獨用,這個任務也近乎無損


      論文中 LongBench 各任務得分對比

      速度

      壓縮不只省內存,還能加速。要讀取和計算的數據量變少了,速度自然就快了

      在 NVIDIA H100 上,4 bit 模式的 attention logits 計算,比 32 bit 未量化版本最高快 8 倍。測量基線是高度優化過的 JAX 實現


      論文中 H100 不同 bit 寬度速度對比

      向量搜索

      TurboQuant 不只能壓 KV cache,在向量搜索場景也好用。向量搜索就是搜索引擎和 RAG 背后的技術:你輸入一個問題,系統要在幾十億條數據里找到最相關的那幾條

      Google 在 GloVe 數據集(200 維)上跟 Product Quantization 和 RabitQ 做了對比。TurboQuant 的 recall 全面領先,對方用了大 codebook 和數據集特定調優,TurboQuant 什么都沒調

      索引構建時間幾乎為零(1536 維向量只需 0.0013 秒)


      論文中 GloVe 數據集 recall 對比

      四個工程屬性

      對部署 LLM 的團隊來說,下面四個屬性可能比壓縮率本身更重要。它們決定了這個東西能不能真的用起來

      Training-free 量化表預先算好,拿到模型直接用
      Data-oblivious 數據進來直接壓,省掉了校準步驟
      加速器友好 用 GPU 擅長的批量向量化運算
      純軟件 H100、A100 直接跑,零硬件改造

      四個屬性合起來:拿到一個新模型,零準備,直接壓,直接部署

      外部反應

      這個算法發出來之后,技術圈和資本市場同時給了很大的反應

      Google Research 的官方推文獲得了超過 770 萬 次瀏覽

      Twitter @eastdakota 的評價是「Google 的 DeepSeek 時刻」

      Matthew Prince,Cloudflare CEO

      社區 24 小時內開始移植到 MLX 和 llama.cpp。前面提到的 Qwen3.5-35B 實測就是這么來的

      美股內存板塊當天下跌:SanDisk -5.7%,Micron -3%,Western Digital -4.7%,同期納斯達克 100 是漲的。市場在擔心軟件壓縮效率的提升會減少對 HBM 芯片的需求。評論區也有人搬出 Jevons Paradox 來反駁:效率越高,總消耗可能反而增加,歷史上這種事發生過很多次

      論文和資源

      TurboQuant 主論文(ICLR 2026)

      arxiv.org/abs/2504.19874

      PolarQuant(AISTATS 2026)

      arxiv.org/abs/2502.02617

      QJL(AAAI 2025)

      arxiv.org/abs/2406.03482

      Google Research 官方博客

      research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      特朗普訪華,不按常規出牌,帶上了國防部長,我外交部一句話亮了

      特朗普訪華,不按常規出牌,帶上了國防部長,我外交部一句話亮了

      老搽學科普
      2026-05-14 10:40:35
      食堂阿姨偷偷給貧困生多打菜,被同學舉報后開除,次日接到局里電話

      食堂阿姨偷偷給貧困生多打菜,被同學舉報后開除,次日接到局里電話

      罪案洞察者
      2025-11-03 13:59:03
      那個紅色巨人倒下30年后,我終于看懂了它為什么活不下去

      那個紅色巨人倒下30年后,我終于看懂了它為什么活不下去

      浪子說
      2026-05-14 09:49:24
      大瓜!許家印昔日恒大奢靡細節流出,丁玉梅海外包養30歲白人小伙

      大瓜!許家印昔日恒大奢靡細節流出,丁玉梅海外包養30歲白人小伙

      壹月情感
      2026-05-09 00:00:07
      廣東一男子偽造學歷同時入職5家企業領高薪,還虛構購銷合同混業績,被判刑

      廣東一男子偽造學歷同時入職5家企業領高薪,還虛構購銷合同混業績,被判刑

      極目新聞
      2026-05-14 09:58:58
      太突然!一天內,兩位NBA球星去世!

      太突然!一天內,兩位NBA球星去世!

      新民晚報
      2026-05-13 18:43:48
      兩年輸光2000億資產的王健林,可能是中國地產的最后贏家

      兩年輸光2000億資產的王健林,可能是中國地產的最后贏家

      流蘇晚晴
      2026-05-12 19:20:28
      蒙、金汴京攻防戰有多慘烈?血戰16晝夜,雙方戰死者多達百余萬

      蒙、金汴京攻防戰有多慘烈?血戰16晝夜,雙方戰死者多達百余萬

      鶴羽說個事
      2026-05-13 23:01:40
      11年前優衣庫男女主現狀曝光,他們還在一起生了兩個孩子

      11年前優衣庫男女主現狀曝光,他們還在一起生了兩個孩子

      半糖甜而不膩
      2026-04-06 12:09:15
      成都退禮服女孩風波升級!百萬粉大V怒批:是合唱團欠工資還是窮

      成都退禮服女孩風波升級!百萬粉大V怒批:是合唱團欠工資還是窮

      觀察鑒娛
      2026-05-14 10:53:42
      曝黑海艦隊成鐵籠!俄烏戰爭以來首次安裝無人機“防護網”

      曝黑海艦隊成鐵籠!俄烏戰爭以來首次安裝無人機“防護網”

      項鵬飛
      2026-05-12 18:14:38
      中午 11 時,中美磋商準時開場,特朗普沒想到:中國居然真這么強

      中午 11 時,中美磋商準時開場,特朗普沒想到:中國居然真這么強

      桑啟紅原
      2026-05-14 10:25:20
      自己宣布下家!馬刺潛力后衛作出決定,中國男籃困難來了

      自己宣布下家!馬刺潛力后衛作出決定,中國男籃困難來了

      德譯洋洋
      2026-05-14 10:05:39
      “你兒子比農村土狗還好養!”中學男孩全碳水飲食,吃出可憐面相

      “你兒子比農村土狗還好養!”中學男孩全碳水飲食,吃出可憐面相

      妍妍教育日記
      2026-05-12 17:35:01
      奧運冠軍黃雅瓊現狀:在浙江老家生活,老公也是冠軍,成大學院長

      奧運冠軍黃雅瓊現狀:在浙江老家生活,老公也是冠軍,成大學院長

      翰飛觀事
      2026-05-14 09:58:28
      12歲男孩確診癌癥晚期!研究證實:這5種添加劑正在升高癌癥風險……

      12歲男孩確診癌癥晚期!研究證實:這5種添加劑正在升高癌癥風險……

      環球網資訊
      2026-05-11 14:21:45
      騎士勝活塞!不是米切爾 不是莫布里 獲勝功臣是哈登 是正名之戰

      騎士勝活塞!不是米切爾 不是莫布里 獲勝功臣是哈登 是正名之戰

      錢說體育
      2026-05-14 11:17:52
      沉默1日,大陸公布統一后安排,島內學者:臺軍理當消滅“臺獨”

      沉默1日,大陸公布統一后安排,島內學者:臺軍理當消滅“臺獨”

      別吵吵
      2026-05-14 08:19:14
      起底 Token 中轉黑色產業鏈:日賺 200 萬美金!大佬扎堆入局,灰色套利套路碾壓現金貸

      起底 Token 中轉黑色產業鏈:日賺 200 萬美金!大佬扎堆入局,灰色套利套路碾壓現金貸

      新浪財經
      2026-05-12 00:15:49
      章子怡“潑墨門”主謀,葉劍英兒媳,離婚后轉戰商圈竟成資本大鱷

      章子怡“潑墨門”主謀,葉劍英兒媳,離婚后轉戰商圈竟成資本大鱷

      財叔
      2026-05-11 08:40:12
      2026-05-14 12:20:49
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      437文章數 53關注度
      往期回顧 全部

      科技要聞

      馬斯克:只有我和黃仁勛坐上了"空軍一號"

      頭條要聞

      媒體:特朗普開始訪華 中方有一句話是說給全世界聽的

      頭條要聞

      媒體:特朗普開始訪華 中方有一句話是說給全世界聽的

      體育要聞

      哈登30+8+6創8紀錄 第8次贏天王山

      娛樂要聞

      肖戰提名金海燕獎,這一步走得太穩

      財經要聞

      片仔癀依舊困在“片仔癀”

      汽車要聞

      C級純電轎跑 吉利銀河"TT"申報圖來了

      態度原創

      藝術
      本地
      數碼
      家居
      公開課

      藝術要聞

      充滿光感的花卉油畫 | 亞歷山大·沙巴德伊

      本地新聞

      用蘇繡的方式,打開江西婺源

      數碼要聞

      索尼被內存漲價逼到墻角!PS6要從32GB猛砍至24GB:位寬也砍半

      家居要聞

      精神奢享 對話塔尖需求

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲自拍偷拍福利小视频| 538任你躁在线精品免费| 国产成人一区二区三区在线| 中文字幕av一区| 天天躁日日躁狠狠躁av中文| 亚洲一区波多野结衣二区三区 | 7777久久亚洲中文字幕| 狠狠热精品免费视频| 热久久99精品这里有精品| 加勒比黑人在线| 亚洲欧美手机在线| 寸?女人一区二区| 婷婷色婷婷开心五月四房播播| 中文字幕乱码人妻综合二区三区 | 九九精品免费看| 久久精品国产水野优香| 一本一道波多野结衣av黑人在线| 大香伊蕉在人线国产免费| 亚洲欧洲美洲无码精品va| 国产精品午夜福利在线观看地址| 亚洲欧洲国产精品香蕉网| 野花社区www视频最新资源| 亚洲熟妇自偷自拍另欧美| 国产精品一区久久av| 日韩久久久久久中文人妻| 国产精品久久久久久久久久久久人四虎 | 午夜裸体性播放| 欧美成人综合| 日韩制服丝袜无码A片| 高邑县| 久久99精品久久水蜜桃| 国内视频自拍| 亚洲男人天堂| 91青草久久久久久清纯| 精品亚洲一区二区三区在线播放| 一本色道av久久精品| 无码精品国产va在线观看dvd| 中文无码乱人伦中文视频在线v| 无遮挡粉嫩小泬久久久久久久| 一二三四观看视频社区在线| 撸撸AV|