<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Google 最新極限壓縮算法,砸碎大模型本地部署的內存墻,8 倍提升!

      0
      分享至

      剛剛

      Google 放了一個可能改變整個 LLM 推理格局的炸彈——TurboQuant

      TurboQuant 把 KV Cache 從"最貴、最慢、最難優化的部件"變成了"幾乎免費"的資源。

      搞過大模型部署的人都知道,KV Cache 是推理階段最大的內存殺手。

      上下文越長,KV Cache 越膨脹,顯存就越不夠用。

      之前的量化方案要么損失精度,要么引入額外的內存開銷(存儲量化常數),搞半天省不了多少。

      TurboQuant 的恐怖之處在于:3 bit 量化 KV Cache,質量零損失,速度還更快。


      TurboQuant 工作原理動畫演示 TurboQuant 到底干了什么?

      用人話講,它做了兩件事:

      第一步:PolarQuant —— 換個坐標系看世界

      傳統量化就像用網格紙去描點——每個點都需要 X、Y、Z 坐標,每個坐標都得單獨算一個縮放系數,這些縮放系數本身就要占內存(就是所謂的"量化開銷")。

      PolarQuant 換了個思路:先把向量隨機旋轉一下,讓數據分布變得非常集中、可預測,然后改用極坐標來描述。就像把"往東走 3 個路口,往北走 4 個路口"變成"朝 37 度方向走 5 步"。因為角度分布已知且高度集中,不再需要給每小塊數據算縮放系數了——量化開銷直接消失

      第二步:QJL —— 1 bit 清理殘差

      第一步壓完還有微小的誤差怎么辦?TurboQuant 只用1 個 bit做一個 Johnson-Lindenstrauss 變換,把殘差誤差中的偏差干掉,保證內積計算(也就是注意力分數)不會跑偏。

      這兩步加在一起,就是 TurboQuant 的核心:PolarQuant 吃大頭 + QJL 擦屁股,零額外開銷,接近信息論下界。

      論文里證明了,TurboQuant 和理論最優只差一個約 2.7 倍的常數因子

      實測數據有多炸?

      Google 在 Gemma 和 Mistral 模型上,用 LongBench、Needle-in-a-Haystack、ZeroSCROLLS、RULER、L-Eval 等一堆長上下文基準做了全面測試。

      下面是各方法在不同任務上的聚合性能得分對比(包括問答、代碼生成、摘要等任務):


      TurboQuant 在長上下文基準測試中的性能對比

      Needle-in-a-Haystack 測試結果(在海量文本中找一根針):


      Needle-in-a-Haystack 測試結果

      TurboQuant 在所有基準上都實現了完美分數,同時將 KV 內存縮小了至少 6 倍。

      再看速度——H100 上 4-bit TurboQuant 計算注意力的速度比原始 32-bit Key 快了8 倍


      TurboQuant 在 H100 上的加速效果


      • 同樣的 GPU,能跑 6 倍以上的并發用戶

      • 上下文長度直接拉到 6 倍(長上下文基準全部零損失)

      • H100 上端到端吞吐量暴漲

      • 無需重訓、無需微調,直接套在現有 Llama、Gemma、Qwen 等模型上就能用

      社區已經炸鍋了

      社區已經開始瘋狂復現:

      mlx-vlm 上的 TurboQuant Metal kernel 實現:

      mlx-audio & mlx-vlm 創建者 Prince_Canuma 使用 Qwen3.5-35B-A3B 在 8.5K、32.7K 和 64.2K 的上下文長度中進行“大海撈針”測試:

      → 每個量化級別都達到 6/6 完全匹配 → TurboQuant 2.5 位:KV 緩存縮小 4.9 倍 → TurboQuant 3.5 位:KV 緩存縮小 3.8 倍

      最棒的是:與完整 KV 緩存相比,準確率沒有損失。


      他在 mlx-vlm PR #858 里提交了 TurboQuant 的 Metal kernel 實現,包括:

      • _mse_score_kernel_pack_lowbit_kernel_unpack_lowbit_kernel—— 基礎量化/反量化

      • _qjl_score_kernel_prod_score_kernel—— QJL 殘差糾偏和內積計算

      • _polar_prod_score_kernel_polar_turbo_score_repeat_kernel—— 4-bit PolarQuant 路徑

      • 多頭處理優化 kernel:_prod_score_multi_kernel_mse_weighted_rot_multi_kernel

      MLX 上的 TurboQuant kernel 已經把解碼速度追到了全精度的 **85-70%**(8K prompt 下 54 tok/s vs 62.5 tok/s),還在繼續優化。

      這意味著Mac 用戶很快就能在本地吃到這個紅利


      llama.cpp 集成:TurboQuant+ 已經跑通 Apple Silicon

      開發者 TheTom 做了一個叫 turboquant_plus 的項目,直接把 TurboQuant 移植到了 llama.cpp,用 Metal kernel 在 Apple Silicon 上跑通了端到端推理。

      M5 Max 128GB 上的實測:

      Cache 類型

      壓縮率

      Prefill 速度

      PPL (wikitext-2)

      f16

      1.0x

      q8_0

      2.0x

      2694 tok/s

      q4_0

      4.0x

      turbo34.6x2747 tok/s

      4.6 倍壓縮,速度還比 q8_0 快了一丟丟,PPL 只漲了 0.8%。

      這就是所謂的"三贏":壓得狠、跑得快、質量幾乎不掉。

      實際使用也很簡單,編譯好他的 llama.cpp fork 之后:

      # 用 TurboQuant 3-bit KV Cache 跑推理
      ./build/bin/llama-server \
      -m models/your-model.gguf \
      --cache-type-k turbo3 --cache-type-v turbo3 \
      -ngl 99 -c 262144 -fa on \
      --host 0.0.0.0 --port 8080

      兩個參數--cache-type-k turbo3 --cache-type-v turbo3就搞定了,其他什么都不用改。而且他在 Qwen 3.5 35B-A3B MoE 模型上驗證過,2K 到 32K 各種上下文長度,速度都穩定在 q8_0 的 99% 左右。

      這哥們還在做 TurboQuant+ 擴展,包括自適應 bit 分配、時序衰減壓縮、MoE 感知壓縮等,后續更值得期待。

      vLLM 集成也來了:


      開發者 Mitko Vasilev(@iotcoi)已經在 vLLM 上實現了 TurboQuant。

      他在 USB 充電器大小的 HP ZGX 設備上,GB10 顯卡跑出了4,083,072 個 KV-cache tokens

      是的,你沒看錯,400 萬 tokens 的 KV Cache。

      他已經提交了 PR 估計合并需要時間。

      這意味著什么?

      說實話,我個人覺得這是 2026 年目前為止 LLM 推理領域最重要的進展,意義堪比當年 FlashAttention 把注意力從 O(n2) 優化成近似線性。

      對開發者:

      • 同樣的顯卡跑更大模型、更長上下文,成本暴降

      • 無需重訓、無需微調,部署門檻極低——pip install 完事

      對 Mac 用戶:

      • 16GB Mac Mini 的可用模型范圍直接擴大一圈

      • MLX kernel 已經在路上,本地推理速度越來越接近全精度

      對云廠商:

      • 這是基礎設施層的一次降維打擊

      • 推理成本下降意味著 API 降價,意味著更多應用能跑起來

      對整個 AI 生態:

      • 大家卷參數、卷 MoE、卷長上下文的時候,TurboQuant 直接把"硬件限制"這個天花板往上抬了一大截

      • 訓練是一次性的炫技,推理才是永遠的賬單。TurboQuant 直接把這個賬單砍了一刀

      更值得尊敬的是,Google 選擇了完全開放這項研究。

      論文發了、代碼路徑清晰、社區可以自由復現。


      • 論文:https://arxiv.org/abs/2504.19874


      他們完全可以把這個捂在 Gemini 里獨享,但他們沒有。

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      確定!正式官宣加盟,空降達拉斯啊,弗拉格終于有救了?

      確定!正式官宣加盟,空降達拉斯啊,弗拉格終于有救了?

      球童無忌
      2026-05-05 13:40:30
      西蒙尼:如果我們被淘汰,那說明對手配得上晉級

      西蒙尼:如果我們被淘汰,那說明對手配得上晉級

      懂球帝
      2026-05-06 06:37:12
      我國又一款摩托車奪冠!春風動力在世界摩托車大獎賽上大幅度領先

      我國又一款摩托車奪冠!春風動力在世界摩托車大獎賽上大幅度領先

      科普大世界
      2026-05-05 21:57:22
      虧損超1.5億!《寒戰1994》票房崩塌,我感慨:這塊金字招牌砸了

      虧損超1.5億!《寒戰1994》票房崩塌,我感慨:這塊金字招牌砸了

      靠譜電影君
      2026-05-05 10:40:44
      驚呼繩子“沒拴緊沒拴緊”,女子景區“探險”時高空墜落;女子是否搶救過來,四川華鎣相關部門稱會發通報

      驚呼繩子“沒拴緊沒拴緊”,女子景區“探險”時高空墜落;女子是否搶救過來,四川華鎣相關部門稱會發通報

      大風新聞
      2026-05-05 17:39:06
      上海偶遇Angelababy!素顏帶小海綿抓娃娃,現場無人打擾太暖心

      上海偶遇Angelababy!素顏帶小海綿抓娃娃,現場無人打擾太暖心

      觀魚聽雨
      2026-05-05 23:43:22
      河北一戶人家,因“月季花小院”走紅,太養眼,猶如人間仙境

      河北一戶人家,因“月季花小院”走紅,太養眼,猶如人間仙境

      三農老歷
      2026-05-05 00:08:43
      摩根:我的歷史最佳11人無梅西很正常,他甚至不是阿根廷的歷史最佳

      摩根:我的歷史最佳11人無梅西很正常,他甚至不是阿根廷的歷史最佳

      懂球帝
      2026-05-05 21:57:05
      吳宜澤世錦賽奪冠,同為00后的顏丙濤社媒送祝賀,解禁時間已確定

      吳宜澤世錦賽奪冠,同為00后的顏丙濤社媒送祝賀,解禁時間已確定

      小火箭愛體育
      2026-05-05 19:46:07
      米切爾和詹姆斯·哈登為何相信騎士隊,已準備好爆冷擊敗活塞隊

      米切爾和詹姆斯·哈登為何相信騎士隊,已準備好爆冷擊敗活塞隊

      好火子
      2026-05-06 05:32:12
      豆包突然要收費,其實是給所有普通人提了個醒!

      豆包突然要收費,其實是給所有普通人提了個醒!

      秋葉PPT
      2026-05-05 08:22:06
      套現約455億,李嘉誠又賣了

      套現約455億,李嘉誠又賣了

      第一財經資訊
      2026-05-05 23:54:56
      最便宜的豐田小車來了!配1.0L發動機油耗2.8L,不足4萬太香了

      最便宜的豐田小車來了!配1.0L發動機油耗2.8L,不足4萬太香了

      娛樂圈的筆娛君
      2026-05-05 21:17:39
      我家樓下有個少婦,離婚有一年了,長得非常漂亮,我想把她追到手

      我家樓下有個少婦,離婚有一年了,長得非常漂亮,我想把她追到手

      那年秋天
      2026-05-05 18:00:07
      大快人心!白洋淀五一徹底涼涼,靠宰客斂財的景區終于迎來了報應

      大快人心!白洋淀五一徹底涼涼,靠宰客斂財的景區終于迎來了報應

      社會日日鮮
      2026-05-05 20:11:56
      特斯拉 Model Y L 續航、能耗太強了,表顯跑出了 1:1

      特斯拉 Model Y L 續航、能耗太強了,表顯跑出了 1:1

      新浪財經
      2026-05-05 17:57:05
      蘭州飯館掛錢學森袁隆平照片,被投訴,老板反手報警:崇拜,不摘

      蘭州飯館掛錢學森袁隆平照片,被投訴,老板反手報警:崇拜,不摘

      觀察鑒娛
      2026-05-05 10:24:44
      媽媽帶3歲兒子送外賣不幸遭遇車禍,孩子滿臉傷痕不哭不鬧一直守在身旁:這一刻他就是媽媽的“守護天使”

      媽媽帶3歲兒子送外賣不幸遭遇車禍,孩子滿臉傷痕不哭不鬧一直守在身旁:這一刻他就是媽媽的“守護天使”

      大象新聞
      2026-05-05 20:46:37
      阿森納通往歐冠決賽之路:11勝3平僅丟6球,勝拜仁國米馬競

      阿森納通往歐冠決賽之路:11勝3平僅丟6球,勝拜仁國米馬競

      懂球帝
      2026-05-06 05:24:44
      特朗普:已賺回出兵成本的37倍!美國已經賣了1億桶委內瑞拉石油,未來一個月還有1億桶,他此前呼吁中國購買委石油,中方:其他國家無權指手畫腳

      特朗普:已賺回出兵成本的37倍!美國已經賣了1億桶委內瑞拉石油,未來一個月還有1億桶,他此前呼吁中國購買委石油,中方:其他國家無權指手畫腳

      每日經濟新聞
      2026-05-03 09:07:16
      2026-05-06 06:51:00
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3372文章數 11146關注度
      往期回顧 全部

      科技要聞

      傳蘋果考慮讓英特爾、三星代工設備處理器

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      體育要聞

      全世界都等著看他笑話,他帶國米拿下冠軍

      娛樂要聞

      內娛真情誼!楊紫為謝娜演唱會送花籃

      財經要聞

      瀏陽煙花往事

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態度原創

      房產
      家居
      健康
      手機
      數碼

      房產要聞

      五一樓市徹底明牌!塔尖人群都在重倉凱旋新世界

      家居要聞

      靈動實用 生活藝術場

      干細胞治燒燙傷面臨這些“瓶頸”

      手機要聞

      iPhone 20周年機型或配備固態按鈕,iPhone 18再次確認工藝降級!

      數碼要聞

      微星“MAG 276QRDY54”27英寸顯示器發售,6299元

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久高潮少妇视频免费| 国产精品xxx| 日日摸夜夜摸狠狠摸婷婷| Chinese.色亚洲| 国产内射一级一片内射高清视频 | 99久久久无码国产精品性| 天天操天天干视频| 国产九九视频在线播放| 国产亚洲欧美日韩精品一区二区| 亚洲综合久久久中文字幕| 高级黄区18勿进视频免费| 在线人成免费视频69国产| 人妻?制服?丝袜| 国产午夜福利短视频| 色欲国产一区二区日韩欧美| 国产精品久久久天天影视香蕉| 亚洲一区二区三区日本久久九 | 亚洲无码在线播放| 成人性生交大片免费看视频app| 亚洲成人一区二区| 欧美精品V欧洲精品| 亚洲婷婷五月激情综合app| 亚洲国产日韩在线人成蜜芽| 亚洲欧美日韩综合一区| 超碰人人超| 未满十八18禁止免费无码网站| 91孕妇久久夜色精品国产爽爽| 精品亚洲欧美中文字幕在线看| 亚洲国产一区在线观看| 久久综合精品国产一区二区三区无码| 亚洲视频a| 国产精品禁18久久久夂久| 免费人成黄页网站在线观看| 91果制片厂制作传媒| 国产成人精品手机在线观看| 亚洲精品日韩在线观看| 最近中文字幕mv在线mv视频| 日本黄色小说| 成人中文网| 日韩午夜福利在线观看| 国产美女露脸口爆吞精|