<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      谷歌迎來“DeepSeek時刻”!TurboQuant引爆AI圈、全球開發者瘋狂復現:6倍無損壓縮,內存股集體暴跌

      0
      分享至


      整理 | 華衛

      即使你對生成式 AI 模型的內部運作了解不多,也大概率知道它們極其吃內存。正因如此,如今想買一根普通內存條都免不了被狠狠加價。

      最近,谷歌研究院發布了 TurboQuant 壓縮算法,能夠在提升運行速度并保持準確性不變的前提下,降低大語言模型(LLM)的內存占用。如果 TurboQuant 成功落地,可將 AI 運行時的 “工作內存”,也就是鍵值緩存(KV cache)壓縮至少 6 倍,并在 H100 顯卡上實現最高 8 倍的速度提升,從而大幅降低 AI 運行成本。

      Cloudflare 的 CEO Matthew Prince 等人甚至稱,這是谷歌的 “DeepSeek 時刻”。此前,中國 AI 模型 DeepSeek 實現這樣的效率飛躍:該模型在性能保持競爭力的情況下,訓練成本僅為對手的零頭,且使用的芯片性能較差。


      而 TurboQuant 最關鍵的亮點是:精度零損失。無需微調,無需訓練數據。直接接入任意 Transformer 模型,即可讓鍵值緩存壓縮至原體積的一小部分,同時輸出結果完全一致。如果這一效果能在實際生產環境中成立,將一夜之間改變長上下文推理的成本格局。

      此外,TurboQuant 發布短短數小時內,內存類股票應聲下跌:美光科技跌 3%,西部數據跌 4.7%,閃迪跌 5.7%。原因是投資者開始重新估算,AI 行業未來實際需要的物理內存可能會大幅減少。

      極致無損壓縮 AI 效率,

      還革新了向量檢索

      在博客中,谷歌研究院將這項技術描述為一種在不影響性能的前提下縮減 AI 運行內存的全新方法。研究人員表示,該壓縮技術采用一種矢量量化方式,解決 AI 處理中的緩存瓶頸問題,本質上能讓 AI 在占用更少空間、保持精度的同時記住更多信息。

      TurboQuant 的優化目標是縮減鍵值緩存的體積,谷歌將其比作一張 “數字備忘單”,用于存儲關鍵信息,避免重復計算。這張備忘單必不可少,因為正如我們常說的,大語言模型本身并不 “懂” 任何東西,它們只是通過向量模擬出理解的效果,向量會映射分詞后文本的語義信息。兩個向量相近,就代表它們在概念上相似。高維向量可能包含成百上千個嵌入維度,能夠描述圖像像素、大型數據集等復雜信息,但同時也會占用大量內存,讓鍵值緩存體積暴漲,成為性能瓶頸。

      為了讓模型更小、更高效,開發者通常會使用量化技術以更低精度運行模型,缺點則是生成效果會變差,分詞預測的質量下降。而谷歌的早期測試結果顯示,使用 TurboQuant 后,部分場景下性能提升 8 倍、內存占用減少 6 倍,且精度毫無損失。


      谷歌表示,他們在 Gemma 和 Mistral 兩款開源模型上,用一系列長上下文基準測試了這套新壓縮算法。結果顯示,TurboQuant 在所有測試中下游任務表現完美,同時將鍵值緩存內存占用降低 6 倍。該算法無需額外訓練,就能將緩存量化至僅 3 比特,可直接應用于現有模型。在英偉達 H100 加速器上,使用 4 比特 TurboQuant 計算注意力分數,速度比 32 比特未量化鍵值快 8 倍。


      不過值得注意的是,TurboQuant 目前尚未大規模部署,現階段仍只是實驗室層面的突破。如果正式落地,TurboQuant 有望降低 AI 模型的運行成本,減少內存消耗。研發這類技術的公司也可能利用釋放出的內存運行更復雜的模型。未來大概率會兩種方向并存,而移動端 AI 受益可能最為明顯。受限于手機硬件條件,TurboQuant 這類壓縮技術可以在不上傳數據至云端的前提下,提升本地 AI 的生成質量。

      除大語言模型推理外,TurboQuant 也適用于向量檢索場景,在檢索增強生成(RAG)與相似度搜索中,高維向量同樣面臨內存壓力。使用 TurboQuant 后,索引構建時間幾乎降至零(1536 維向量僅需 0.0013 秒,而乘積量化需 239.75 秒);在 GloVe 數據集上的召回率也優于乘積量化與 RabbiQ 基準模型。

      技術邏輯大公開:

      應用到 AI 模型只需兩步

      將 TurboQuant 應用到 AI 模型分為兩個階段,背后是兩項關鍵技術:量化方法 PolarQuant 以及名為 QJL 的訓練與優化方法。

      為實現高質量壓縮,谷歌設計了一套名為 PolarQuant 的系統,以一種截然不同的思路解決內存開銷問題。AI 模型中的向量通常采用標準 XYZ 坐標編碼,而 PolarQuant 會將向量轉換為笛卡爾坐標系下的極坐標。在這個環形網格中,向量被簡化為兩項信息:半徑(核心數據強度)和方向(數據的語義含義)。

      谷歌用一個很形象的現實例子來解釋:傳統編碼就像是 “向東走 3 個街區,再向北走 4 個街區”;而用極坐標則可以簡化為 “沿 37 度方向走 5 個街區”。這樣不僅占用空間更少,還省去了系統開銷巨大的數據歸一化步驟。PolarQuant 承擔了主要的壓縮工作,盡管效果顯著,但會產生殘留誤差。

      第二步則用于修復瑕疵。對此,谷歌提出用量化約翰遜 - 林登斯特勞斯變換(QJL)進行平滑處理,在壓縮復雜高維數據的同時,保留數據點之間關鍵的距離與關聯信息。該技術會為模型添加一層 1 比特誤差校正層,將每個向量壓縮至單個比特(+1 或 - 1),本質上構建了一套高速簡寫形式,且不會產生任何內存開銷。同時為保證精度,QJL 采用一種特殊估算器,對高精度查詢與低精度簡化數據進行合理平衡,使模型能夠精準計算注意力分數,這也是神經網絡判斷數據重要性的核心機制。

      二者組合起來的效果就是,PolarQuant 實現極致壓縮,QJL 以近乎可忽略的成本修正誤差。據悉,谷歌計劃在下個月的 ICLR 2026 會議上展示他們的研究成果,并展示這兩種優化方法。

      代碼未公布,

      開發者單靠論文復現可用版

      盡管谷歌尚未發布任何官方代碼或集成庫,獨立開發者們已經僅憑論文就開始構建可運行的實現版本。

      有開發者在 PyTorch 中自定義了 Triton 內核,在 RTX 4090 顯卡上對 Gemma 3 4B 模型進行測試,結果顯示:在 2 比特精度下,模型輸出與未壓縮基準版逐字符完全一致。僅用 2 比特存儲每個數值,量化后的模型就能與全精度版本實現逐字節完全相同的回復,這表明 TurboQuant 的理論保證在較小模型上切實有效。

      另有開發者通過 MLX 框架在蘋果芯片上運行 35B 參數模型并搭載 TurboQuant,在各量化等級下的 “大海撈針” 測試中均取得 6 項滿分。在 llama.cpp 社區,已有三名開發者著手開發 C 語言與 CUDA 版本,其中一人表示 18 項測試全部通過,壓縮比也與論文數據完全吻合。

      一項研究論文在官方發布前就以如此速度被廣泛復現,實屬罕見。覆蓋 Triton、MLX、llama.cpp 等平臺的實現案例,既體現了 TurboQuant 數學設計的清晰性,也反映出 KV 緩存優化作為部署瓶頸的迫切需求。

      不過,復現該算法并非易事。一名早期開發者表示,QJL 誤差校正模塊很難準確實現,簡單粗暴的實現方式只會輸出亂碼。如果不能正確實現 QJL 對內積估算的偏差校正,量化誤差會不斷累積,導致輸出結果完全不可用。目前谷歌仍未發布 TurboQuant 官方代碼,vLLM、llama.cpp、Ollama 等主流推理框架也均未集成該技術。

      內存股全跌了,

      英偉達也在推同款算法

      市場反應十分迅速。內存類股票紛紛下跌,美光科技股價下跌 3%,西部數據下跌 4.7%,閃迪下跌 5.7%。A 股市場存儲芯片股也集體下挫,其中,兆易創新、佰維存儲、恒爍股份跌超 5%,江波龍、朗科科技、北京君正、太極實業、中電港跌超 4%,普冉股份、同有科技、萬潤科技、科翔股份、精智達、云漢芯城、聯蕓科技跌超 3%。

      而在多位分析師看來,這種波動有些反應過度。富國銀行分析師 Andrew Rocha 指出,TurboQuant 直接沖擊了 AI 系統的內存成本曲線。他表示,如果該技術被廣泛采用,很快就會引發一個問題:整個行業實際需要的內存容量究竟有多大。但 Rocha 與其他分析師也同時提醒,AI 內存的需求整體依然強勁,而且壓縮算法已存在多年,并未從根本上改變硬件采購規模。

      不過,市場的擔憂并非毫無根據。AI 基礎設施支出正以驚人速度增長:僅 Meta 一家,近期就與 Nebius 達成協議,投入高達 270 億美元用于專屬算力;谷歌、微軟、亞馬遜也共同計劃在 2026 年前投入數千億美元用于數據中心資本支出。一項能將內存需求降低 6 倍的技術,并不會讓支出同步減少 6 倍,因為內存只是數據中心成本的一部分。但它會改變成本結構比例,而在如此大規模的投入下,即便只是小幅效率提升,帶來的影響也會快速放大。

      TurboQuant 并非唯一一篇將在 ICLR 2026 發表的 KV 緩存壓縮方法。據了解,英偉達推出的 KVTC 可實現 20 倍壓縮,且精度損失不到 1 個百分點。該算法在 15 億至 700 億參數的模型上完成了測試,覆蓋范圍比 TurboQuant 約 80 億參數上限的基準測試更廣。KVTC 采用了截然不同的底層思路,使用基于主成分分析(PCA)的去相關方法與熵編碼,部分思路借鑒自 JPEG 壓縮。與 TurboQuant 與數據無關的設計不同,KVTC 需要針對每個模型執行一次性校準步驟,離線計算 PCA 對齊矩陣。作為回報,它在 8000 token 的長提示詞下,可將首 token 延遲最高降低 8 倍:在 H100 上從約 3 秒縮短至 380 毫秒。

      英偉達研究員 Adrian Lancucki 表示,“高效的 KV 緩存管理正變得至關重要,閑置緩存必須迅速從 GPU 顯存移出,為其他用戶騰出空間,并在對話恢復時快速加載。這些基礎設施成本如今已體現在商用定價中,例如‘提示詞緩存’,并會收取額外費用。”

      兩種相互競爭的壓縮標準在同一場會議同期亮相,標志著 KV 緩存優化正從純研究課題,逐漸成熟為生產級基礎設施層。

      https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

      https://winbuzzer.com/2026/03/26/googles-turboquant-reduces-ai-llm-cache-memory-xcxwbn/

      https://thenextweb.com/news/google-turboquant-ai-compression-memory-stocks

      聲明:本文為 AI 前線整理,不代表平臺觀點,未經許可禁止轉載。

      會議推薦

      OpenClaw 出圈,“養蝦”潮狂熱,開年 Agentic AI 這把火燒得不可謂不旺。在這一熱潮下,自托管 Agent 形態迅速普及:多入口對話、持久記憶、Skills 工具鏈帶來強大生產力。但這背后也暴露了工程化落地的真實難題——權限邊界與隔離運行、Skills 供應鏈安全、可觀測與可追溯、記憶分層與跨場景污染、以及如何把 Agent 納入團隊研發 / 運維流程并形成穩定收益。

      針對這一系列挑戰,在 4 月 16-18 日即將舉辦的 QCon 北京站上,我們特別策劃了「OpenClaw 生態實踐」專題,將聚焦一線實踐與踩坑復盤,分享企業如何構建私有 Skills、制定安全護欄、搭建審計與回放機制、建立質量 / 效率指標體系,最終把自托管 Agent 從可用的 Demo 升級為可靠的生產系統。

      今日薦文

      你也「在看」嗎?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      伊朗若真讓步,是“識時務”還是無奈?

      伊朗若真讓步,是“識時務”還是無奈?

      小眼睛小世界
      2026-05-07 06:24:07
      每周多達三次!薩摩亞女足球員,被指控:性侵14歲美國男孩!

      每周多達三次!薩摩亞女足球員,被指控:性侵14歲美國男孩!

      川渝視覺
      2026-05-07 20:49:40
      1958年毛澤東視察濟南,酒桌上突然猛砸杯子死盯王新亭:把你隱瞞的秘密交底吧?

      1958年毛澤東視察濟南,酒桌上突然猛砸杯子死盯王新亭:把你隱瞞的秘密交底吧?

      史海孤雁
      2026-05-05 17:07:19
      別再被抗戰劇騙了!一名日軍攝影師,拍下真正的“鬼子進村”照片

      別再被抗戰劇騙了!一名日軍攝影師,拍下真正的“鬼子進村”照片

      歷史甄有趣
      2026-05-04 08:10:22
      把瑜伽褲穿成日常的松弛感美女

      把瑜伽褲穿成日常的松弛感美女

      只要高興就好
      2026-04-13 14:30:30
      凱特·貝金賽爾紅毯狀態碾壓00后,網友:這姐是吃了防腐劑?

      凱特·貝金賽爾紅毯狀態碾壓00后,網友:這姐是吃了防腐劑?

      小燕烹那魚
      2026-05-06 11:41:00
      99%的女人出軌完男人后,都會默契地做出這3種行為,不信你看看

      99%的女人出軌完男人后,都會默契地做出這3種行為,不信你看看

      加油丁小文
      2026-05-03 08:30:16
      男人出不出軌,取決于有沒有機會;女人出不出軌,取決于她的男人

      男人出不出軌,取決于有沒有機會;女人出不出軌,取決于她的男人

      新時代的兩性情感
      2026-03-22 12:05:46
      不能說的秘密

      不能說的秘密

      貴圈真亂
      2026-05-02 12:20:52
      為什么年輕黑人喜歡中國姑娘?聽聽大媽怎么說

      為什么年輕黑人喜歡中國姑娘?聽聽大媽怎么說

      風起見你
      2026-05-07 07:32:39
      嫁到中國一年的德國姑娘,回德國2天后直言:中國的快了“有毒”

      嫁到中國一年的德國姑娘,回德國2天后直言:中國的快了“有毒”

      番外行
      2026-03-29 00:05:03
      日本網友瘋換中文手機界面,直呼清爽十倍,中國文化悄悄出圈!

      日本網友瘋換中文手機界面,直呼清爽十倍,中國文化悄悄出圈!

      行者聊官
      2026-04-24 20:48:30
      太寒心!鹽城龍鳳胎事件,孩子早產,老公把彩禮8.8萬驟降至3.8萬

      太寒心!鹽城龍鳳胎事件,孩子早產,老公把彩禮8.8萬驟降至3.8萬

      魔都姐姐雜談
      2026-05-06 13:19:53
      一個人的命好不好,脫鞋看一眼“腳”就知道!腳上有這兩種特征的人,天生就是“富貴命”,越老越有錢

      一個人的命好不好,脫鞋看一眼“腳”就知道!腳上有這兩種特征的人,天生就是“富貴命”,越老越有錢

      心理觀察局
      2026-05-03 08:19:04
      我敢說,大部分會跟我一樣,選擇黑色衣服那個女孩!

      我敢說,大部分會跟我一樣,選擇黑色衣服那個女孩!

      草莓解說體育
      2026-04-12 17:05:01
      國際乒聯主席提條件:樊振東可以參加2028奧運會,但有個前提

      國際乒聯主席提條件:樊振東可以參加2028奧運會,但有個前提

      三十年萊斯特城球迷
      2025-12-16 23:09:38
      俄半路想截胡中吉烏鐵路,烏總理緊急訪華,警示別重蹈圖們江覆轍

      俄半路想截胡中吉烏鐵路,烏總理緊急訪華,警示別重蹈圖們江覆轍

      老媹古裝影視解說
      2026-05-06 18:57:38
      5月底撞大運,9月添財喜,7月金銀滾滾來!四大生肖好運全來

      5月底撞大運,9月添財喜,7月金銀滾滾來!四大生肖好運全來

      阿龍美食記
      2026-05-07 18:37:04
      特朗普刻意施壓訪華日程,中方強硬表態:絕不妥協讓步!

      特朗普刻意施壓訪華日程,中方強硬表態:絕不妥協讓步!

      無人傾聽無人傾聽
      2026-05-08 01:12:57
      標普連創新高,但聰明錢都在撤退,高盛警告:閃崩只是時間問題

      標普連創新高,但聰明錢都在撤退,高盛警告:閃崩只是時間問題

      補懂事的孩紙
      2026-05-07 22:59:25
      2026-05-08 04:24:49
      AI前線 incentive-icons
      AI前線
      面向AI愛好者、開發者和科學家,提供AI領域技術資訊。
      1477文章數 149關注度
      往期回顧 全部

      科技要聞

      月之暗面完成20億美元融資,估值突破200億

      頭條要聞

      日媒詢問中國是否希望恢復中日之間人員往來 中方回應

      頭條要聞

      日媒詢問中國是否希望恢復中日之間人員往來 中方回應

      體育要聞

      巴黎再進歐冠決賽,最尷尬的情況還是發生了

      娛樂要聞

      Lisa主持!寧藝卓觀看脫衣秀風波升級

      財經要聞

      人均年薪406萬,這家ST公司驚呆市場!

      汽車要聞

      雷克薩斯全新純電三排SUV 全新TZ全球首發

      態度原創

      本地
      數碼
      時尚
      游戲
      公開課

      本地新聞

      用青花瓷的方式,打開西溪濕地

      數碼要聞

      酷冷至尊elite 461系列機箱首發199元起:M-ATX海景房設計

      今年最火的4雙平底鞋,配小黑裙好看又氣質!

      《遠星物語》團隊新作《皓白初曉》登Steam EA

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: AV在线影院| 在线欧美日韩| 国产午夜成人久久无码一区二区 | 国产成人午夜福利高清在线观看| 熟妇五十路六十路息与子| 国产熟妇搡bbbb搡bbbb搡| 亚洲欧洲日产国码久在线| 欧洲av在线不卡s| 久久人人爽人人人人片av| 亚洲一二区在线视频播放| youjizz亚洲| 在线看免费无码av天堂| 四虎永久在线精品视频观看| 波多野结衣视频网站| 国产精品无码久久综合| 欧美亚韩国产| 久久婷婷五月综合色欧美| 国产一区?欧美精品| 中文字幕亚洲一区二区三区| 亚洲欧美人成电影在线观看| 亚洲熟妇少妇任你躁在线观看无码| 欧美老熟妇乱子伦视频| 99精品视频在线观看| 国产成人一区二区三区别| 欧美成人精品高清在线下载| 尤物国产高清av在线| 亚洲精品成人久久久| 国产精品视频亚洲二区| 日本久久亚洲| 亚洲黑人av| 中文字幕人妻系列人妻?无码| 亚洲精品白浆高清久久久久久| 激情内射亚州一区二区三区爱妻 | 国产真人无遮挡免费视频| 91丨九色丨夫妻绿帽| 国产免费人成网站在线播放| 日本不卡视频二区三区| 极品国产主播粉嫩在线观看| 国产高清在线视频二区| 蜜臀色欲AV无码人妻| 色吊丝二区三区中文写幕|