網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI內(nèi)存壓縮超83%，谷歌黑科技給存儲(chǔ)巨頭“當(dāng)頭一棒”

2026-03-28 10:13:31　來(lái)源: 搜狐科技

北京舉報(bào)

分享至

出品｜搜狐科技

作者｜張雅婷

編輯| 楊錦

存儲(chǔ)市場(chǎng)的高歌猛進(jìn)，被谷歌投下的一枚“深水炸彈”驟然打斷。

當(dāng)?shù)貢r(shí)間3月24日，谷歌研究院發(fā)表文章推出以TurboQuant為代表的新一代壓縮算法，宣稱(chēng)可以在不損失質(zhì)量的前提下實(shí)現(xiàn)AI內(nèi)存的極致壓縮，突破了AI發(fā)展的核心瓶頸。

隨著大模型參數(shù)規(guī)模邁向萬(wàn)億級(jí)別，推理過(guò)程中鍵值緩存帶來(lái)的內(nèi)存壓力暴漲。每一次問(wèn)答、每一次推理，都需要海量?jī)?nèi)存資源支撐。

OpenAI首席運(yùn)營(yíng)官Brad Lightcap此前表示，存儲(chǔ)芯片短缺與美國(guó)能源供應(yīng)緊張，是當(dāng)前AI基礎(chǔ)設(shè)施擴(kuò)張面臨的兩大潛在瓶頸。“現(xiàn)在的瓶頸是存儲(chǔ)，過(guò)去是電力。”

而谷歌最新推出的 TurboQuant 技術(shù)，在幾乎不影響模型性能的情況下，可將鍵值緩存壓縮至原來(lái)的1/6（約減少 83%），從而顯著緩解內(nèi)存壓力；同時(shí)，在英偉達(dá) H100 GPU 上，其性能最高可提升至8倍。

Cloudflare首席執(zhí)行官M(fèi)atthew Prince認(rèn)為，谷歌TurboQuant有望像去年的DeepSeek模型一樣，通過(guò)效率革新打破算力依賴(lài)的行業(yè)邏輯。

這枚“深水炸彈”掀起的沖擊波，迅速傳導(dǎo)至資本市場(chǎng)。存儲(chǔ)巨頭股價(jià)集體重挫，恐慌情緒蔓延。美東時(shí)間3月26日，閃迪（SanDisk）股價(jià)大跌11.02%，美光科技下跌6.97%。

谷歌發(fā)布突破性新算法

當(dāng)?shù)貢r(shí)間3月24日，谷歌發(fā)布了名為T(mén)urboQuant的技術(shù)，引發(fā)市場(chǎng)震動(dòng)。

根據(jù)谷歌官方介紹，TurboQuant是一種專(zhuān)為大型語(yǔ)言模型和向量搜索引擎設(shè)計(jì)的內(nèi)存壓縮技術(shù)，核心目標(biāo)是解決AI系統(tǒng)中鍵值緩存（Key-Value Cache）的存儲(chǔ)瓶頸。

所謂鍵值緩存，可以簡(jiǎn)單理解為模型在“做閱讀理解時(shí)做的筆記”。當(dāng)大模型逐字生成內(nèi)容時(shí)，會(huì)把已經(jīng)處理過(guò)的信息存下來(lái)，下次就不用從頭再算一遍，從而加快生成速度。不過(guò)，這些“筆記”會(huì)隨著對(duì)話(huà)變長(zhǎng)不斷累積，占用越來(lái)越多的內(nèi)存，最終可能成為推理過(guò)程中的主要資源消耗。

向量量化（Vector Quantization）是一種強(qiáng)大的經(jīng)典數(shù)據(jù)壓縮技術(shù)。然而，這種傳統(tǒng)的向量量化方法讓每個(gè)數(shù)字產(chǎn)生1至2比特的額外內(nèi)存開(kāi)銷(xiāo)，部分抵消了壓縮收益。

而谷歌提出的TurboQuant，可以在實(shí)現(xiàn)模型尺寸大幅縮減的同時(shí)保持零精度損失。

具體來(lái)看，TurboQuant可在無(wú)需模型訓(xùn)練或微調(diào)的前提下，將鍵值緩存壓縮至3比特，在Gemma、Mistral等開(kāi)源模型實(shí)測(cè)中，鍵值內(nèi)存降至1/6（約減少 83%）。在英偉達(dá)H100 GPU加速器上，該算法較未量化鍵值方案性能提升最高達(dá)8倍。

TurboQuant通過(guò)兩個(gè)關(guān)鍵步驟實(shí)現(xiàn)壓縮：首先是采用PolarQuant（高質(zhì)量壓縮）方法，對(duì)數(shù)據(jù)向量進(jìn)行隨機(jī)旋轉(zhuǎn)。這一巧妙的步驟簡(jiǎn)化了數(shù)據(jù)的幾何結(jié)構(gòu)，實(shí)現(xiàn)高質(zhì)量壓縮。

然后，TurboQuant使用極少量的殘余壓縮能力，利用量化Johnson-Lindenstrauss算法充當(dāng)數(shù)學(xué)誤差校驗(yàn)器，處理第一階段留下的微量誤差，從而獲得更準(zhǔn)確的注意力分?jǐn)?shù)。

谷歌表示，TurboQuant、QJL和PolarQuant雖然主要應(yīng)用是解決Gemini等模型中的KV緩存瓶頸，但其影響遠(yuǎn)不止于此。

當(dāng)下，搜索正從單純的關(guān)鍵詞匹配演變?yōu)槔斫庖鈭D和含義，TurboQuant等技術(shù)對(duì)于這一使命至關(guān)重要。因?yàn)樗鼈冊(cè)试S以極小的內(nèi)存、接近零的預(yù)處理時(shí)間和業(yè)界領(lǐng)先的準(zhǔn)確性，來(lái)構(gòu)建和查詢(xún)大型向量索引，這使得語(yǔ)義搜索變得更快、更高效。

據(jù)了解，TurboQuant將于ICLR 2026發(fā)表，PolarQuant則計(jì)劃在AISTATS 2026上亮相。谷歌已在LongBench、Needle In A Haystack、ZeroSCROLLS、RULER及L-Eval等多項(xiàng)基準(zhǔn)測(cè)試中完成驗(yàn)證，并指出該技術(shù)同樣適用于大規(guī)模搜索引擎的向量檢索場(chǎng)景。

內(nèi)存股集體大跌

存儲(chǔ)的“DeepSeek時(shí)刻”來(lái)了？

谷歌TurboQuant技術(shù)發(fā)布后，全球存儲(chǔ)芯片板塊震蕩。

美東時(shí)間3月26日，閃迪股價(jià)大跌11.02%，美光科技下跌6.97%，西部數(shù)據(jù)下跌7.7%，希捷科技下跌8.33%。

韓國(guó)存儲(chǔ)巨頭同樣受到重創(chuàng)。當(dāng)?shù)貢r(shí)間3月26日，韓國(guó)SK海力士股價(jià)下跌6.23%，市值損失44.18萬(wàn)億韓元（約合293.8億美元）；三星電子也下跌了4.71%，市值損失57.83萬(wàn)億韓元（約合384.5億美元）。3月27日，三星電子和海力士股價(jià)仍持續(xù)下跌，跌幅收窄至1%左右。

今日開(kāi)盤(pán)，A股存儲(chǔ)芯片集體大跌，佰維存儲(chǔ)、西測(cè)測(cè)試跌超7%，江波龍、德明利、香農(nóng)芯創(chuàng)跌超5%。

近兩年，由于AI產(chǎn)業(yè)的爆發(fā)，存儲(chǔ)需求隨之暴漲。

以HBM（高帶寬內(nèi)存）為例，這一基于DRAM技術(shù)的高端品類(lèi)，主要面向AI時(shí)代高性能計(jì)算場(chǎng)景。數(shù)據(jù)顯示，2025年，AI服務(wù)器對(duì)HBM的需求量從2024年的30萬(wàn)顆激增至120萬(wàn)顆，增長(zhǎng)率高達(dá)300%。

三星電子表示，目前所有可量產(chǎn)的HBM產(chǎn)能均已預(yù)訂滿(mǎn)，預(yù)計(jì)2026年HBM銷(xiāo)量將同比增長(zhǎng)超過(guò)三倍。

然而，谷歌TurboQuant技術(shù)的出現(xiàn)，悄然改寫(xiě)了行業(yè)預(yù)期。Cloudflare首席執(zhí)行官M(fèi)atthew Prince將此次技術(shù)突破稱(chēng)為谷歌的“DeepSeek時(shí)刻”，認(rèn)為其有望像去年的DeepSeek模型一樣，通過(guò)效率革新打破算力依賴(lài)的行業(yè)邏輯。

此前，DeepSeek橫空出世，因高性能、低成本的高性?xún)r(jià)比優(yōu)勢(shì)，市場(chǎng)認(rèn)為英偉達(dá)算力需求預(yù)期將變?nèi)酰瑢?dǎo)致英偉達(dá)一度暴跌。當(dāng)時(shí)，英偉達(dá)的股價(jià)一天跌幅17%，市值蒸發(fā)了5890億美元。

不過(guò)，也有業(yè)內(nèi)人士認(rèn)為，根據(jù)“杰文斯悖論”，當(dāng)技術(shù)進(jìn)步提高了效率，資源消耗不僅沒(méi)有減少，反而激增。回過(guò)頭來(lái)看，DeepSeek并沒(méi)有讓英偉達(dá)芯片的需求減少。

摩根士丹利認(rèn)為，通過(guò)大幅降低單次查詢(xún)的服務(wù)成本，TurboQuant能夠讓原本只能在云端昂貴集群上運(yùn)行的模型遷移至本地，有效降低AI規(guī)模化部署的門(mén)檻，這可能反而能進(jìn)一步提振整體需求。

Quilter Cheviot科技研究主管Ben Barringer認(rèn)為，近期存儲(chǔ)芯片企業(yè)股價(jià)下跌可能是由于股東在周期性市場(chǎng)持續(xù)增長(zhǎng)后套現(xiàn)所致。“TurboQuant的事件加劇了股價(jià)下跌的壓力，但這只是漸進(jìn)式的，而非革命性的，它不會(huì)改變行業(yè)的長(zhǎng)期需求格局。”

此外，TechCrunch相關(guān)分析指出，該算法存在局限性，這項(xiàng)技術(shù)并不能緩解人工智能模型訓(xùn)練階段所需的大量?jī)?nèi)存問(wèn)題，因?yàn)樗皇窃谕评黼A段對(duì)數(shù)據(jù)進(jìn)行嚴(yán)格的壓縮。

運(yùn)營(yíng)編輯 |曹倩審核｜孟莎莎

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.