![]()
![]()
出品|搜狐科技
作者|張雅婷
編輯| 楊 錦
存儲(chǔ)市場(chǎng)的高歌猛進(jìn),被谷歌投下的一枚“深水炸彈”驟然打斷。
當(dāng)?shù)貢r(shí)間3月24日,谷歌研究院發(fā)表文章推出以TurboQuant為代表的新一代壓縮算法,宣稱(chēng)可以在不損失質(zhì)量的前提下實(shí)現(xiàn)AI內(nèi)存的極致壓縮,突破了AI發(fā)展的核心瓶頸。
隨著大模型參數(shù)規(guī)模邁向萬(wàn)億級(jí)別,推理過(guò)程中鍵值緩存帶來(lái)的內(nèi)存壓力暴漲。每一次問(wèn)答、每一次推理,都需要海量?jī)?nèi)存資源支撐。
OpenAI首席運(yùn)營(yíng)官Brad Lightcap此前表示,存儲(chǔ)芯片短缺與美國(guó)能源供應(yīng)緊張,是當(dāng)前AI基礎(chǔ)設(shè)施擴(kuò)張面臨的兩大潛在瓶頸。“現(xiàn)在的瓶頸是存儲(chǔ),過(guò)去是電力。”
而谷歌最新推出的 TurboQuant 技術(shù),在幾乎不影響模型性能的情況下,可將鍵值緩存壓縮至原來(lái)的1/6(約減少 83%),從而顯著緩解內(nèi)存壓力;同時(shí),在英偉達(dá) H100 GPU 上,其性能最高可提升至8倍。
Cloudflare首席執(zhí)行官M(fèi)atthew Prince認(rèn)為,谷歌TurboQuant有望像去年的DeepSeek模型一樣,通過(guò)效率革新打破算力依賴(lài)的行業(yè)邏輯。
這枚“深水炸彈”掀起的沖擊波,迅速傳導(dǎo)至資本市場(chǎng)。存儲(chǔ)巨頭股價(jià)集體重挫,恐慌情緒蔓延。美東時(shí)間3月26日,閃迪(SanDisk)股價(jià)大跌11.02%,美光科技下跌6.97%。
![]()
谷歌發(fā)布突破性新算法
當(dāng)?shù)貢r(shí)間3月24日,谷歌發(fā)布了名為T(mén)urboQuant的技術(shù),引發(fā)市場(chǎng)震動(dòng)。
根據(jù)谷歌官方介紹,TurboQuant是一種專(zhuān)為大型語(yǔ)言模型和向量搜索引擎設(shè)計(jì)的內(nèi)存壓縮技術(shù),核心目標(biāo)是解決AI系統(tǒng)中鍵值緩存(Key-Value Cache)的存儲(chǔ)瓶頸。
所謂鍵值緩存,可以簡(jiǎn)單理解為模型在“做閱讀理解時(shí)做的筆記”。當(dāng)大模型逐字生成內(nèi)容時(shí),會(huì)把已經(jīng)處理過(guò)的信息存下來(lái),下次就不用從頭再算一遍,從而加快生成速度。不過(guò),這些“筆記”會(huì)隨著對(duì)話(huà)變長(zhǎng)不斷累積,占用越來(lái)越多的內(nèi)存,最終可能成為推理過(guò)程中的主要資源消耗。
向量量化(Vector Quantization)是一種強(qiáng)大的經(jīng)典數(shù)據(jù)壓縮技術(shù)。然而,這種傳統(tǒng)的向量量化方法讓每個(gè)數(shù)字產(chǎn)生1至2比特的額外內(nèi)存開(kāi)銷(xiāo),部分抵消了壓縮收益。
而谷歌提出的TurboQuant,可以在實(shí)現(xiàn)模型尺寸大幅縮減的同時(shí)保持零精度損失。
具體來(lái)看,TurboQuant可在無(wú)需模型訓(xùn)練或微調(diào)的前提下,將鍵值緩存壓縮至3比特,在Gemma、Mistral等開(kāi)源模型實(shí)測(cè)中,鍵值內(nèi)存降至1/6(約減少 83%)。在英偉達(dá)H100 GPU加速器上,該算法較未量化鍵值方案性能提升最高達(dá)8倍。
TurboQuant通過(guò)兩個(gè)關(guān)鍵步驟實(shí)現(xiàn)壓縮:首先是采用PolarQuant(高質(zhì)量壓縮)方法,對(duì)數(shù)據(jù)向量進(jìn)行隨機(jī)旋轉(zhuǎn)。這一巧妙的步驟簡(jiǎn)化了數(shù)據(jù)的幾何結(jié)構(gòu),實(shí)現(xiàn)高質(zhì)量壓縮。
然后,TurboQuant使用極少量的殘余壓縮能力,利用量化Johnson-Lindenstrauss算法充當(dāng)數(shù)學(xué)誤差校驗(yàn)器,處理第一階段留下的微量誤差,從而獲得更準(zhǔn)確的注意力分?jǐn)?shù)。
谷歌表示,TurboQuant、QJL和PolarQuant雖然主要應(yīng)用是解決Gemini等模型中的KV緩存瓶頸,但其影響遠(yuǎn)不止于此。
當(dāng)下,搜索正從單純的關(guān)鍵詞匹配演變?yōu)槔斫庖鈭D和含義,TurboQuant等技術(shù)對(duì)于這一使命至關(guān)重要。因?yàn)樗鼈冊(cè)试S以極小的內(nèi)存、接近零的預(yù)處理時(shí)間和業(yè)界領(lǐng)先的準(zhǔn)確性,來(lái)構(gòu)建和查詢(xún)大型向量索引,這使得語(yǔ)義搜索變得更快、更高效。
據(jù)了解,TurboQuant將于ICLR 2026發(fā)表,PolarQuant則計(jì)劃在AISTATS 2026上亮相。谷歌已在LongBench、Needle In A Haystack、ZeroSCROLLS、RULER及L-Eval等多項(xiàng)基準(zhǔn)測(cè)試中完成驗(yàn)證,并指出該技術(shù)同樣適用于大規(guī)模搜索引擎的向量檢索場(chǎng)景。
![]()
內(nèi)存股集體大跌
存儲(chǔ)的“DeepSeek時(shí)刻”來(lái)了?
谷歌TurboQuant技術(shù)發(fā)布后,全球存儲(chǔ)芯片板塊震蕩。
美東時(shí)間3月26日,閃迪股價(jià)大跌11.02%,美光科技下跌6.97%,西部數(shù)據(jù)下跌7.7%,希捷科技下跌8.33%。
韓國(guó)存儲(chǔ)巨頭同樣受到重創(chuàng)。當(dāng)?shù)貢r(shí)間3月26日,韓國(guó)SK海力士股價(jià)下跌6.23%,市值損失44.18萬(wàn)億韓元(約合293.8億美元);三星電子也下跌了4.71%,市值損失57.83萬(wàn)億韓元(約合384.5億美元)。3月27日,三星電子和海力士股價(jià)仍持續(xù)下跌,跌幅收窄至1%左右。
今日開(kāi)盤(pán),A股存儲(chǔ)芯片集體大跌,佰維存儲(chǔ)、西測(cè)測(cè)試跌超7%,江波龍、德明利、香農(nóng)芯創(chuàng)跌超5%。
近兩年,由于AI產(chǎn)業(yè)的爆發(fā),存儲(chǔ)需求隨之暴漲。
以HBM(高帶寬內(nèi)存)為例,這一基于DRAM技術(shù)的高端品類(lèi),主要面向AI時(shí)代高性能計(jì)算場(chǎng)景。數(shù)據(jù)顯示,2025年,AI服務(wù)器對(duì)HBM的需求量從2024年的30萬(wàn)顆激增至120萬(wàn)顆,增長(zhǎng)率高達(dá)300%。
三星電子表示,目前所有可量產(chǎn)的HBM產(chǎn)能均已預(yù)訂滿(mǎn),預(yù)計(jì)2026年HBM銷(xiāo)量將同比增長(zhǎng)超過(guò)三倍。
然而,谷歌TurboQuant技術(shù)的出現(xiàn),悄然改寫(xiě)了行業(yè)預(yù)期。Cloudflare首席執(zhí)行官M(fèi)atthew Prince將此次技術(shù)突破稱(chēng)為谷歌的“DeepSeek時(shí)刻”,認(rèn)為其有望像去年的DeepSeek模型一樣,通過(guò)效率革新打破算力依賴(lài)的行業(yè)邏輯。
此前,DeepSeek橫空出世,因高性能、低成本的高性?xún)r(jià)比優(yōu)勢(shì),市場(chǎng)認(rèn)為英偉達(dá)算力需求預(yù)期將變?nèi)酰瑢?dǎo)致英偉達(dá)一度暴跌。當(dāng)時(shí),英偉達(dá)的股價(jià)一天跌幅17%,市值蒸發(fā)了5890億美元。
不過(guò),也有業(yè)內(nèi)人士認(rèn)為,根據(jù)“杰文斯悖論”,當(dāng)技術(shù)進(jìn)步提高了效率,資源消耗不僅沒(méi)有減少,反而激增。回過(guò)頭來(lái)看,DeepSeek并沒(méi)有讓英偉達(dá)芯片的需求減少。
摩根士丹利認(rèn)為,通過(guò)大幅降低單次查詢(xún)的服務(wù)成本,TurboQuant能夠讓原本只能在云端昂貴集群上運(yùn)行的模型遷移至本地,有效降低AI規(guī)模化部署的門(mén)檻,這可能反而能進(jìn)一步提振整體需求。
Quilter Cheviot科技研究主管Ben Barringer認(rèn)為,近期存儲(chǔ)芯片企業(yè)股價(jià)下跌可能是由于股東在周期性市場(chǎng)持續(xù)增長(zhǎng)后套現(xiàn)所致。“TurboQuant的事件加劇了股價(jià)下跌的壓力,但這只是漸進(jìn)式的,而非革命性的,它不會(huì)改變行業(yè)的長(zhǎng)期需求格局。”
此外,TechCrunch相關(guān)分析指出,該算法存在局限性,這項(xiàng)技術(shù)并不能緩解人工智能模型訓(xùn)練階段所需的大量?jī)?nèi)存問(wèn)題,因?yàn)樗皇窃谕评黼A段對(duì)數(shù)據(jù)進(jìn)行嚴(yán)格的壓縮。
![]()
![]()
運(yùn)營(yíng)編輯 |曹倩審核|孟莎莎
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.