網易首頁 > 網易號 > 正文申請入駐

谷歌新算法讓AI對話內存暴降83%，手機跑大模型成真？

2026-05-08 11:03:10　來源: 冷知識挖掘機21

北京舉報

分享至

把一臺服務器才能扛得動的AI對話系統，塞進一部普通手機的內存里——這聽起來像是工程師的狂想，但谷歌最新公開的TurboQuant算法，正在把這個場景往現實拉近一大步。這家公司聲稱，他們的新技術能讓聊天機器人在對話時占用的工作內存驟降到原來的六分之一，同時不損失任何性能。

六分之一是什么概念？假設你現在用的是一部12GB內存的旗艦手機，過去它根本帶不動一個像樣的本地大模型；按谷歌的說法，同樣的硬件現在能騰出空間來干別的事，或者干脆讓中端機型也能流暢運行復雜的AI對話。這背后的技術細節，值得拆開看看。

AI的"短期記憶"有多占地方

要理解這個突破的意義，得先搞清楚AI對話時到底在消耗什么資源。

當前的大語言模型——無論是ChatGPT、Claude還是谷歌自家的Gemini——在生成回答時都需要一塊叫"KV緩存"（Key-Value Cache）的工作區域。你可以把它想象成人類的短期記憶：當你問"明天我這兒天氣怎么樣"，模型會臨時存下"天氣""明天""你的位置"這些關鍵詞，還有中間猜測比如"可能會下雨"，一邊回憶上下文一邊組織語言。

這些臨時信息以"token"為單位存儲。一個token大概對應英文的半個單詞或中文的一個字，一句簡單的話可能只用幾十個token。但復雜的對話、長文檔分析、代碼生成，動輒需要追蹤幾十萬token的上下文。谷歌的資料顯示，存儲這么多token的KV緩存，可能需要幾十GB的內存。

更麻煩的是，這個內存需求隨用戶數量線性增長。ChatGPT每天接收數十億次請求，每個請求背后都是一塊不小的KV緩存。這就是為什么你用手機訪問AI服務時，實際運算往往發生在云端數據中心——本地設備根本塞不下這堆"短期記憶"。

壓縮不是新鮮事，實時壓縮才是

減少數據體積的技術，計算機領域早就有了。谷歌自己也在神經網絡里用了多年"量化"（quantization）技術，簡單說就是把原本用很多位（bit）表示的數值，換成用更少位表示，文件自然就小了。

但過去的量化通常是"靜態"的：模型訓練或部署前壓縮一次，之后固定不變。TurboQuant的突破在于"動態"——它在模型運行過程中實時壓縮KV緩存，而且必須保證壓縮后的數據仍然準確、隨時可更新。

這有點像一邊高速開車一邊換輪胎。AI生成回答的速度極快，每毫秒都在產生新token、更新緩存；TurboQuant得在這個過程中持續把新數據壓小，同時讓模型隨時能調取歷史信息而不失真。谷歌沒公開具體技術細節，但提到了兩種方法的名字：PolarQuant和Quantized Johnson-Lindenstrauss（QJL）。

Johnson-Lindenstrauss引理是數學中一個經典結果，大意是高維空間里的點集可以被投影到低維空間，同時大致保持點之間的距離關系。把它用在AI緩存上，可能意味著用更少的位數來近似表示原本龐大的向量數據，而不丟失關鍵信息。PolarQuant的具體機制則未在公開材料中說明。

實測數據與"不犧牲性能"的承諾

谷歌在聲明中給出了測試范圍：Meta的Llama 3.1-8B、谷歌自家的Gemma，以及Mistral的模型。這些都是當前開源社區最活躍的中等規模模型，參數量在80億級別，正好是邊緣設備可能承載的上限。

公司代表稱，TurboQuant在測試中"顯示出巨大潛力，能在不犧牲AI模型性能的前提下減少鍵值瓶頸"。這句話的措辭值得注意——"顯示出巨大潛力"（showed great promise）是進展描述，不是終結論證；"不犧牲性能"（without sacrificing performance）是目標宣稱，具體測試指標未公開。

壓縮六倍后的模型，在標準評測基準上是否保持了同樣的準確率、響應速度、多輪對話連貫性？谷歌沒有發布詳細技術論文，這些細節暫時無法核實。這也是業界對"突破性進展"聲明的常規審慎態度：等獨立復現，等同行評議。

為什么是搜索和AI"尤其"相關

谷歌代表在聲明末尾加了一句："這對所有依賴壓縮的用例都有潛在深遠影響，包括并在搜索和AI領域尤其如此。"

這個"尤其"耐人尋味。搜索是谷歌的核心業務，而AI正在重塑搜索的產品形態——從傳統的"十條藍色鏈接"轉向直接生成答案的對話式界面。但生成式搜索的成本結構很頭疼：每回答一個問題，模型都要維持龐大的KV緩存來理解查詢意圖、檢索相關信息、組織連貫回應。

如果TurboQuant能把這部分內存開銷砍掉六分之五，理論上意味著：同樣數量的服務器能支撐更多并發用戶，或者同樣的服務質量可以用更便宜的硬件實現。對于每天處理數十億次查詢的搜索引擎，這種效率提升的商業價值不言而喻。

更長遠地看，它可能改變AI服務的部署模式。現在的AI應用大致分兩派：云端派追求最大能力，把重運算扔給數據中心；本地派追求隱私和響應速度，但受限于設備性能。TurboQuant如果屬實，可能讓"中間路線"變得可行——復雜模型部分運行在云端，部分下沉到手機、PC甚至物聯網設備，根據場景動態分配。

與DeepSeek時刻的類比，以及其中的跳躍

一些報道把TurboQuant稱為谷歌的"DeepSeek時刻"，指的是今年初中國公司DeepSeek以極低成本訓練出高性能模型的沖擊。但這個類比需要拆解。

DeepSeek的核心敘事是"訓練效率"——用更少的GPU、更低的預算，達到接近OpenAI頂尖模型的水平。這直接挑戰了"AI能力=算力堆砌"的行業共識，引發美股AI芯片板塊震蕩。

TurboQuant解決的是"推理效率"——模型已經訓練好了，怎么讓它在實際使用時更省資源。這是產業鏈的不同環節：訓練是一次性的大額投資，推理是持續運營的日常開銷。兩者都重要，但技術路徑和商業影響不盡相同。

更關鍵的是，DeepSeek的進展有公開的技術論文和可下載的模型權重供驗證；TurboQuant目前只有谷歌的聲明和有限的測試披露。把兩者并列，可能高估了前者的完成度，也可能低估了后者需要的獨立驗證。

量化技術的邊界與未解問題

即便TurboQuant的效果屬實，壓縮六倍是否就是終點？很可能不是。

量化本質是用近似換取效率。壓縮比例越高，信息損失的風險越大。谷歌強調"不犧牲性能"，但"性能"的定義很靈活：是下一個token預測的準確率？是長文本理解的連貫性？是多輪對話中不遺忘關鍵細節的能力？不同場景對"可接受的損失"有不同標準。

此外，TurboQuant目前公開的測試集中在80億參數級別的模型。更大規模的模型——比如千億參數的GPT-4級別系統——是否適用同樣的壓縮比例，尚未可知。大模型的KV緩存結構更復雜，實時量化的計算開銷本身也可能成為新瓶頸。

還有一個未被提及的維度：能耗。內存減少通常意味著功耗降低，這對移動設備是好消息。但實時量化需要持續的計算投入，這筆賬怎么算，谷歌沒有給出數據。

對普通用戶意味著什么，以及什么時候能感知

如果你不是AI工程師或云服務商采購經理，這項技術可能以幾種間接方式影響你的日常。

短期內，最可見的變化可能是AI服務的響應速度和可用性。如果谷歌把TurboQuant部署到自家的Gemini和搜索產品中，高峰時段的排隊等待可能減少，或者免費 tier 的使用額度可能放寬。這些改進很難歸因到單一技術，但效率提升的累積效應會體現在產品體驗里。

中期看，它可能加速"端側AI"的普及。蘋果、高通、聯發科都在推主打AI算力的手機芯片，但硬件能力需要軟件配合。更高效的緩存管理，意味著同樣的芯片能跑更復雜的模型，或者同樣的模型能跑得更流暢。未來一兩年內，你手機里的語音助手、實時翻譯、圖像生成工具，可能因此變得更可用。

長期而言，它關系到AI服務的成本結構和經濟可持續性。當前大模型的運營成本高得驚人，OpenAI、Anthropic等公司的虧損規模是公開秘密。如果推理成本能系統性下降，訂閱價格可能下調，免費服務的質量可能提升，或者至少——漲價的壓力會小一些。

一個需要保持的清醒

技術聲明和實際落地之間，往往隔著漫長的工程驗證。谷歌有動機在這個時點強調效率突破：一方面回應DeepSeek帶來的成本焦慮，另一方面在Gemini與ChatGPT的競爭中塑造技術領先形象。

但"六倍壓縮"是一個可以被獨立測量的承諾。接下來的幾個月，關鍵看兩點：一是谷歌是否會發布技術論文，接受學術界的 scrutiny；二是開源社區能否在公開模型上復現類似效果。如果兩者都發生，TurboQuant確實可能成為AI基礎設施的一個轉折點；如果遲遲未見，它可能淪為又一份被過度解讀的企業新聞稿。

對于習慣在各類"突破"標題中保持警惕的讀者，最穩妥的態度或許是：這是一個值得關注的技術方向，但還不是可以下結論的成品。AI的效率革命正在多個維度同時發生，TurboQuant是其中一塊拼圖——重要，但不必急于賦予它改變一切的重量。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.