網易首頁 > 網易號 > 正文申請入駐

北京大學造出"變形金剛"AI芯片適配器

2026-05-22 21:45:48　來源: 科技行者

天津舉報

分享至

這項由北京大學人工智能研究院主導的研究，以預印本形式發布于2026年5月，論文編號為arXiv:2605.15250，有興趣深入了解的讀者可通過該編號查詢完整論文。

當你把一臺高端游戲電腦的顯卡換成一張"性能閹割版"顯卡時，你會希望游戲能自動調整畫質設置，而不是強行以原來的高畫質運行導致畫面卡成幻燈片。這篇論文解決的，正是大型語言模型（也就是ChatGPT、文心一言這類AI背后的核心技術）在不同計算芯片上運行時面臨的同一個困境——現有的高效方案只為一種芯片量身定做，換了芯片就摔跟頭。

研究團隊提出了一種叫做"分組查詢潛在注意力"（GQLA）的新設計，核心思路極其簡潔：同一套訓練好的模型參數，在運行時能自動切換兩種完全等價的工作模式，讓H100這類頂級芯片和H20這類受出口管制的"平價芯片"都能各自跑在自己的最優狀態。沒有重新訓練，沒有定制內核，一套權重走遍天下。

一、先搞清楚"KV緩存"這個攔路虎

要理解這篇論文在做什么，先要明白AI大模型在生成文字時遭遇了怎樣的瓶頸。每當AI生成一個新詞，它都需要回顧自己之前生成的所有內容作為參考。這些"歷史記錄"就叫做KV緩存（Key-Value Cache），其中K代表"索引信息"，V代表"內容信息"。

可以把KV緩存理解為一位速記員隨時翻閱的工作筆記本。每生成一個新詞，速記員就要把整本筆記本翻一遍，找出相關內容。筆記本越厚，翻閱速度越慢。當AI生成長文本時，這本"筆記本"會變得非常龐大，每次翻閱都需要從芯片的高速內存（HBM，類似硬盤但比普通內存快得多）里把數據搬運一次，而這個搬運速度就成了整個系統最致命的瓶頸。

學界為此發明了多種"壓縮筆記本"的方案。最激進的叫MQA（多查詢注意力），相當于所有人共用一本極簡筆記本；折中方案叫GQA（分組查詢注意力），幾個人共用一本筆記本；而DeepSeek-V2/V3采用的MLA（多頭潛在注意力）則更聰明——它不只是共用筆記本，而是把筆記本內容先壓縮成一段"精華摘要"存起來，用的時候再臨時展開。這樣筆記本體積最小，搬運最省力。

MLA的"精華摘要"方案在英偉達H100芯片上幾乎達到了理論最優效率。但問題在于，這個方案是為H100量身裁縫的，換了芯片就出了岔子。

二、H100和H20：同樣的帶寬，天差地別的算力

要理解芯片適配問題，需要引入一個叫"屋頂線模型"（Roofline Model）的評估框架。這個框架把芯片性能比作一條雙斜屋頂：屋頂的左半邊代表"內存搬運速度"是瓶頸，右半邊代表"計算速度"是瓶頸，兩邊相交的最高點（叫做"屋脊點"）就是計算任務應該盡量命中的最優工作區域。

H100芯片的屋脊點大約在每字節295次浮點運算。換句話說，H100的計算能力極強，只要一個任務的"計算量與數據搬運量之比"接近295，就能把芯片利用率逼到極限。MLA的absorbed MQA模式（即"精華摘要"模式）在單次解碼時的這個比值恰好約為242，稍低于屋脊點，正處于內存搬運略微吃緊的高效區間，堪稱完美匹配。

H20則是另一回事。由于美國出口管制，H20的計算能力被大幅削減至約148 TFLOPS，但內存帶寬幾乎保留完整（約4.0 TB/s），導致H20的屋脊點只有大約37。而MLA在H20上的比值仍然是242——這個數字遠遠高于37的屋脊點，意味著H20的計算單元被迫全速空轉等待數據，大量算力白白浪費。更直白地說，MLA在H20上是嚴重的"大馬拉小車"，芯片的運算部件一直在等數據，卻等不到，吞吐量大幅下降。

論文中的數據清楚地展示了這個差距：MLA在H20上每步解碼需要約15.42微秒，即便開啟了"多詞預測"（MTP，一次多生成幾個詞以提升效率的技術），由于H20已經是計算瓶頸，多生成一個詞只會讓等待時間成倍增加，吞吐量幾乎沒有任何提升，每秒只能生成約6.5萬個詞。與此同時，H100運行同樣的MLA卻只需2.82微秒，每秒可以生成約35.4萬個詞。

除了效率問題，MLA還有另外兩個連帶缺陷。其一是"并行擴展受限"：MLA的精華摘要模式要求所有計算頭共享同一份壓縮數據，這使得無法沿"頭軸"方向把計算分散到多張顯卡上（這種分散技術叫做張量并行），實際部署中需要把壓縮數據復制到每張顯卡，浪費內存。其二是"多詞預測失效"：如前所述，在H20這類計算受限的芯片上，MLA一詞一詞地生成和一次生成多詞的速度幾乎相同，多詞預測完全失去意義。

三、GQLA的核心設計：一套參數，兩條路走

GQLA的關鍵發明在于，它在保留MLA"精華摘要"壓縮能力的同時，為同一套訓練參數開辟了第二條執行路徑。

具體來說，GQLA把鍵值的上投影矩陣（可以理解為"把摘要還原為完整內容"的解碼器）不再復制給所有128個查詢頭，而是按組索引，每組8個查詢頭共享一個解碼器。這個看似微小的改變，讓整個系統在數學上同時支持兩種完全等價的計算方式。

第一條路叫"GQA路徑"：臨時把摘要展開成8組完整的鍵值對，每組對應16個查詢頭，然后按照普通GQA的方式運行注意力計算。這條路需要在緩存中存儲展開后的數據，每個詞元需要約4224字節，相當于LLaMA-3的標準GQA緩存大小，但能讓計算與數據搬運的比值降低到約38.8，恰好命中H20的屋脊點。在H20上，這條路配合多詞預測，每步解碼只需9.06微秒，每秒可生成約22.1萬個詞，比MLA的6.5萬提升了3.4倍。

第二條路叫"MQA吸收路徑"：與MLA完全相同，把解碼器矩陣直接吸收進查詢計算里，讓所有查詢頭直接對精華摘要做注意力，緩存中只需存儲摘要本身，每個詞元約1152字節，計算比值約242，完美貼合H100屋脊點。這條路在H100上單步解碼只需2.82微秒，每秒生成約35.4萬個詞。

兩條路產生的輸出在數學上完全相同，只是計算的中間步驟不同。部署時，系統根據目標硬件一次性選定路徑，并相應地把KV緩存壓縮或展開（這只是部署時的一次性操作，而非每步推理都要做），此后無需任何改動。

四、把現有模型"變身"GQLA：TransGQLA流水線

從頭訓練一個GQLA模型代價高昂，研究團隊因此提出了TransGQLA——一種把已有GQA模型改造成GQLA模型的轉換流程，核心改動只有一行代碼的差異。

這個流程建立在此前提出的TransMLA工作基礎上。TransMLA的做法是：把GQA模型里每組共享的KV頭合并成一個大的潛在向量，然后把展開矩陣復制給所有查詢頭，使模型在非壓縮模式下行為像MHA（完整多頭注意力）。TransGQLA的區別僅在于，合并時不復制展開矩陣，讓它保持按組索引——于是合并后的模型行為依然是GQA，而不是MHA。這個細節保留了沿組軸進行張量并行的能力，最多支持8路零冗余張量并行。

完成這一步之后，TransGQLA沿用TransMLA的后續流程：通過"RoRoPE"技術把位置編碼信息從內容編碼中解耦出來，通過"FreqFold"技術對旋轉位置頻率進行重新排列以利于后續壓縮，最后通過對鍵和值進行歸一化平衡后做聯合低秩壓縮，把龐大的中間向量壓縮到一個緊湊的潛在表示。這些步驟操作的對象是合并后的潛在向量，完全不關心外層模型是GQA還是MHA解釋，因此可以直接復用。

研究團隊在LLaMA-3-8B上驗證了這個流程。這個模型有32個查詢頭、8個KV組，每個頭的維度為128，原始GQA緩存每詞元每層需要2048個BF16元素。經過TransGQLA處理并壓縮到576維潛在空間后，MQA吸收路徑的緩存降至原來的28.125%，壓縮率超過了7倍。GQA路徑的緩存大小則與原版相近，保留了原始GQA的傳輸效率。

五、稀疏注意力的擴展：為什么GQLA更有優勢

論文還討論了一個進階話題：稀疏注意力。正常的注意力機制每生成一個新詞都要看遍所有歷史詞，當上下文很長（比如幾萬個詞）時開銷巨大。稀疏注意力的思路是，每次只挑選最相關的一小批歷史詞來參考，跳過無關的大部分歷史，從而大幅降低計算量。

DeepSeek提出的DSA（深度求索稀疏注意力）是目前主流的稀疏方案，但它與MLA組合時存在結構性缺陷?，F代GPU芯片的矩陣乘法加速單元（張量核心）有一個硬性限制：它的基本計算瓦片（MMA瓦片）的M維度至少需要16，意味著每個KV頭必須同時服務至少16個查詢頭，才能讓張量核心滿負荷工作。MLA在非壓縮模式下每個KV頭只對應1個查詢頭，遠低于16的門檻，張量核心完全發揮不出來，所以稀疏MLA被迫在所有設備上都只能走MQA吸收路徑，無法利用GQA路徑的優勢。

GQLA的標準配置是128個查詢頭配8個KV組，每組恰好對應128/8=16個查詢頭，與MMA瓦片的M=16完美匹配。這意味著稀疏GQLA可以在GQA路徑上讓張量核心滿負荷工作，在H20這類計算受限的芯片上保持高效，同時保留沿組軸的張量并行能力。記憶力受限的硬件可以切換到稀疏MQA吸收路徑以最小化緩存搬運，計算受限的硬件則留在稀疏GQA路徑保持低算力消耗，兩種選擇都不需要定制內核。

論文還提到，當上下文極長（超過6.4萬詞）時，計算"哪些歷史詞最相關"本身也會變成瓶頸。另一項叫HISA的工作提出了一種分層評分方法來加速這個篩選過程，與GQLA自然互補——HISA負責"更快地找出相關詞"，GQLA負責"更高效地對相關詞做注意力計算"，兩者組合能從兩端同時逼近硬件理論峰值。

六、實驗驗證：轉換后掉了多少能力，能恢復嗎

研究團隊選取了開源的LLaMA-3-8B作為測試對象，在六個常識推理基準測試上評估了轉換效果，包括MMLU（綜合知識）、ARC（科學推理）、PIQA（物理常識）、HellaSwag（情境理解）、OpenBookQA（開放知識）和Winogrande（代詞消歧）。

原始LLaMA-3-8B在這六項測試的加權平均分為63.84分。經過TransGQLA轉換但不做任何額外訓練后，平均分降至54.13分，下降了約9.7分。PIQA和HellaSwag的得分與原始模型相差只有幾分，表明模型的基礎語言理解能力保留較好，主要損失集中在需要大量知識記憶的MMLU等任務上。這個損失程度對于超過7倍的緩存壓縮率而言是相對溫和的。

研究團隊還給出了預期恢復軌跡的參照。此前TransMLA的實驗顯示，在同樣的LLaMA-3-8B基礎上做同樣壓縮后，用約300億詞元的數據繼續預訓練，平均分就能恢復到63.39分，與原始模型只差0.5分——而300億詞元相比LLaMA-3本身訓練用的15萬億詞元，僅僅是約五百分之一的訓練量。由于TransGQLA和TransMLA在0訓練詞元時的分數完全相同（兩者的KV子空間壓縮步驟完全一致，只有前期的頭合并方式不同），研究團隊預計TransGQLA的繼續預訓練曲線將與TransMLA高度一致，因此可以合理期待同樣數量級的訓練后即可恢復到接近原始水平。這個繼續預訓練實驗正在進行中，完整結果將在后續版本中補充。

七、選擇(g=8, sq=2)還是(g=4, sq=1)：兩種H20優化方案的權衡

論文詳細討論了兩種在H20上達到最優效率的參數配置，各有側重。

g=8配合多詞預測sq=2的方案是研究團隊的推薦默認配置。這種配置的優點是多方面的：8個KV組意味著潛在空間維度為8×128=1024，比rkv=512的壓縮目標大一倍，給PCA壓縮留出了2倍冗余，壓縮質量更高；支持最多8路零冗余張量并行，大規模部署時擴展性好；每組16個查詢頭恰好匹配MMA瓦片要求，為后續的稀疏擴展打好基礎；配合多詞預測，H20每秒吞吐量可達22.1萬詞。

g=4不使用多詞預測sq=1的方案則是一個輕量替代選項。每詞元緩存大小從4224字節降至2176字節，只比MQA吸收路徑的1152字節多一些，緩存壓力顯著減小；不需要多詞預測頭，模型結構更簡單；但PCA冗余度降為1倍（PCA是一種數據降維技術，冗余度越高，壓縮時信息保留越完整），張量并行上限也降至4路。在H20上同樣能達到22.1萬詞/秒的吞吐量。

關鍵的一點是：無論選擇哪種GQA路徑配置，MQA吸收路徑的計算強度公式中根本不含g這個變量，因此兩種配置在H100上都以完全相同的2.82微秒每步在MQA吸收路徑上運行，不受影響。這正是GQLA設計的精髓所在——GQA路徑的參數選擇完全不會牽連H100上的表現，兩套硬件的優化方案可以獨立調整。

說到底，GQLA做的事情聽起來有點像魔術，但背后的道理其實很樸素：同一批數學參數，根據不同的計算順序，可以既表現得像"把筆記精簡成摘要再直接用"，也表現得像"按小組展開筆記分組處理"，兩種算法算出來的答案一模一樣，只是計算過程中的數據搬運量和運算次數的比例不同。哪種比例更適合當前芯片的脾氣，就用哪種。這種靈活性以前從來沒有人在這個問題上明確提出過，而研究團隊用一個極小的結構改動就實現了。

歸根結底，這項工作的價值在于打破了一個隱含的假設——"為頂級芯片優化的模型架構在平價芯片上只能湊合用"。通過讓同一套模型參數在數學意義上等價地適配不同硬件特性，GQLA為大模型部署的硬件無關性提供了一條實際可行的路徑。對于那些既需要在高端數據中心提供服務、又希望在不同算力級別的硬件上靈活擴展的團隊來說，這個思路值得認真參考。

你可能想知道，這種設計對未來的模型訓練有什么影響。一個有趣的推論是：如果模型從一開始就按照GQLA的結構訓練，那么部署時就可以完全不做任何轉換，直接根據目標硬件選擇路徑。這意味著未來DeepSeek這類機構在設計下一代模型時，可以考慮把GQLA作為MLA的直接替代，從訓練階段就埋下兩路兼容的基因。而對于已有的大量GQA模型（比如LLaMA系列），TransGQLA流程提供了一條相對低成本的改造路徑，不必從零開始。

當然，論文本身也坦誠地指出了幾處待完善的地方。屋頂線分析是一種理論工具，現實中的芯片還有緩存層次結構、指令流水線延遲、多流調度等復雜因素，實際的內核級基準測試還需要在真實H20和H100硬件上完成。TransGQLA的繼續預訓練結果也尚未完成，目前的恢復預測是基于TransMLA的經驗推斷。此外，所有實驗都集中在LLaMA-3-8B這一個模型上，在更大規模（如70B參數）和更多任務類型（長文本檢索、代碼生成、數學推理等）上的驗證還需要后續工作來補充。

如果你對大模型推理優化或硬件適配感興趣，可以通過arXiv:2605.15250找到這篇論文的完整版本，里面包含詳細的數學推導、完整的實驗數據以及符號表。

Q&A

Q1：GQLA和MLA有什么區別，為什么GQLA能適配H20？

A：MLA只有一條"精華摘要"執行路徑，這條路徑的計算與數據搬運比值約為242，適合H100但遠超H20屋脊點37，導致H20的計算單元空轉浪費。GQLA在保留這條路徑的同時，新增了一條GQA路徑，通過按組展開數據讓比值降至約38，恰好命中H20屋脊點，H20吞吐量因此從6.5萬詞/秒提升至22.1萬詞/秒，提升了3.4倍。兩條路徑使用完全相同的訓練參數，輸出也數學等價。

Q2：TransGQLA轉換后模型能力會損失多少，需要多少額外訓練來彌補？

A：以LLaMA-3-8B為例，經過TransGQLA轉換但不做任何額外訓練，六項常識推理基準的平均分從63.84降至54.13，下降約9.7分，同時KV緩存壓縮至原來的28.125%。根據同類方法TransMLA的經驗，用約300億詞元繼續預訓練后，平均分可恢復至63.39，與原始模型僅差0.5分。300億詞元相當于LLaMA-3原始訓練量的約五百分之一，訓練成本相對較低。

Q3：GQLA的兩條路徑切換時需要改變模型參數或重新訓練嗎？

A：不需要。兩條路徑共享完全相同的訓練參數，切換時只需在部署階段對KV緩存做一次性的壓縮或展開操作，之后運行時無需任何改動。MQA吸收路徑復用MLA的現有內核，GQA路徑復用標準GQA內核，均不需要定制開發新的計算內核。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.