網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Kimi新論文：把KVCache玩成新商業(yè)模式了

2026-04-19 18:18:41　來(lái)源: 量子位

北京舉報(bào)

分享至

衡宇發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

把長(zhǎng)上下文做到極致的Kimi又發(fā)新成果！

這一次瞄準(zhǔn)的是大模型推理架構(gòu)跨機(jī)房調(diào)度沉疴。

他們提出了一套全新范式，Prefill-as-a-Service（簡(jiǎn)稱PrFaaS），預(yù)填充即服務(wù)。

其核心突破是讓KV Cache可以跨數(shù)據(jù)中心傳輸，把Prefill和Decode徹底解耦到不同的異構(gòu)集群。

有了PrFaaS，Prefill和Decode之間可以跨越城市、跨地域調(diào)度。

而且，面對(duì)長(zhǎng)文本場(chǎng)景，上下文越長(zhǎng)，它的優(yōu)勢(shì)越明顯。

可以說(shuō)是長(zhǎng)上下文場(chǎng)景天生圣體（doge）！

這項(xiàng)工作由月之暗面和清華大學(xué)清華大學(xué)鄭緯民院士、武永衛(wèi)教授團(tuán)隊(duì)聯(lián)合推出。

在內(nèi)部1T參數(shù)混合注意力模型的實(shí)測(cè)驗(yàn)證下，這套PrFaaS-PD架構(gòu)交出了極具說(shuō)服力的數(shù)據(jù)。

相比傳統(tǒng)同構(gòu)PD部署，吞吐量提升54%，P90延遲大幅降低64%；即便對(duì)比未做智能調(diào)度的樸素異構(gòu)方案，吞吐量依然提升32%。

而跨數(shù)據(jù)中心傳輸僅占用13Gbps帶寬，遠(yuǎn)低于100Gbps的以太網(wǎng)上限，也就是說(shuō)普通商用以太網(wǎng)即可穩(wěn)定承載。

這背后是怎么做到的？

為什么必須跨數(shù)據(jù)中心？

Prefill-Decode分離是大模型推理服務(wù)的行業(yè)標(biāo)配。

但這讓KV Cache傳輸高度依賴RDMA網(wǎng)絡(luò)，牢牢地把Prefill和Decode兩個(gè)階段強(qiáng)行綁定在單一集群內(nèi)。

解綁單飛不了，壓根兒解綁單飛不了。

于是，如果最適合做Prefill的算力芯片和最適合做Decode的帶寬芯片不在一個(gè)機(jī)房，是異地戀的狀態(tài)，就根本沒(méi)辦法一起用。

但強(qiáng)行把異構(gòu)硬件塞到一起，必然導(dǎo)致資源配比完全僵死。

大家都知道流量是波動(dòng)的。配比如果定死，很容易出現(xiàn)一邊忙到飛起，一邊閑成狗的情況出現(xiàn)，算力利用率大打折扣。

導(dǎo)致這個(gè)情況的“病灶”，就是就是KV Cache的帶寬墻。

研究團(tuán)隊(duì)在這項(xiàng)工作中給出了量化數(shù)據(jù)。

以MiniMax-M2.5這款典型的dense GQA架構(gòu)模型為例——

在32K上下文時(shí)，單實(shí)例產(chǎn)生KV Cache的速率達(dá)到60Gbps，而跨數(shù)據(jù)中心以太網(wǎng)帶寬通常只有10-100Gbps，相當(dāng)于后者試圖用家用小水管來(lái)扛消防水帶的流量，根本帶不動(dòng)。

因此，為了保證推理不被卡住、不出現(xiàn)等待延遲，Prefill與Decode 之間必須使用高帶寬、低時(shí)延的RDMA網(wǎng)絡(luò)進(jìn)行通信。

這就是傳統(tǒng)PD分離架構(gòu)只能被限制在RDMA域內(nèi)的根本原因。

不過(guò)，新一代混合注意力架構(gòu)帶來(lái)了轉(zhuǎn)機(jī)。

近期，Kimi Linear、Qwen 3.5、MiMo-V2-Flash、Ring-2.5等模型齊刷刷用上了線性注意力+全注意力混合架構(gòu)。

在這種混合架構(gòu)下，線性層只產(chǎn)出固定大小的循環(huán)狀態(tài)，不隨上下文變長(zhǎng)而膨脹；只有全注意力層才會(huì)生成和長(zhǎng)度相關(guān)的KV Cache。

它帶來(lái)了喜人的效果。在32K上下文下：

MiMo-V2-Flash的KV吞吐量?jī)H4.66Gbps，比起MiniMax-M2.5來(lái)降了13倍；
Qwen3.5-397B的8.25Gbps相比同規(guī)dense模型的33.35Gbps，降低4倍；
Ring-2.5-1T的MLA壓縮疊加7:1混合比例，整體KV內(nèi)存節(jié)省約36倍。

“線性注意力+全注意力”混合架構(gòu)把KV吞吐量從RDMA級(jí)別降到了以太網(wǎng)級(jí)別。

跨數(shù)據(jù)中心做PD分離，終于從不可能變成了可能。

推出破局方案“PrFaaS ”

光有模型架構(gòu)還不夠，想真正落地跨數(shù)據(jù)中心推理，還需要一套能把 “有可能” 變成 “能用” 的系統(tǒng)架構(gòu)。

針對(duì)這一點(diǎn)，清華聯(lián)合月之暗面團(tuán)隊(duì)推出了PrFaas。

PrFaaS即Prefill-as-a-Service，翻譯過(guò)來(lái)叫預(yù)填充即服務(wù)。

它是一種跨數(shù)據(jù)中心的大模型推理服務(wù)架構(gòu)，核心是將長(zhǎng)上下文請(qǐng)求的Prefill計(jì)算，選擇性卸載到獨(dú)立的、算力密集型的專用集群完成，再把生成的KV Cache通過(guò)普通以太網(wǎng)傳輸?shù)奖镜豍D集群執(zhí)行Decode。

具體來(lái)說(shuō)，系統(tǒng)會(huì)設(shè)一個(gè)動(dòng)態(tài)長(zhǎng)度閾值t。

如果是短請(qǐng)求（未緩存長(zhǎng)度≤t），就老老實(shí)實(shí)留在本地PD集群跑完整個(gè)流程。

只有長(zhǎng)請(qǐng)求（未緩存長(zhǎng)度 > t）才會(huì)被送到專門的PrFaaS集群做Prefill，生成的KV Cache再通過(guò)以太網(wǎng)傳回本地做 Decode。

值得注意的是，閾值t會(huì)跟著實(shí)時(shí)帶寬、請(qǐng)求長(zhǎng)度分布自動(dòng)調(diào)整。

整套架構(gòu)由三大子系統(tǒng)緊密配合。

第一，計(jì)算層。

PrFaaS集群上，H200這類高端芯片，只啃長(zhǎng)上下文Prefill硬骨頭；而本地PD集群去用H20這類帶寬優(yōu)化芯片，專心做Decode、處理短請(qǐng)求。

術(shù)業(yè)有專攻，兩類硬件各自獨(dú)立擴(kuò)容，不再?gòu)?qiáng)行配對(duì)。

第二，網(wǎng)絡(luò)層。

集群內(nèi)部用RDMA保證低延遲，跨數(shù)據(jù)中心就用VPC或?qū)＞€，走通用以太網(wǎng)傳KV Cache，以此大幅降低部署難度和成本。

研究人員表示實(shí)測(cè)環(huán)境是100Gbps VPC。這雖然遠(yuǎn)低于RDMA的800Gbps，但足夠用了。

第三，存儲(chǔ)層，這也是最有意思的子系統(tǒng)。

團(tuán)隊(duì)設(shè)計(jì)了一個(gè)混合前綴緩存池，把KV Cache分成兩類。

一類是prefix-cache塊，另一類是transfer-cache塊。

prefix-cache塊在集群內(nèi)復(fù)用，必須塊對(duì)齊才能命中；transfer-cache塊則專門用于跨集群傳輸，傳完即棄，不占用長(zhǎng)期存儲(chǔ)。

為什么這樣設(shè)計(jì)？

因?yàn)榛旌夏Ｐ偷腒V Cache是heterogeneous的。

線性層的recurrent state是request-level，大小固定，必須完全匹配才能復(fù)用；全注意力層的KV Cache是block-level，支持部分前綴匹配。

而統(tǒng)一池化管理，既能高效復(fù)用本地緩存，又能靈活支持跨集群傳輸。

此外，為了穩(wěn)住生產(chǎn)環(huán)境，PrFaaS還設(shè)計(jì)了雙時(shí)間尺度調(diào)度算法。

簡(jiǎn)單理解一下，就是短期毫秒級(jí)做帶寬+緩存感知路由，長(zhǎng)期分鐘級(jí)做流量驅(qū)動(dòng)的資源重分配。

短期調(diào)度監(jiān)控PrFaaS出口利用率，接近閾值時(shí)提高t、減少跨中心流量。

對(duì)于帶前綴緩存的請(qǐng)求，調(diào)度器會(huì)權(quán)衡緩存命中位置和帶寬可用性。如果帶寬緊張，優(yōu)先用本地緩存；如果帶寬充裕，可以從遠(yuǎn)程集群拉緩存來(lái)減少重復(fù)計(jì)算。

長(zhǎng)期調(diào)度觀察各階段的隊(duì)列深度和利用率。

當(dāng)Prefill成為瓶頸時(shí)，把PD集群的節(jié)點(diǎn)從Decode角色轉(zhuǎn)為Prefill角色；當(dāng)Decode成為瓶頸時(shí)，反向調(diào)整。

這種動(dòng)態(tài)重分配讓系統(tǒng)能適應(yīng)流量模式的緩慢變化。

理論可行，同時(shí)工程可用

為了驗(yàn)證跨數(shù)據(jù)中心 KV Cache傳輸與PrFaaS架構(gòu)的真實(shí)落地能力，研究團(tuán)隊(duì)基于生產(chǎn)級(jí)配置開展了嚴(yán)格的對(duì)照實(shí)驗(yàn)，完整還原了異構(gòu)硬件、跨域網(wǎng)絡(luò)與真實(shí)長(zhǎng)上下文流量的組合場(chǎng)景，讓方案從架構(gòu)設(shè)想變?yōu)榭闪炕⒖蓮?fù)用的工程實(shí)踐。

實(shí)驗(yàn)選用團(tuán)隊(duì)內(nèi)部自研的1T參數(shù)混合注意力架構(gòu)模型，整體設(shè)計(jì)對(duì)齊Kimi Linear架構(gòu)，采用線性注意力層與全注意力層7:1的混合配比。

此外，在保持模型能力的同時(shí)實(shí)現(xiàn)KV Cache的高效壓縮，為跨數(shù)據(jù)中心傳輸?shù)於ɑA(chǔ)。

硬件層面，團(tuán)隊(duì)采用了典型異構(gòu)組合。

專門負(fù)責(zé)長(zhǎng)上下文Prefill的PrFaaS集群配備32張H200，憑借更強(qiáng)算力吞吐處理高負(fù)載計(jì)算；本地PD集群配備64張H20 GPU，面向Decode階段優(yōu)化內(nèi)存帶寬，兼顧短請(qǐng)求Prefill與全流程推理。

網(wǎng)絡(luò)層面，團(tuán)隊(duì)采用跨數(shù)據(jù)中心通用方案，通過(guò)VPC對(duì)等連接提供約100Gbps的跨集群帶寬，完全貼合主流云廠商與多數(shù)據(jù)中心部署環(huán)境。

實(shí)驗(yàn)workload采用截?cái)鄬?duì)數(shù)正態(tài)分布的請(qǐng)求長(zhǎng)度，均值約27K tokens，高度貼近線上長(zhǎng)上下文服務(wù)的真實(shí)流量特征。

實(shí)驗(yàn)結(jié)果證明了PrFaaS-PD架構(gòu)的工程有效性。

在核心性能指標(biāo)上，相比同等硬件規(guī)模的同構(gòu)PD集群，PrFaaS-PD架構(gòu)將服務(wù)吞吐量提升54%；相比未做智能調(diào)度的簡(jiǎn)單異構(gòu)部署，吞吐量仍有32%的提升。

在端到端延遲上，PrFaaS-PD架構(gòu)帶來(lái)的優(yōu)化效果更為顯著，P90 TTFT（首詞時(shí)延）降低幅度達(dá)64%，長(zhǎng)請(qǐng)求不再與短請(qǐng)求爭(zhēng)搶本地Prefill資源，排隊(duì)阻塞與計(jì)算擁堵問(wèn)題大幅緩解。

更關(guān)鍵的是工程可行性指標(biāo)。

PrFaaS集群的平均出口帶寬僅13Gbps，在100Gbps的跨集群鏈路中占比僅13%，留有充足的帶寬冗余，完全不會(huì)出現(xiàn)擁塞與鏈路搶占。

實(shí)驗(yàn)結(jié)果證實(shí)，在混合模型與PrFaaS調(diào)度的協(xié)同下，KV Cache傳輸可以不再依賴 RDMA，普通商用以太網(wǎng)即可穩(wěn)定支撐。

論文團(tuán)隊(duì)成員介紹

這項(xiàng)研究由月之暗面與清華大學(xué)聯(lián)合完成。

作者包括Ruoyu Qin、Weiran He、Yaoyu Wang、Zheming Li、Xinran Xu、Yongwei Wu、Weimin Zheng、Mingxing Zhang（通訊作者）。

其中，研究團(tuán)隊(duì)成員中來(lái)自月之暗面的，有Ruoyu Qin、Weiran He、Yaoyu Wang、Zheming Li、Xinran Xu五位。

一作Ruoyu Qin（秦若愚），是清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系MADSys實(shí)驗(yàn)室在讀博士生，師從本文通訊作者、清華大學(xué)計(jì)算機(jī)系副教授Mingxing Zhang（章明星），后者長(zhǎng)期面向KV Cache架構(gòu)與分布式推理。

同時(shí)，Qin也在月之暗面工作，還是Mooncake分布式推理系統(tǒng)的一作。

月之暗面工程副總裁Xinran Xu（許欣然）也在作者名單之列。

量子位發(fā)現(xiàn)，作者名單中月之暗面的五位，同樣也是Mooncake架構(gòu)的核心貢獻(xiàn)者。

除上述的教授章明星外，研究團(tuán)隊(duì)中來(lái)自清華大學(xué)的作者還有Yongwei Wu和Weimin Zheng。

Weimin Zheng（鄭緯民），中國(guó)工程院院士，清華大學(xué)計(jì)算機(jī)系教授，長(zhǎng)期從事并行/分布處理、大規(guī)模數(shù)據(jù)存儲(chǔ)系統(tǒng)領(lǐng)域的科研與教學(xué)工作。

Yongwei Wu（武永衛(wèi)）是清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系副主任、教授、博士生導(dǎo)師，此外還擔(dān)任AI Infra公司趨境科技的首席科學(xué)家。

此前，月之暗面與清華大學(xué)MADSys實(shí)驗(yàn)室聯(lián)合主導(dǎo)研發(fā)并開源了Mooncake項(xiàng)目，趨境科技是該項(xiàng)目核心共建單位與深度貢獻(xiàn)者。

參考鏈接：
[1]
https://arxiv.org/abs/2604.15039
[2]
https://madsys.cs.tsinghua.edu.cn/people/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.