<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      月之暗面(Moonshot AI)和清華大學最新研究:推理吞吐量暴漲54%

      0
      分享至

      緊跟Kimi K2.6,推一篇有點腦洞的論文,來自月之暗面(Moonshot AI)和清華大學的最新聯合研究

      一句話說清楚:這論文在搞什么?

      把 Prefill(預填充)變成一種跨數據中心的云服務。

      聽起來有點抽象?我換個說法:以前大模型推理的 Prefill 和 Decode 兩個階段必須待在同一個機房里,因為中間傳輸的 KVCache 太大了,跨機房根本搬不動

      而這篇論文說,新一代混合注意力模型的 KVCache 縮小了十幾倍甚至幾十倍,我們可以把 Prefill 拆出去、放到另一個機房的高算力集群上跑,然后用普通以太網把 KVCache 傳回來做 Decode

      這個架構叫做Prefill-as-a-Service(PrfaaS),實測吞吐量比同構 PD 部署高 54%,比樸素異構方案高 32%


      地址 arxiv.org/abs/2604.15039 為什么要搞跨數據中心?

      先說背景

      PD 分離(Prefill-Decode Disaggregation)已經是大規模 LLM 推理的標準范式了

      Moonshot AI 自家的 Mooncake 系統就是這個方向的先行者,后來跟 vLLM、SGLang、Dynamo 都做了深度合作,把 KVCache 當成 vip 來管理

      PD 分離的原理很簡單:Prefill 是計算密集型的,Decode 是內存帶寬密集型的,兩者對硬件的需求完全不同

      理論上,我們應該用算力強的芯片專門跑 Prefill,用帶寬大的芯片專門跑 Decode——這就是所謂的異構推理

      但現實很骨感,問題出在 KVCache 傳輸上

      下圖展示了傳統單集群 PD 推理(左)和 PrfaaS 跨數據中心推理(右)的對比:


      傳統PD架構 vs PrfaaS架構

      在傳統的 Dense Attention 模型里,一個 32K token 的請求,單個 MiniMax-M2.5 實例產生的 KVCache 傳輸速率高達約 60 Gbps。這什么概念?一臺機器的跨數據中心以太網帶寬都扛不住。所以 Prefill 和 Decode 必須共享同一個高帶寬 RDMA 網絡,被死死綁在同一個機房里

      下圖展示了 MiniMax-M2.5 在不同輸入長度下的 KV 吞吐量,可以看到帶寬需求有多恐怖:


      MiniMax-M2.5 KV吞吐量

      這就導致了一個尷尬局面:你想搞異構推理?可以,但你得把不同類型的芯片塞進同一個 RDMA 集群里。這在運維上極其僵化——你連 Prefill 和 Decode 的硬件比例都沒法靈活調整

      混合注意力模型改變了游戲規則

      這篇論文指出了一個關鍵的轉折點:新一代的混合注意力架構,正在從根本上改變 KVCache 的大小

      什么是混合注意力?簡單說就是在模型里只保留少量的全注意力層(Full Attention),大部分層用線性注意力(Linear Attention)或滑動窗口注意力(SWA)替代。這些層產生的 KVCache 大小是固定的,不會隨輸入長度線性增長

      論文里列出了一組最新的混合注意力模型:

      模型

      架構比例

      KV 吞吐量@32K

      MiniMax-M2.5(Dense)

      全 GQA

      ~60 Gbps

      Qwen3-235B(Dense)

      全 MLA

      ~33 Gbps

      Qwen3.5-397B

      3:1 線性:全注意力

      ~8 GbpsMiMo-V2-Flash

      5:1 SWA:全注意力

      ~4.7 GbpsRing-2.5-1T

      7:1 線性:全注意力

      更低

      看到了嗎?從 60 Gbps 直接降到 4.7 Gbps,降了 13 倍!Ring-2.5-1T 更是靠 MLA + 7:1 混合比例實現了約36 倍的 KV 內存節省。

      這個數量級的變化意味著:KVCache 終于可以用普通以太網跨數據中心傳了。

      但是!光靠模型架構還不夠

      論文強調得很清楚:實際工作負載是突發的,請求長度嚴重不均,前綴緩存分布不平衡,跨集群帶寬還會波動。如果傻乎乎地把所有 Prefill 都扔到遠端集群,照樣會擁塞、排隊、利用率低下

      模型讓跨數據中心傳輸變得"可能",但要讓它"實用",還需要系統層面的精心設計

      PrfaaS 的核心設計

      PrfaaS 的架構相當優雅,核心思想是 **"選擇性卸載"**——只把值得的請求送到遠端。

      下圖是 PrfaaS-PD 的部署拓撲:


      PrfaaS-PD 架構部署圖

      整個系統分為三個子系統:

      1. 計算子系統

      • PrfaaS 集群:高算力硬件(如 H200),專門處理長上下文 Prefill

      • 本地 PD 集群:常規硬件(如 H20),負責短請求的 Prefill + 所有請求的 Decode

      2. 網絡子系統

      • 集群內部:RDMA 高帶寬互聯

      • 集群之間:普通以太網(VPC 對等連接或專線)

      3. 存儲子系統:混合前綴緩存池

      這個設計很巧妙?;旌献⒁饬δP屠镉袃煞N不同的 KVCache:

      • 線性注意力層的遞歸狀態:大小固定,只能精確匹配復用

      • 全注意力層的 KVCache:隨長度線性增長,支持前綴部分匹配

      混合前綴緩存池架構

      PrfaaS 把這兩類 KVCache 分組管理,但共享底層的內存池。緩存塊分為兩類:前綴緩存塊(可跨請求復用)和傳輸緩存塊(傳完即丟)。全局 KVCache 管理器維護所有集群的緩存元數據,調度器據此決定請求路由。

      關鍵調度策略:雙時間尺度調度

      這是論文最硬核的部分。PrfaaS 的調度器分兩個層面運作:

      短期調度:帶寬感知 + 緩存感知路由

      設一個長度閾值t,請求的增量 Prefill 長度(去掉緩存命中的前綴后)超過t的,發到 PrfaaS 集群;不超過的,留在本地 PD 集群處理。

      為什么這樣做?因為短請求的 Prefill 通常是內存瓶頸(不是計算瓶頸),送到高算力集群反而浪費;而且短請求的 KV 吞吐量相對更高,會更快吃滿跨集群帶寬。

      調度器還會實時監控 PrfaaS 集群的出口鏈路利用率和隊列深度:

      • 帶寬緊張時:各集群的前綴緩存獨立評估,盡量減少跨集群傳輸

      • 帶寬充裕時:全局最優緩存匹配,甚至允許跨集群緩存遷移

      長期調度:流量驅動的資源再分配

      本地 PD 集群內的 Prefill/Decode 實例比例可以動態調整。當流量模式變化時,調度器會重新計算最優的Np/Nd比例和路由閾值t。

      實驗結果:54% 吞吐量提升

      論文用內部一個 1T 參數的混合架構模型(基于 Kimi Linear 架構,3:1 KDA:MLA 層比例)做了案例研究。

      硬件配置:

      • PrfaaS 集群:32 個 H200 GPU(高算力,專跑長上下文 Prefill)

      • 本地 PD 集群:64 個 H20 GPU(常規 PD 模式,800 Gbps RDMA)

      • 跨集群帶寬:約 100 Gbps VPC 網絡

      • 對比基線:96 個 H20 GPU 的同構 PD 集群

      工作負載:

      • 輸入長度:截斷對數正態分布,均值約 27K tokens,范圍 128~128K

      • 輸出長度:固定 1024 tokens

      • SLO:40 tokens/s

      下圖展示了最優參數搜索過程——找到最佳的 Prefill/Decode 分配比和路由閾值:


      參數搜索過程路由閾值搜索

      最優配置:

      • 路由閾值 t = 19.4K tokens

      • 本地 PD 集群:3 個 Prefill 實例 + 5 個 Decode 實例

      • 約 50% 的請求(長請求)被卸載到 PrfaaS 集群

      核心結果:

      指標

      PrfaaS-PD

      同構 PD

      樸素異構 PD

      吞吐量提升

      基準

      低 54%

      低 32%

      P90 TTFT

      基準

      高 64%

      跨集群帶寬消耗

      13 Gbps

      不適用

      更高

      最讓我驚艷的數字:PrfaaS 集群的平均出口帶寬僅 13 Gbps,只占 100 Gbps 以太網鏈路的 13%。這說明混合注意力模型的 KVCache 跨數據中心傳輸不僅可行,而且還有巨大的余量!

      而樸素異構方案(不做選擇性卸載,所有 Prefill 都扔到 H200)只提升了 16% 吞吐量,被 PrfaaS-PD 的 54% 遠遠甩在身后。這充分說明了調度策略的重要性——光有異構硬件不夠,得有聰明的調度。

      對未來的影響

      這篇論文背后的信號非常明確:

      1. 模型架構正在重塑推理系統設計

      Kimi Linear、Qwen3.5、MiMo-V2-Flash、Ring-2.5-1T……新一代模型幾乎都在走混合注意力路線。KVCache 的急劇縮小,讓跨數據中心推理從"不可能"變成了"值得優化"。

      2. 硬件專用化趨勢加速

      NVIDIA 的 Rubin CPX 專攻 Prefill 吞吐,Groq 的 LPU 專攻 Decode 帶寬,Taalas HC1 主打超高內存帶寬。PrfaaS 架構讓這些異構硬件可以各自獨立部署、獨立擴縮容,不用硬塞進同一個 RDMA 集群。

      3. 大規模部署的成本優化空間巨大

      論文指出,即使是萬卡級別的部署,PrfaaS 集群的跨數據中心帶寬需求也就在 Tbps 量級,現代數據中心完全能承載。這意味著企業可以在算力便宜的地方部署 Prefill 集群,在離用戶近的地方部署 Decode 集群。

      總結

      這篇論文的核心洞察其實很簡單:下一代模型的 KVCache 夠小了,小到可以跨數據中心傳輸了。但光"夠小"還不行,還需要選擇性卸載、帶寬感知調度、緩存感知路由這一套系統設計配合。模型架構和系統設計雙管齊下,才能讓跨數據中心的異構推理真正落地。

      作為 Mooncake 的延續之作,這篇論文繼續體現了 Moonshot AI 在推理系統領域的深厚積累。而且論文明確提到了跟 vLLM、SGLang 的合作,說明這些想法很可能會逐步落地到開源推理框架中。

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      確定!正式官宣加盟,空降達拉斯啊,弗拉格終于有救了?

      確定!正式官宣加盟,空降達拉斯啊,弗拉格終于有救了?

      球童無忌
      2026-05-05 13:40:30
      西蒙尼:如果我們被淘汰,那說明對手配得上晉級

      西蒙尼:如果我們被淘汰,那說明對手配得上晉級

      懂球帝
      2026-05-06 06:37:12
      我國又一款摩托車奪冠!春風動力在世界摩托車大獎賽上大幅度領先

      我國又一款摩托車奪冠!春風動力在世界摩托車大獎賽上大幅度領先

      科普大世界
      2026-05-05 21:57:22
      虧損超1.5億!《寒戰1994》票房崩塌,我感慨:這塊金字招牌砸了

      虧損超1.5億!《寒戰1994》票房崩塌,我感慨:這塊金字招牌砸了

      靠譜電影君
      2026-05-05 10:40:44
      驚呼繩子“沒拴緊沒拴緊”,女子景區“探險”時高空墜落;女子是否搶救過來,四川華鎣相關部門稱會發通報

      驚呼繩子“沒拴緊沒拴緊”,女子景區“探險”時高空墜落;女子是否搶救過來,四川華鎣相關部門稱會發通報

      大風新聞
      2026-05-05 17:39:06
      上海偶遇Angelababy!素顏帶小海綿抓娃娃,現場無人打擾太暖心

      上海偶遇Angelababy!素顏帶小海綿抓娃娃,現場無人打擾太暖心

      觀魚聽雨
      2026-05-05 23:43:22
      河北一戶人家,因“月季花小院”走紅,太養眼,猶如人間仙境

      河北一戶人家,因“月季花小院”走紅,太養眼,猶如人間仙境

      三農老歷
      2026-05-05 00:08:43
      摩根:我的歷史最佳11人無梅西很正常,他甚至不是阿根廷的歷史最佳

      摩根:我的歷史最佳11人無梅西很正常,他甚至不是阿根廷的歷史最佳

      懂球帝
      2026-05-05 21:57:05
      吳宜澤世錦賽奪冠,同為00后的顏丙濤社媒送祝賀,解禁時間已確定

      吳宜澤世錦賽奪冠,同為00后的顏丙濤社媒送祝賀,解禁時間已確定

      小火箭愛體育
      2026-05-05 19:46:07
      米切爾和詹姆斯·哈登為何相信騎士隊,已準備好爆冷擊敗活塞隊

      米切爾和詹姆斯·哈登為何相信騎士隊,已準備好爆冷擊敗活塞隊

      好火子
      2026-05-06 05:32:12
      豆包突然要收費,其實是給所有普通人提了個醒!

      豆包突然要收費,其實是給所有普通人提了個醒!

      秋葉PPT
      2026-05-05 08:22:06
      套現約455億,李嘉誠又賣了

      套現約455億,李嘉誠又賣了

      第一財經資訊
      2026-05-05 23:54:56
      最便宜的豐田小車來了!配1.0L發動機油耗2.8L,不足4萬太香了

      最便宜的豐田小車來了!配1.0L發動機油耗2.8L,不足4萬太香了

      娛樂圈的筆娛君
      2026-05-05 21:17:39
      我家樓下有個少婦,離婚有一年了,長得非常漂亮,我想把她追到手

      我家樓下有個少婦,離婚有一年了,長得非常漂亮,我想把她追到手

      那年秋天
      2026-05-05 18:00:07
      大快人心!白洋淀五一徹底涼涼,靠宰客斂財的景區終于迎來了報應

      大快人心!白洋淀五一徹底涼涼,靠宰客斂財的景區終于迎來了報應

      社會日日鮮
      2026-05-05 20:11:56
      特斯拉 Model Y L 續航、能耗太強了,表顯跑出了 1:1

      特斯拉 Model Y L 續航、能耗太強了,表顯跑出了 1:1

      新浪財經
      2026-05-05 17:57:05
      蘭州飯館掛錢學森袁隆平照片,被投訴,老板反手報警:崇拜,不摘

      蘭州飯館掛錢學森袁隆平照片,被投訴,老板反手報警:崇拜,不摘

      觀察鑒娛
      2026-05-05 10:24:44
      媽媽帶3歲兒子送外賣不幸遭遇車禍,孩子滿臉傷痕不哭不鬧一直守在身旁:這一刻他就是媽媽的“守護天使”

      媽媽帶3歲兒子送外賣不幸遭遇車禍,孩子滿臉傷痕不哭不鬧一直守在身旁:這一刻他就是媽媽的“守護天使”

      大象新聞
      2026-05-05 20:46:37
      阿森納通往歐冠決賽之路:11勝3平僅丟6球,勝拜仁國米馬競

      阿森納通往歐冠決賽之路:11勝3平僅丟6球,勝拜仁國米馬競

      懂球帝
      2026-05-06 05:24:44
      特朗普:已賺回出兵成本的37倍!美國已經賣了1億桶委內瑞拉石油,未來一個月還有1億桶,他此前呼吁中國購買委石油,中方:其他國家無權指手畫腳

      特朗普:已賺回出兵成本的37倍!美國已經賣了1億桶委內瑞拉石油,未來一個月還有1億桶,他此前呼吁中國購買委石油,中方:其他國家無權指手畫腳

      每日經濟新聞
      2026-05-03 09:07:16
      2026-05-06 06:51:00
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3372文章數 11146關注度
      往期回顧 全部

      科技要聞

      傳蘋果考慮讓英特爾、三星代工設備處理器

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      體育要聞

      全世界都等著看他笑話,他帶國米拿下冠軍

      娛樂要聞

      內娛真情誼!楊紫為謝娜演唱會送花籃

      財經要聞

      瀏陽煙花往事

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態度原創

      房產
      藝術
      時尚
      數碼
      教育

      房產要聞

      五一樓市徹底明牌!塔尖人群都在重倉凱旋新世界

      藝術要聞

      這些勞動圖畫最美!

      衣服不用準備太多,找到一些實用的單品才最重要,百搭又有性價比

      數碼要聞

      微星“MAG 276QRDY54”27英寸顯示器發售,6299元

      教育要聞

      富人才不會把女兒養這么胖!家長曬女兒喝60元礦泉水,被網友群嘲

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲激情av| 国产欧美日韩综合在线第一| 久久久毛片| 国产又粗又猛又大爽又黄老大爷| 亚洲日本中文字幕天天更新| 亚洲一区二区三区免费不卡| 天天视频入口| 久久永久视频| 国产一线视频在线观看高清| 97在线公开视频| 少妇高潮惨叫久久久久久| 国产精品a无线| 国产精品区在线和狗狗| 午夜福利精品导航凹凸| 亚洲精品在线二区三区| 亚洲小视频| 欧美亚洲国产成人精品播放| 欧美一级日韩不卡播放免费| av无码电影在线看免费| 一级片黄色一区二区三区| 国产黄a三级三级| 久久精品国产精品青草| 日日撸夜夜撸| 又大又粗又黄的网站不卡无码 | 午夜精品久久久久久久99老熟妇| 国产呻吟av| 国产成人精品av| 国产拍揄自揄免费观看| 国产成人精品午夜二三区波多野 | 中文字幕精品亚洲人成在线| 亚洲综合精品一区二区三区| 亚洲欧洲日韩国内精品| 欧美在线观看a| 国产一线视频在线观看高清| 午夜A片| 伊人久久大香线蕉av网| 国产亚洲第一精品| 99久久综合精品国产成人一区二区| 中文原创av| 在线高清免费不卡全码| 久久精品韩国日韩精品|