<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      獨家|Kimi聯合清華提出“算力預制菜”技術,AI詞元吞吐提高54%

      0
      分享至



      “算力預制菜”,這不是我提的,而是Kimi解析的PrfaaS技術總結。



      就在國產Kimi K2.6模型即將發布的前夕,月之暗面Kimi聯合清華放出關鍵技術突破。

      4月17日,Kimi與清華大學日前聯合推出全新跨數據中心架構PrfaaS(預填充即服務),直擊大模型長上下文算力瓶頸。

      PrfaaS架構把大模型長文本預填充單獨交給專屬算力集群處理,算出的KVCache通過普通網絡傳給解碼集群用;再搭配智能調度與緩存優化,不用高端低延遲網絡,就能讓預填充、解碼兩大模塊分開靈活擴容,降本又好部署。

      實測基于1T混合參數模型,這套增強異構方案僅占用少量跨機房帶寬,相較傳統同構部署、基礎異構方案,吞吐量分別提升54%、32%,大幅拉高超大模型集群吞吐上限。

      4月17日,該研究成果以《Prefill-as-a-Service:KVCache of Next-Generation Models Could Go Cross-Datacenter》為題發表在Arxiv上。

      本論文通訊作者為清華大學副教授、開源項目Mooncake發起人、開源項目KTransformers發起人章明星。

      核心作者包括中國工程院院士、清華大學計算機系教授鄭緯民,清華大學教授武永衛,月之暗面工程副總裁許欣然、月之暗面秦若愚等人。

      需要提及一點的是,這也是鄭緯民院士最自豪的研究成果之一——幾乎每次演講都會提到Mooncake。



      論文:https://arxiv.org/abs/2604.15039v1

      對于Kimi K2.5背后技術,詳見前文:楊植麟GTC大會演講全文:Kimi的三大核心技術將顛覆AI大模型的未來

      為什么PrfaaS優于傳統KVCache?

      這次誕生出兩個新的AI名詞:KVCache(鍵值緩存)、PrfaaS。

      通俗點說,KVCache就是使用AI回答問題時存起來的“歷史聊天記憶+計算草稿”,避免重復干活,大幅提速、省算力。

      實際上,目前在AI推理階段,大語言模型主要分PD兩步分離式架構輸出:

      1、預填充(Prefill)。你發完問題,AI一次性把你整段話、上下文全部算一遍,算出一堆關鍵數據,打包存下來,這堆存下來的數據就是KVCache。

      2、解碼生成(Decode逐字輸出)。后面慢慢打字的時候,直接調用存好的KVCache緩存,只算最新一個字,不用重復算前面所有內容。

      許欣然曾解釋稱:

      通常情況下,一臺機器上的GPU既用于“備菜”(預填充,即思考過程),也用于“炒菜”(解碼,即逐字逐句輸出),這兩個階段交替進行。假設今天只有一個請求,就是顯卡可以順利地進行“思考”和“輸出”,過程相對簡單。但是隨著用戶增多,傳統想法是需要更多人使用同一張卡進行服務,因此當顯卡在“炒菜”的過程中,如果有新請求進來,它就必須立即開始“備菜”。在Kimi的表現上可能是回答一半卡住,等一會兒再繼續,這樣的用戶體驗很差。

      通過分離式架構,我們將“備菜”和“炒菜”階段獨立開來。這樣每個階段都有專人負責,如果“炒菜”的資源不足,就增加“炒菜”的資源,“備菜”資源不足就增加“備菜”的資源,每個任務完成后,轉交至下一階段。這樣不管用戶有多少,只要對話開始,就不會出現卡頓問題。我們可以放心地將壓力加載,GPU始終保持滿負荷運行。一方面降低了成本,另一方面也提升了用戶體驗,實現了雙贏。

      當前,預填充-解碼 (PD) 解耦已成為大規模 LLM 服務的標準架構,但實際上其部署邊界仍然取決于鍵值緩存 (KVCache) 的傳輸。

      而在傳統的密集注意力模型中,預填充會產生巨大的KVCache流量,使得預填充和解碼在單個高帶寬網絡域內緊密耦合,從而限制了異構部署和資源彈性。

      近年來,包括DeepSeek在內的全新混合注意力架構,大幅減小了KVCache的大小,使得跨集群KVCache傳輸變得越來越可行。

      然而,僅僅減小KVCache的大小并不能使異構跨數據中心的PD服務真正實現:實際工作負載仍然具有突發性,請求長度高度不均勻,前綴緩存分布不均,并且集群間帶寬波動較大。

      因此,完全將預填充外部化的簡單設計仍然可能面臨擁塞、隊列不穩定和利用率低等問題。



      論文中以MiniMax 2.5為例。

      在標準 Transformer 式注意力中,KVCache 隨上下文長度線性增長,可能達到數十GB。具有GQA的代表性密集模型 MiniMax-M2.5 在不同輸入長度下的 KV 吞吐量,瓶頸非常明顯:對于一個32K tokens的請求,單個MiniMax-M2.5實例產生的KVCache約為60 Gbps,所需的出站帶寬遠遠超過典型機器跨數據中心以太網的容量。

      這正是為什么傳統的PD分離仍然在操作上與緊密集成的網絡域綁定在一起的原因。網絡預算如此之大,以至于在更松散的互連上移動預填充和解碼,更不用說跨數據中心了,根本不可行。



      因此,在AI算力工程階段,Kimi和清華大學團隊基于全新的跨數據中心服務架構“預填充即服務”(Prefill-as-a-Service,簡稱PrfaaS),解決此問題。

      那么,PrfaaS如何解決傳統PD分離架構的異構部署瓶頸?我根據論文,總結了以下三點:

      1、混合注意力模型減少KVCache規模;

      2、選擇性卸載長上下文請求問題,使僅50%的長請求占用帶寬,且混合模型KV吞吐量降低13倍,最終跨數據中心帶寬需求僅為13Gbps

      3、帶寬感知調度與緩存感知路由,使跨數據中心帶寬需求降至百Gbps量級。

      具體而言,根據論文,PrfaaS-PD系統包含三個角色:PrfaaS預填充、PD-P(PD集群內的預填充節點)和PD-D(PD集群內的解碼節點)。

      該架構選擇性地將長上下文預填充任務卸載到獨立的、計算密集型的預填充集群,并通過通用以太網將生成的鍵值緩存(KVCache)傳輸到本地的預處理集群進行解碼。

      PrfaaS并非僅僅減少KVCache容量,而是將模型端的鍵值效率與系統端的選擇性卸載、帶寬感知調度和緩存感知請求放置相結合。這種設計無需異構加速器共享相同的低延遲RDMA網絡,從而實現了在耦合集群間獨立擴展預填充和解碼容量。

      論文還通過一個案例研究來驗證這一思路,該案例使用了內部的1T參數混合模型——也就是Kimi K2.5。



      遵循Kimi Linear架構,該模型在獨立的PrfaaS集群用于長上下文預填充、以及傳統PD集群用于解碼和短上下文預填充所構成的異構部署中,系統的服務吞吐量分別比同構PD基準和拓撲異構基準高出54%和32%,同時每臺機器僅消耗適度的跨數據中心帶寬。

      這些結果表明,KVCache高效的模型架構是必要的,但并不足以實現跨數據中心的異構服務。真正使部署可行的是模型端KVCache的精簡與系統端選擇性卸載及帶寬感知調度的結合。

      二者共同作用,將跨數據中心PD分離從一種頗具吸引力的想法轉變為一種切實可行的服務架構。

      論文指出,盡管異構PrfaaS-PD配置中采用32個H200 GPU,本地PD采用64個H20 GPU,但僅作為具有代表性的硬件組合,并非唯一可行的搭配。更具成本效益的預填充專用芯片將進一步降低生產環境中的部署成本。

      換句話說,這套架構也用了國產或專用AI芯片進行部署測試。

      論文結論中表示:“為應對異構分散推理的實際部署挑戰,我們提出了跨數據中心KVCache的概念,將分散式服務從單一同構集群擴展到跨集群的異構部署。在此基礎上,我們設計了PrfaaS-PD分散架構,通過利用商品以太網連接的異構PrfaaS集群,以低成本提升系統服務吞吐量。我們設想,跨數據中心KVCache范式將與下一代模型、硬件和網絡協同演進,從而實現大規模下高效大模型服務。”

      論文作者介紹&Kimi新模型曝光



      本論文通訊作者、清華大學教授、KVCache.AI團隊負責人章明星,本科畢業于北京郵電大學,博士畢業于清華大學,師從清華大學教授武永衛,曾擔任深信服首席算法技術專家和創新研究院院長,并在系統領域發表數十篇頂級會議論文。

      清華大學KVCache.AI團隊發布了開源項目KTransformers中,僅用一張24GB的消費級顯卡就成功驅動了具有236B參數量的DeepSeek V2大模型,實現了14 Tokens/秒的生成速度——這意味著,2千億大模型的使用門檻降低到4萬以內。

      天眼查顯示,清華大學計算機科學與技術系教授武永衛聯合發起成立的AI infra公司趨境科技中,章明星持股2.6783%。



      鄭緯民院士。現任中國工程院院士、九源智能計算系統生態聯合體理事長、清華大學計算機系教授。

      鄭緯民院士1970年畢業于清華大學自動控制系,1982年獲清華大學計算機科學與技術專業碩士學位,1985年至1986年在美國紐約州立大學石溪分校進修學習,1989年至1991年在英國南安普敦大學進修學習,曾任中國計算機學會理事長。2019年,鄭緯民當選中國工程院院士。

      鄭緯民主要學術方向為網絡存儲系統。長期從事網絡存儲系統科學研究、工程建設和人才培養。



      本論文第一作者Ruoyu Qin(秦若愚),目前就職于月之暗面,曾在清華大學計算機科學與技術系MADSys實驗室讀博,師從章明星教授,主要研究領域為分布式系統和機器學習系統。

      此前,秦若愚和章明星在KVCache.AI項目上,與月之暗面共同發布了人工智能助手Kimi底層的Mooncake模型推理架構。這一架構承載了Kimi 80%以上的實際線上流量,在某些模擬場景中,吞吐量可以增加到未優化場景的5.25倍。

      Mooncake論文還在USENIX 文件和存儲技術會議 (FAST)上獲得Erik Riedel Best Paper Award。



      就在今年4月15日,Kimi推出的K2.6-code-preview已經上線。

      這意味著,Kimi即將要發布K2.6系列新的基座模型。

      早前,據界面新聞,在Kimi K2.5模型發布一個月之后,月之暗面ARR(年度經常性收入)突破1億美元。

      不得不說,楊植麟掌舵的月之暗面堪稱AI賽道迭代標桿

      一邊快速更新Kimi模型版本,一邊深耕底層算力架構創新,軟硬協同全速突破,進化效率拉滿,穩步奔赴AGI終局。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      至今無解的3大災難:一次在印度,一次在俄國,中國的最“詭異”

      至今無解的3大災難:一次在印度,一次在俄國,中國的最“詭異”

      歷史龍元閣
      2026-05-14 09:30:33
      怎么拒絕親戚要長期住到家里的請求?網友:看好了,我只教一遍!

      怎么拒絕親戚要長期住到家里的請求?網友:看好了,我只教一遍!

      夜深愛雜談
      2026-05-15 07:17:28
      貝弗利:詹姆斯很難離開湖人,因為他去哪里布朗尼就要去哪里

      貝弗利:詹姆斯很難離開湖人,因為他去哪里布朗尼就要去哪里

      懂球帝
      2026-05-15 00:09:05
      殘疾哥哥養大妹妹,妹妹考上博士后就沒回過家,哥哥去看望傻眼了

      殘疾哥哥養大妹妹,妹妹考上博士后就沒回過家,哥哥去看望傻眼了

      磊子講史
      2025-07-14 14:53:33
      中國外長缺席金磚會議,西方沒給印度面子,莫迪政府無法挑起大梁

      中國外長缺席金磚會議,西方沒給印度面子,莫迪政府無法挑起大梁

      云上烏托邦
      2026-05-14 20:30:14
      這事還沒完?姆巴佩接受采訪再掀波瀾,稱受到排擠自己錯在沒冠軍

      這事還沒完?姆巴佩接受采訪再掀波瀾,稱受到排擠自己錯在沒冠軍

      里芃芃體育
      2026-05-15 10:00:29
      你知道最積德的3件事嗎?但凡你做過一件,后代子孫皆有大福報

      你知道最積德的3件事嗎?但凡你做過一件,后代子孫皆有大福報

      金沛的國學筆記
      2026-03-22 11:27:12
      65.3公里!北京將擁有世界首條“不斷線絢麗花環”!

      65.3公里!北京將擁有世界首條“不斷線絢麗花環”!

      家住朝陽
      2026-05-14 19:10:23
      朱元璋為什么將藍玉剝皮?看看藍玉怎么對北元王妃:換你你也殺!

      朱元璋為什么將藍玉剝皮?看看藍玉怎么對北元王妃:換你你也殺!

      銘記歷史呀
      2026-05-14 15:16:12
      “那家伙在空軍1號前居然一動不動”!美媒注意到一名中國儀仗兵

      “那家伙在空軍1號前居然一動不動”!美媒注意到一名中國儀仗兵

      阿龍聊軍事
      2026-05-14 11:02:15
      不出意外的話,中國未來有5%城市房價還會創新高,大概率是這25個

      不出意外的話,中國未來有5%城市房價還會創新高,大概率是這25個

      專業聊房君
      2026-05-15 09:21:20
      2007年,一臺灣商人來到沈陽大帥府,對售票員說:我就不買票了吧

      2007年,一臺灣商人來到沈陽大帥府,對售票員說:我就不買票了吧

      浩渺青史
      2026-05-15 02:58:03
      CBA最新消息!廣東隊拒絕買斷王少杰,北控男籃要價逼退朱芳雨!

      CBA最新消息!廣東隊拒絕買斷王少杰,北控男籃要價逼退朱芳雨!

      緋雨兒
      2026-05-15 08:28:40
      破防了!王曼昱贏球后第一個抱馬琳,一向冷靜的她這次失態了!

      破防了!王曼昱贏球后第一個抱馬琳,一向冷靜的她這次失態了!

      小娛樂悠悠
      2026-05-15 09:00:02
      波音跌幅擴大至3.75%

      波音跌幅擴大至3.75%

      每日經濟新聞
      2026-05-14 22:40:52
      臺當局惹眾怒,大陸發布統一后安排,島內鄭氏宗親:團結才有力量

      臺當局惹眾怒,大陸發布統一后安排,島內鄭氏宗親:團結才有力量

      流史歲月
      2026-05-14 20:00:04
      槍聲響起!小馬科斯大勢已去,菲軍方緊急切割,中菲關系或迎轉機

      槍聲響起!小馬科斯大勢已去,菲軍方緊急切割,中菲關系或迎轉機

      影孖看世界
      2026-05-14 23:06:05
      南方三年游擊戰,項英有何作為?陳毅直言:紅軍的命運全寄托于他

      南方三年游擊戰,項英有何作為?陳毅直言:紅軍的命運全寄托于他

      浩渺青史
      2026-05-15 00:40:30
      中美關系,有了新定位

      中美關系,有了新定位

      中國新聞周刊
      2026-05-14 16:01:38
      清華系團隊出手!一張 4090 即可「爆改」,1.3B小鋼炮震撼開源

      清華系團隊出手!一張 4090 即可「爆改」,1.3B小鋼炮震撼開源

      新智元
      2026-05-13 12:11:23
      2026-05-15 10:39:00
      智能紀元AGI
      智能紀元AGI
      專注科技、科學、商業產業報道
      2316文章數 10609關注度
      往期回顧 全部

      科技要聞

      兩年聯姻一地雞毛,傳蘋果OpenAI瀕臨決裂

      頭條要聞

      媒體:特朗普訪華舉世矚目 又一次使用“最高級用語”

      頭條要聞

      媒體:特朗普訪華舉世矚目 又一次使用“最高級用語”

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛回應住男生單人間:女孩的配得感

      財經要聞

      特朗普的北京時刻

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      教育
      時尚
      房產
      本地
      軍事航空

      教育要聞

      美國商務簽 真的假不了假的真不了 看看什么叫真正的商務人士辦的商務簽

      看《給阿嬤的情書》,帶紙巾,別帶懂王

      房產要聞

      海南樓市新政要出!擬調公積金貸款額度,最高可貸168萬!

      本地新聞

      用蘇繡的方式,打開江西婺源

      軍事要聞

      烏克蘭首都基輔遭空襲 死亡人數增至12人

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: japanese残忍掏死asspics| 亚洲天堂成人一区二区三区| 蜜臀AV无码一区二区三区| 色小说在线| 九九热无码| 日本乱偷互换人妻中文字幕| 亚洲综合黄色的在线观看| 欧美精品xxx| 国产AV一区二区三区| 国产精品精品久久99| 国产午夜精品福利视频| 国产美女视频久久| 欧美日韩综合在线精品| 日逼导航| 99久久国内精品成人免费| 性av网址| 日韩性猛交| 无码午夜福利免费区久久| 国产真实老熟女无套内射| 精品 日韩 国产 欧美 视频| 又粗又长又猛无码观看| 成人免费无码大片A毛片软件| 青青草国产精品日韩欧美| 国产裸体永久免费无遮挡| AV无码不卡| 韩国无码精品| 沙河市| 国产精品中文字幕在线| 思思99思思久久最新精品| 亚洲色大成网站www应用| 999久久久免费精品播放| 久久精品道一区二区三区| 日本乱码在线| 亚洲精品成人一二三专区| 国产精品嫩草影院午夜| 国产中文字幕制服| 国产精品一区二区毛卡片| 午夜av福利| 91精品久久久久久无码人妻| 日韩精品一区二区三区在线观看l| 国产又色又爽又高潮免费|