<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      國產GPU組了個開源局,把SGLang等核心開發者都搖來了!

      0
      分享至

      金磊 發自 凹非寺
      量子位 | 公眾號 QbitAI

      沒有大廠高管站臺,一屋子卻擠滿了開源圈的熟面孔。

      隨便往臺下掃一眼,就能對上好幾個GitHub上的明星ID

      • 有目前大模型推理框架頂流SGLang的核心開發者BBuf(Xiaoyu Zhang);
      • 有主導下一代算子編程生態TileLang的維護者唐正舉
      • 有操刀KVCache解耦與傳輸神器Mooncake的核心貢獻者馬騰
      • 有來自智源人工智能研究院、圍繞Triton/FlagOS死磕AI編譯器的肖航
      • 還有像R0CKSTAR這樣在GitHub上異常活躍的硬核開發者。



      這場看似是開源圈極客們的面基會,卻著實是有點反差在身上的——

      活動的攢局者,是國產GPU玩家,摩爾線程

      這事確實有點意思。

      因為過去提到國產GPU,外界最容易想到的關鍵詞,往往還是硬件參數、顯存容量、算力指標、生態替代、模型能不能跑起來。

      但這場SGLang × MUSA Meetup真正拋出的問題已經變了:

      怎么讓國產GPU真正進入大模型推理的主流開源工程鏈路?

      說得更直接一點,就是讓SGLang、Triton/FlagOS、TileLang、Mooncake、KVCache、P/D分離、分布式通信、CI/CD、upstream PR這些東西,能夠圍著國產GPU一起轉起來。

      有一說一,在整體聽下來之后,有一個非常直觀的感受。

      那就是國產GPU的競爭,已經不只是芯片參數之爭,轉而開始邁向生態坐標之爭

      為什么這么說?我們繼續往下看。

      國產GPU開始“擴圈”了

      先看這場Meetup本身。

      它的主題很明確:SGLang × MUSA。

      SGLang是當下大模型推理serving領域關注度很高的開源框架,面向LLM和多模態模型,核心目標是低延遲、高吞吐,覆蓋從單卡到大規模分布式集群的部署場景。

      這類框架之所以重要,是因為今天的大模型落地,早就不是“模型訓練好了,放上去跑”這么簡單。

      真正進入生產環境后,系統要處理的是一整套復雜問題。

      例如prefill和decode怎么拆,KVCache怎么復用,長上下文怎么省錢,多輪對話怎么降TTFT,大規模集群怎么調度,新模型發布后怎么day-0 support,出了性能gap怎么定位到具體kernel。

      第一個上臺的是SGLang核心開發者BBuf


      △SGLang核心開發者BBuf

      這個在GitHub上擁有27k星的開源推理框架,現在已經是全球開發者部署大模型的首選。

      他帶來的SGLang 2026 Q2 Roadmap,每一條都踩在行業的痛點上:

      • 針對DeepSeek V4的全鏈路優化,包括W4A16量化、MegaMoE加速和稀疏注意力支持;
      • jit_kernel全面替代傳統的sgl-kernel,用TVM-FFI把編譯速度提升了數倍,再也不用等幾個小時的wheel包;
      • Vibe Coding全面落地,用AI agent自動分析profiler、定位性能瓶頸、提交PR,5月前已經完成了超過60個優化任務;
      • 多模態能力全面升級,支持LTX2、Wan、混元視頻等最新模型,性能比其他框架最高快5倍。

      最讓人印象深刻的是他展示的一組數據。

      SGLang通過P/D分離架構,在12個H100節點上跑出了52.3k輸入token/s/node、22.3k輸出token/s/node的成績,比DeepSeek官方API還便宜5倍,這個結果已經被全球10多個團隊復現。

      緊接著上臺的摩爾線程ContributorR0CKSTAR,帶來了全場最硬核的工程實踐分享。


      △摩爾線程工程師R0CKSTAR

      他用一句話總結了過去半年的工作:

      SGLang on MUSA已經完成了從環境構建到CI測試的全鏈路打通。

      這意味著什么?

      現在你只要克隆SGLang的官方倉庫,安裝sgl-kernel和sglang,就能在摩爾線程MTT S5000顯卡上直接運行幾乎所有主流大模型。

      DeepSeek、通義千問3.5、GLM-4.5、FLUX、Wan這些熱門模型,都已經完成了深度優化。

      他特別提到了MUSA的三層CUDA兼容棧。

      過去適配一個推理框架要改幾千行代碼,現在只要在開頭加一行import torchada,99%的CUDA代碼就能直接運行。這個看似簡單的改動,解決了國產GPU生態的一大痛點。

      據了解,截至5月12日,摩爾線程在SGLang主線累計提交47個PR,其中41個已合入,完成了從環境構建到分布式推理的全鏈路打通。

      智源的肖航則帶來了DeepSeek V4在MUSA上的Day0 適配成果。


      △智源AI編譯器研究員

      通過FlagOS的Triton算子優化和摩爾線程的SQMMA張量加速引擎,他們把DeepSeek V4的首token延遲降低了56.7%,吞吐量提升了23%。

      對此,肖航表示:

      我們沒有做什么黑魔法,就是把兩個最關鍵的算子優化到了極致。

      FP8 矩陣乘算子平均加速8.85倍,稀疏注意力算子平均加速6.01倍,這兩個占了推理時間80%的算子一優化,端到端性能自然就上去了。

      TileLang維護者唐正舉的分享,則讓所有人看到了下一代算子編程的未來。


      △TileLang維護者唐正舉

      這個2025年2月才開源的項目,短短一年多就收獲了6k星和133位貢獻者,連DeepSeek V4的核心kernel都是用TileLang寫的,正如唐正舉所說:

      用TileLang寫FlashAttention,只要50行Python代碼,性能和專家手寫的CUDA一模一樣。

      并且從他在現場展示的對比圖來看,同樣的GEMM算子,TileLang用15行代碼達到了CUTLASS的性能,代碼量減少了90%。

      最后上臺的阿里云馬騰,帶來了Mooncake項目的最新進展。


      △Mooncake Contributor 馬騰

      這個專注于KVCache解耦的項目,現在已經是SGLang、vLLM等主流推理框架的標配。

      他展示的一組較為吸睛的數據:

      通過RDMA P2P權重更新,Kimi K2 1T模型的權重同步時間從53秒降到了7.2秒,加速了7.37倍;EPD三級解耦架構讓多模態模型的首token延遲降低了6-8倍;HiCache + Mooncake后端讓多輪對話的緩存命中率超過90%。

      至此,這場Meetup的拼圖基本完整——

      SGLang是推理框架主鏈路,MUSA是國產GPU底層平臺,FlagOS/Triton解決關鍵算子優化,TileLang降低高性能kernel編程門檻,Mooncake補上KVCache和生產部署。

      這,便是一條較為完整的工程鏈路。

      為什么摩爾線程能把他們搖來?

      這個問題的答案不能只歸結為辦了一場活動。

      開源圈很現實,大家愿意來,核心原因不是誰會講故事,是這件事真的和他們正在做的工程問題有關。

      首先看MUSA本身的設計初心。

      摩爾線程CTO張鈺勃在開場中解釋,MUSA是Meta-computing Unified System Architecture。


      △摩爾線程CTO張鈺勃

      Meta-computing指向通用計算,摩爾線程希望GPU盡量擁抱通用計算,而不是給未來可計算的領域設限;Unified則意味著摩爾線程產品希望遵循同一套統一標準,避免不同產品線使用不同指令集和架構,導致軟件生態無法積累。

      更關鍵的一句話是,MUSA不希望開發者為了使用MUSA而重新學習一套東西。

      這句話看似樸素,其實直指國產GPU生態的痛點。

      開發者最怕什么?

      不是新硬件本身,是為了新硬件,學習一整套新API,重寫一堆代碼,改完還進不了上游,社區一更新又要重新補丁。

      如果一個國產GPU生態要求開發者從頭學一遍,那它面對的便是巨大的遷移阻力。

      所以MUSA的路線,是盡量貼近開發者已經熟悉的GPU編程方式、API接口和使用習慣。底層實現可以不同,但上層體驗盡可能一致。

      三層CUDA兼容棧的意義就在這里。

      torch_musa負責把PyTorch和MUSA的基礎能力接起來;torchada負責讓CUDA-first生態繼續工作;mthreads-ml-py負責把設備管理、拓撲、顯存、MTLink、P2P等信息暴露給上層框架。

      用一句更通俗的話說,摩爾線程在盡量把原來的路修到自己門口。

      這直接影響到開源社區協作的可行性。

      因為上游項目最看重的是低侵入、可維護、可復用。如果一個適配方案需要大面積改動主線代碼,后續每次rebase都痛苦,上游很難接受。

      反過來,如果適配可以通過更透明的方式完成,PR就更容易被review,也更容易持續跟隨社區迭代。

      這就是從“我自己維護一個分支”到“我進入主線”的區別。

      再看生態結合。

      SGLang × MUSA,是推理主鏈路打通。

      摩爾線程從去年開始把SGLang作為重點接入和貢獻的開源項目,經過大半年努力,MUSA后端近期已經合入SGLang主線。后續不只是跟隨feature,也希望在框架層面貢獻更多能力。

      這件事的意義在于,國產GPU不再只是某個框架的外部適配對象,已經開始成為主線生態的一部分。



      FlagOS × MUSA,是關鍵算子和新模型適配。

      大模型推理的性能競爭,越來越多發生在kernel、編譯器、調度、低精度和通信層。DeepSeek V4 day-0適配這樣的工作,本質上考驗的是從模型發布到工程落地之間的反應速度。能不能第一時間跑通,能不能快速調優,能不能在真實shape上找到更好的配置,決定了生態跟不跟得上。



      Mooncake × MUSA,是推理解耦和生產部署。

      KVCache的價值在Agent、多輪對話、長上下文時代被進一步放大。Mooncake與MUSA的結合,不只是讓某個緩存后端能跑在國產GPU上,更是在探索跨實例KVCache共享、彈性擴縮容、緩存復用、原地升級這類生產級問題。



      TileLang × MUSA,則是下一代算子生態的提前布局。

      如果未來更多模型和硬件都需要定制kernel,算子編程不能永遠停留在少數專家手里。TileLang這類DSL的價值,是把高性能kernel編程變成更多開發者能上手的工程工具。



      這四條線合在一起,才是摩爾線程能組局的底氣。

      它把自己放進了大模型推理的真實工程網絡里,包括框架、算子、緩存、通信、部署、CI/CD、upstream等等。

      而這,也是國產 GPU 生態真正要補的課。

      國產GPU的生態位,正在走向協作

      如果把這場Meetup從更宏大的算力發展角度來看,它的價值或許遠超技術分享本身。

      過去幾年,國產GPU的生態困境是比較明顯的。

      許多廠商習慣了閉門造車,自己從頭寫一套深度學習框架,自己攢一套算子庫,結果因為不符合主流開發者的習慣,鮮有人問津。

      又或者,有的廠商只是拉一個私有Fork做適配,從來不向開源上游提交代碼,導致主流框架一更新,自己的適配版本就成了無人維護的孤品。

      而現在,摩爾線程給出了一個完全不同的答案:

      全面融入全球開源生態,去和世界上最聰明的一批人一起做事。

      在這場活動中,我們頻繁聽到幾個詞:Day-0 Support、Upstream PR、CI/CD。

      這說明國產GPU的生態位正在發生質變。摩爾線程不再只滿足于做一個被動的適配者,它要的是主動出擊,成為核心代碼的“貢獻者”,甚至是未來架構的“共建者”。

      他們不僅僅是丟一個單點的Patch過去,而是把一整套包含環境構建、PR提交、CI自動化測試、Release發布、文檔維護在內的工程閉環,深深地嵌入到了SGLang等頂級項目的血脈中。

      這種可持續的Upstream模式,才是真正掌握生態話語權的方式。

      這場開源局還證明了一件事,國產GPU已經走上了大模型推理開源生態的公共牌桌。

      在這個牌桌上,已經坐著風頭正勁的SGLang,坐著死磕底層編譯的Triton/FlagOS,坐著重塑算子生態的TileLang,坐著主導解耦架構的Mooncake。

      而現在,國產GPU,也可以拉開椅子,從容地坐下來,和這群明星玩家們一起打好大模型時代最關鍵的這把牌。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      MR-白冰賣慘復出,妄圖重奪大眾目光

      MR-白冰賣慘復出,妄圖重奪大眾目光

      風鈴草語
      2026-05-15 06:31:50
      網易號平臺每日辟謠公告(五月十五日)

      網易號平臺每日辟謠公告(五月十五日)

      網易號官方平臺
      2026-05-15 18:15:12
      帶女兒排3小時隊都玩不上,男子發飆質疑插隊特權!迪士尼最新回應,網友吵翻了……

      帶女兒排3小時隊都玩不上,男子發飆質疑插隊特權!迪士尼最新回應,網友吵翻了……

      19樓
      2026-05-14 15:24:10
      廣西女畫家齊麗麗被判死刑崩潰大哭,拒吃斷頭飯,臨終作畫

      廣西女畫家齊麗麗被判死刑崩潰大哭,拒吃斷頭飯,臨終作畫

      天夢見證
      2025-04-06 21:50:09
      姆巴佩:沒首發是因為教練跟我說,我是他的第四前鋒

      姆巴佩:沒首發是因為教練跟我說,我是他的第四前鋒

      懂球帝
      2026-05-15 07:03:08
      “善心”收留難民反遭驅逐的鬧劇

      “善心”收留難民反遭驅逐的鬧劇

      風鈴草語
      2026-05-15 06:37:37
      廣州番禺寶墨園宣布:免費入園!

      廣州番禺寶墨園宣布:免費入園!

      廣州生活美食圈
      2026-05-15 20:29:13
      每體:阿韋洛亞回擊姆巴佩,稱缺席四天前比賽就不該首發

      每體:阿韋洛亞回擊姆巴佩,稱缺席四天前比賽就不該首發

      懂球帝
      2026-05-15 06:21:42
      特大暴雨真來了:廣東面臨危險暴雨形勢,北方將大范圍降溫降雨

      特大暴雨真來了:廣東面臨危險暴雨形勢,北方將大范圍降溫降雨

      中國氣象愛好者
      2026-05-15 23:42:14
      馬斯克、黃仁勛接連發出警告!原來,中國機器人已讓美國感到焦慮

      馬斯克、黃仁勛接連發出警告!原來,中國機器人已讓美國感到焦慮

      蜉蝣說
      2026-05-15 11:45:29
      無法完全戒煙,只減少抽煙量行不行?研究表明:這樣做用處不大

      無法完全戒煙,只減少抽煙量行不行?研究表明:這樣做用處不大

      岐黃傳人孫大夫
      2026-03-06 22:50:03
      特朗普親手送上“大禮”,海灣國家醒悟,人民幣一舉完成歷史破局

      特朗普親手送上“大禮”,海灣國家醒悟,人民幣一舉完成歷史破局

      魚語昱雨軒
      2026-05-15 13:02:21
      一張照片刷屏了,坐在馬斯克和庫克中間的中國女人,憑啥這么牛?

      一張照片刷屏了,坐在馬斯克和庫克中間的中國女人,憑啥這么牛?

      別人都叫我阿腈
      2026-05-16 01:28:24
      津門虎球迷意難平!不止因為1-2惜敗蓉城,更多在于以下這五點!

      津門虎球迷意難平!不止因為1-2惜敗蓉城,更多在于以下這五點!

      田先生籃球
      2026-05-15 22:15:03
      馬卡:安哥拉16歲門將年齡遭質疑,U17非洲杯引熱議

      馬卡:安哥拉16歲門將年齡遭質疑,U17非洲杯引熱議

      懂球帝
      2026-05-15 18:31:28
      大牛市:下周一定要管住手!別亂動!接下來大概率這樣走了!

      大牛市:下周一定要管住手!別亂動!接下來大概率這樣走了!

      夜深愛雜談
      2026-05-15 20:53:14
      沒給日本的,中方都給了特朗普,還有一個重要承諾,日媒:憑什么

      沒給日本的,中方都給了特朗普,還有一個重要承諾,日媒:憑什么

      呼呼歷史論
      2026-05-15 23:52:42
      iPhone 17 官方宣布降價!蘋果推出 618 優惠活動

      iPhone 17 官方宣布降價!蘋果推出 618 優惠活動

      XCiOS俱樂部
      2026-05-15 08:35:34
      男子冒充大老板,訂購5輛奔馳,總價450萬。美女銷售為促成大單,為其墊付6000余元食宿,誰知,3天后,男子突然消失,女銷售才發現被騙

      男子冒充大老板,訂購5輛奔馳,總價450萬。美女銷售為促成大單,為其墊付6000余元食宿,誰知,3天后,男子突然消失,女銷售才發現被騙

      大愛三湘
      2026-05-08 11:09:27
      泰國警方:芭提雅中國軍火嫌犯目的為了應對柬埔寨詐騙集團之間的內部沖突,而不是針對泰國展開行動

      泰國警方:芭提雅中國軍火嫌犯目的為了應對柬埔寨詐騙集團之間的內部沖突,而不是針對泰國展開行動

      曼谷陳大叔
      2026-05-13 15:39:16
      2026-05-16 03:31:01
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12631文章數 176463關注度
      往期回顧 全部

      科技要聞

      直降千元起步!蘋果華為率先開啟618讓利

      頭條要聞

      黃仁勛在北京喝豆汁痛苦皺眉 問“這是什么東西”

      頭條要聞

      黃仁勛在北京喝豆汁痛苦皺眉 問“這是什么東西”

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      藝術
      親子
      房產
      時尚
      數碼

      藝術要聞

      1008米!沙特“世界第一高樓”項目,為何極有可能建成?

      親子要聞

      孕婦補鈣怕刺激怎么選?液體鈣無添加配方實測,藍帽認證更靠譜

      房產要聞

      老黃埔熱銷之下,珠江春,為何去化僅3成?

      頂級團隊拍出來的作品不如素人,問題出在哪兒了?

      數碼要聞

      聯想發布ThinkPad T14 Gen 7 支持LPCAMM2可更換內存

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 18av千部影片| 国产一区二区三区乱码在线观看| 国产精品无码综合区| 国产黑丝袜在线观看视频| 久久精品一本到99热免费| 风流老熟女一区二区三区| 老子影院午夜一区二区| 亚洲精品成人网| 精品国产乱码久久久久久下载| 蜜臀AⅤ永久无码精品| 亚洲人成色77777在线观看| 亚洲一区二区在线无码| 国产精品被狂躁到高潮| 亚洲日韩一区二区三区| 97日日碰日日摸日日澡| 乱人伦xxxx国语对白| 亚洲中文字幕一区二区| 中文人妻AV高清一区二区| 国产www在线观看| 日本高清免费不卡在线| 中文字幕日韩国产精品| av在线观看地址| 亚洲成av人不卡无码影片| 亚洲人成网站在线观看播放不卡 | 亚洲一起cao| 精品国产一二三区| jizz人妻| 久久天天躁狠狠躁夜夜2020 | 欧美中日韩免费观看网站| 桃色五月天| 特黄 做受又硬又粗又大视频| 手机看片1024人妻| 亚洲最新AV| 国产迷姦播放在线观看| avav在线国产| 东阳市| 国产成人AV三级在线观看按摩| 永久黄网站色视频免费| 日韩欧美亚洲综合久久| 狠狠色狠狠爱综合蜜芽五月| 欧美精品亚洲日韩a|