網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

老黃喝豆汁「破防」背后，國(guó)產(chǎn)GPU正在填上CUDA護(hù)城河

2026-05-20 12:32:53　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

【新智元導(dǎo)讀】老黃在北京喝豆汁「翻車」，全網(wǎng)笑瘋了。但真正值得警惕的，是他背后那個(gè)正在長(zhǎng)出來的「中國(guó)版CUDA生態(tài)」。從萬卡集群到機(jī)器狗，從SGLang主線到AI Agent自動(dòng)遷移，這家公司這次不只是秀芯片，而是在重寫國(guó)產(chǎn)GPU的游戲規(guī)則！

這幾天，老黃喝豆汁的表情包，已經(jīng)在全網(wǎng)刷屏了。

他穿著黑色皮衣，端著炸醬面，站在方磚廠69號(hào)門口邊拌邊吃。

有人遞過來一碗豆汁，他喝了一大口，眉頭瞬間擰成一團(tuán)，周圍一片哄笑。

但他這次來北京，顯然不只是來吃面的。

老黃自己說過一句話，「不要低估中國(guó)的實(shí)力和競(jìng)爭(zhēng)力，那是愚蠢的。」

5月18日晚，炸醬面熱搜還沒涼，摩爾線程在北京開了年度產(chǎn)品發(fā)布會(huì)。

但所有這些硬件背后，有一條貫穿全場(chǎng)的主線——MUSA生態(tài)。

CUDA最硬的地方，是開發(fā)者的肌肉記憶

CUDA統(tǒng)治AI算力十五年，靠的不是芯片快，靠的是生態(tài)鎖定。

幾百萬開發(fā)者的代碼、習(xí)慣、工具鏈，甚至手指敲鍵盤的肌肉記憶，都長(zhǎng)在CUDA上面。

換平臺(tái)？重寫代碼、重學(xué)工具、重新踩坑。硬件采購(gòu)只是一張訂單，工程遷移是一場(chǎng)組織動(dòng)員。

你能造出神兵利器，但很難改變幾百萬人的生活習(xí)慣——這才是卡脖子卡得最見血的地方。

所以國(guó)產(chǎn)GPU的競(jìng)爭(zhēng)，到了今天，已經(jīng)從「硬件替代」推進(jìn)到「生態(tài)替代」。

硬件替代解決的是有沒有卡，生態(tài)替代解決的是開發(fā)者愿不愿意來、模型能不能跑、行業(yè)敢不敢規(guī)模化采購(gòu)。

如今，MUSA已經(jīng)實(shí)現(xiàn)了芯片架構(gòu)、指令集、編程模型、軟件運(yùn)行庫(kù)、驅(qū)動(dòng)框架和上層應(yīng)用工具鏈的全面覆蓋。

從云端萬卡集群到個(gè)人算力本再到邊緣SoC模組，跑的都是同一套MUSA。大模型訓(xùn)練、推理服務(wù)、智能體、機(jī)器人仿真，全部長(zhǎng)在這同一個(gè)底座上。

這意味著他們賣的不是某一顆芯片、某一張卡，而是一整套國(guó)產(chǎn)全功能GPU的底層生態(tài)。

四級(jí)躍遷，MUSA開始從兼容走向自進(jìn)化

具體來說，MUSA生態(tài)的進(jìn)展可以拆成四個(gè)臺(tái)階。

兼容，原生，開放，自進(jìn)化。

每往上一層，MUSA的角色就發(fā)生一次變化。

前兩層解決遷移和性能，第三層解決開發(fā)者入口，第四層開始改變生態(tài)建設(shè)的成本結(jié)構(gòu)。

第一層是兼容：先把開發(fā)者的舊代碼吃下來

國(guó)產(chǎn)GPU應(yīng)用最大的障礙之一，是遷移成本。

開發(fā)者已經(jīng)習(xí)慣CUDA、PyTorch、cuDNN、Triton、vLLM、SGLang這一整套工具鏈。如果換一張卡就要重寫工程、重新調(diào)試、重新踩坑，再漂亮的硬件指標(biāo)也很難變成采購(gòu)決策。

MUSA SDK 5.1.0直接對(duì)標(biāo)CUDA 12.8，驅(qū)動(dòng)及運(yùn)行時(shí)API兼容數(shù)干到761個(gè)。

核心數(shù)學(xué)庫(kù)Blas、Sparse、Rand、FFT，100%功能兼容。

AI算子庫(kù)muDNN覆蓋55類核心AI算子，額外擴(kuò)展230多個(gè)。

PyTorch全量3194個(gè)算子，100%兼容，不是「大部分能湊合跑」，是全量。

絕大多數(shù)CUDA程序不改一行代碼，直接在摩爾線程的卡上跑通。開發(fā)者憑肌肉記憶寫出來的代碼，MUSA全吃下了。

遷移成本越低，試用意愿越強(qiáng)。原有代碼越能復(fù)用，組織內(nèi)部推進(jìn)國(guó)產(chǎn)算力，出錯(cuò)的風(fēng)險(xiǎn)和投入的成本都會(huì)大大降低。

第二層是原生：光能跑還不夠，關(guān)鍵路徑必須跑得快

兼容解決的是「能不能遷」，原生性能解決的是「遷過來值不值」。如果關(guān)鍵路徑上性能拉胯，客戶最后還是會(huì)把你放在備用方案的位置。

MATE加速庫(kù)直接對(duì)著大模型最吃算力的幾個(gè)算子開刀。FlashAttention3、Sage Attention、DSA、GDN、DeepGEMM，全是硬骨頭。

FA3在摩爾線程GPU上效率飆到95%，熱點(diǎn)算子覆蓋率突破90%，Attention類算子全場(chǎng)景覆蓋。

大模型訓(xùn)推的瓶頸從來不在「所有功能都支持」，而在Attention、GEMM、MoE通信、KV Cache這幾條高頻路徑上。這幾條路卡住，整套系統(tǒng)就被拖住。FA3到95%，意味著MUSA在最要命的環(huán)節(jié)上跟CUDA的差距已經(jīng)是個(gè)位數(shù)。

此外，MUSA還新增了Fortran編譯器，VASP等科學(xué)計(jì)算軟件可以直接遷移。

TileLang-MUSA已經(jīng)合入開源主線，GEMM類算子實(shí)現(xiàn)95%以上的匯編級(jí)性能效率，Attention類算子達(dá)到90%以上。

Triton-MUSA升級(jí)支持到Triton 3.6最新版本。

這些工具看起來離普通讀者很遠(yuǎn)，但它們決定了硬核開發(fā)者愿不愿意在這個(gè)平臺(tái)上寫底層算子。

客戶不會(huì)為情懷長(zhǎng)期付費(fèi)，只會(huì)為效率、穩(wěn)定性和確定性付費(fèi)。MUSA如果能在關(guān)鍵路徑上持續(xù)接近原生效率，它的身份就會(huì)從「兼容層」變成「高性能開發(fā)平臺(tái)」。

第三層是開放：進(jìn)主線，才算真正上桌

整場(chǎng)發(fā)布會(huì)里，這一層的戰(zhàn)略分量可能最重。

全球頂級(jí)推理引擎SGLang，已經(jīng)將MUSA合入官方主線，并列入2026 Q2官方硬件支持矩陣，和GB200/GB300、AMD、TPU并列。

截至5月12日，摩爾線程在SGLang上提交47個(gè)PR，合并41個(gè)。

在vLLM那邊，MUSA同樣拿到官方后端身份。TileLang-MUSA也已經(jīng)合入開源主線。

開發(fā)者在使用時(shí)，直接調(diào)用的就是框架。

框架支持誰，代碼就能跑在誰的卡上。框架不支持，芯片再猛也是孤島。

現(xiàn)在代碼進(jìn)入SGLang和vLLM主線，開發(fā)者在官方文檔里就能看到MUSA后端。后續(xù)新模型、新工具、新推理策略的適配成本，會(huì)明顯下降。

模型適配層也是同一個(gè)邏輯。

摩爾線程MTT S5000目前已完成DeepSeek V4、GLM-5.1、Qwen3.5、MiniMax M2.7、Kimi K2.6等大語言模型的深度適配。視覺理解和多模態(tài)模型也覆蓋了Qwen3-VL-235B/8B和Wan 2.2。

重點(diǎn)在于Day-0。模型發(fā)布當(dāng)天，MUSA算力就已經(jīng)就位。

在大模型一個(gè)月一迭代的今天，客戶關(guān)心的不只是某個(gè)歷史模型能不能跑，而是下一個(gè)熱門模型出來時(shí)，自己的算力底座能不能及時(shí)變成可用服務(wù)。

Day-0適配能力，本質(zhì)上是在爭(zhēng)奪模型時(shí)代的時(shí)間窗口。

更深一層看，中國(guó)最頭部的大模型和國(guó)產(chǎn)算力底座同步就位，意味著從算法到硬件的完整鏈路正在變厚。

這條內(nèi)循環(huán)一旦跑起來，每一次模型迭代都會(huì)給生態(tài)添一層土，而不是把已有系統(tǒng)再?zèng)_散一次。

第四層是自進(jìn)化：讓Agent替生態(tài)搬磚

前三層講的都是「MUSA能做什么」。這一層講的是「MUSA怎么越滾越快」。

如果生態(tài)建設(shè)一直靠工程師手工適配，摩爾線程永遠(yuǎn)會(huì)被全球開源社區(qū)的版本節(jié)奏推著跑。CUDA的護(hù)城河本質(zhì)上是十五年的時(shí)間積累，手工追趕注定辛苦，而且很難越追越輕松。

要擊穿這道時(shí)間壁壘，得改變積累速度本身。

MUSACODE是摩爾線程給出來的答案。自研AI編程工具，自然語言直接生成MUSA代碼，覆蓋Python、C++、Rust、Go，代碼完全本地運(yùn)行。

30天，自動(dòng)生成并測(cè)試PP庫(kù)12015個(gè)算子。基于TileLang自動(dòng)調(diào)優(yōu)Group GEMM算子實(shí)現(xiàn)60%性能提升。

Automusify Skill則是一個(gè)零人工干預(yù)的AI Agent，它的任務(wù)就是全自動(dòng)代碼搬家。Top 100人工智能加速庫(kù)、Top 100科學(xué)計(jì)算加速庫(kù)，100%自動(dòng)平移到MUSA上。

過去建生態(tài)靠刀耕火種，工程師熬夜一行行手寫適配。現(xiàn)在直接跨入工業(yè)革命，AI Agent、編譯器、自動(dòng)測(cè)試、在線倉(cāng)庫(kù)串成流水線，別人每多發(fā)布一個(gè)框架、一個(gè)庫(kù)、一個(gè)模型，MUSA就能更快完成遷移和優(yōu)化。

這才是真正改變游戲規(guī)則的地方。生態(tài)建設(shè)不再是人海戰(zhàn)術(shù)，而是一臺(tái)自帶加速度的飛輪。

MUSA服務(wù)AI，AI反向加速M(fèi)USA。飛輪一旦轉(zhuǎn)起來，十幾年的時(shí)間差可以被壓到一個(gè)完全不同的量級(jí)。

從萬卡集群到機(jī)器狗

發(fā)布會(huì)后半段，MUSA開始見真章。

云端，夸娥萬卡集群商業(yè)化落地，Dense模型MFU干到60%，MoE達(dá)到40%，有效訓(xùn)練時(shí)長(zhǎng)超過90%。

根據(jù)官方介紹，S5000集群訓(xùn)出來的模型精度能跟國(guó)際先進(jìn)水平對(duì)齊，大模型公司不用再擔(dān)心國(guó)產(chǎn)集群訓(xùn)練質(zhì)量。

一段兩分鐘的AI短片「地球最后一朵算力花朵」在大屏幕上播出來，用Wan模型跑在夸娥上，一個(gè)人短時(shí)間搞定，臺(tái)上說以前這是好萊塢導(dǎo)演花大價(jià)錢才能拍的東西。

端側(cè)，AICUBE把智能體、AI PC和AI NAS塞進(jìn)一個(gè)巴掌大的鋁合金立方體，6月18日京東預(yù)售。

AIBOOK預(yù)裝OpenClaw，可以同時(shí)跑12個(gè)智能體。

現(xiàn)場(chǎng)，研究員直接拉起5個(gè)數(shù)字員工，幾分鐘就交出了一整套新品企劃。

用摩爾線程創(chuàng)始人、董事長(zhǎng)兼CEO張建中的話說就是，「任何一個(gè)年輕人創(chuàng)業(yè)，有一臺(tái)AIBOOK就可以開一人公司。」

壓軸的是一只叫「小飛」的機(jī)器狗，只見它一個(gè)干拔，做了個(gè)側(cè)空翻，然后穩(wěn)穩(wěn)落地，紋絲不動(dòng)。

別小看這個(gè)跟斗——它背后藏著MUSA在具身智能場(chǎng)景里真正的殺手锏。

具身智能跟大模型訓(xùn)推不一樣。

它需要物理仿真、圖形渲染、AI推理、端側(cè)部署同時(shí)跑。傳統(tǒng)方案把這些任務(wù)扔給不同硬件，數(shù)據(jù)反復(fù)搬運(yùn)，延遲拉滿。

摩爾線程的全功能GPU在MT Lambda仿真平臺(tái)里，把物理引擎AlphaCore、光子引擎MT Photon、3DGS渲染和Torch-MUSA放在同一套鏈路里。

「物理+渲染+AI」三大引擎同一顆芯片，數(shù)據(jù)零拷貝。

今年3月摩爾線程開源了MuJoCo Warp MUSA，首個(gè)國(guó)產(chǎn)GPU加速的物理仿真后端。

和智源研究院合作的RoboBrain 2.5端到端訓(xùn)練，結(jié)果跟H100集群誤差小于0.62%。機(jī)器狗訓(xùn)練任務(wù)中，MT Lambda比CPU方案快40倍。

小飛身上跑的運(yùn)動(dòng)策略，在Lambda平臺(tái)訓(xùn)好后，零調(diào)參直接下發(fā)到「長(zhǎng)江」SoC執(zhí)行。

所有這些，不管是拍短片、開一人公司，還是訓(xùn)模型或機(jī)器狗，雖然跑在不同規(guī)模的硬件上，但用的是同一條技術(shù)脊柱。

當(dāng)生態(tài)開始自我加固

一套從底到頂跑通了的生態(tài)，和一堆零散的兼容能力，是完全不同的東西。

前者會(huì)產(chǎn)生網(wǎng)絡(luò)效應(yīng)。開發(fā)者越多，生態(tài)越厚；用得越久，遷回去的成本也越高。口子一旦撕開，就合不上了。

從100%兼容到SGLang官方合入，從Day-0模型適配到Agent自動(dòng)搬家，從全功能GPU三引擎合一到機(jī)器狗零調(diào)參落地，摩爾線程這場(chǎng)發(fā)布會(huì)展示的是從軟件棧、開發(fā)者生態(tài)到物理世界應(yīng)用的全鏈路貫通。

更關(guān)鍵的是，這套生態(tài)跑通全鏈路，依托的還是當(dāng)前第四代「平湖」架構(gòu)。

去年12月，摩爾線程已經(jīng)發(fā)布第五代「花港」架構(gòu)，算力密度再升50%，能效提升10倍，支持FP4到FP64全精度，可撐起十萬卡互聯(lián)。基于花港的AI芯片「華山」，在有序推進(jìn)中。

換句話說，MUSA生態(tài)打通全鏈路時(shí)，還沒用上摩爾線程最強(qiáng)的那張牌。

方磚廠69號(hào)店門口，現(xiàn)在掛著「皮衣戰(zhàn)神同款套餐」的招牌。

但CUDA同款生態(tài)的招牌，已經(jīng)不再是唯一選擇。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.