網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

平頭哥發(fā)布首款智能網(wǎng)卡「磐脈 920」，補(bǔ)齊 AI 算力最后一塊短板

2026-04-30 11:52:47　來(lái)源: 極客公園

北京舉報(bào)

分享至

GPU 買了那么多，跑起來(lái)卻像「堵車」？

作者｜蘇子華

編輯｜鄭玄

最近兩年，AI 行業(yè)最熱的詞一直繞不開「算力」。

從大模型訓(xùn)練，到今年 Agent 的火熱，再到各家云廠商不斷擴(kuò)建智算中心，行業(yè)討論最多的，幾乎都是 GPU、芯片和算力規(guī)模。好像只要卡夠多，AI 就能繼續(xù)往前跑。

但現(xiàn)實(shí)并不是。

不少做大模型訓(xùn)練和推理的人，已經(jīng)越來(lái)越明顯地感受到另一層問題：機(jī)器越來(lái)越貴，GPU 越來(lái)越強(qiáng)，但模型訓(xùn)練和推理的效率，卻沒有同步提升。

問題不一定出在算力本身，而可能出在另一件長(zhǎng)期被忽視的事情上——網(wǎng)力。

平頭哥產(chǎn)品總監(jiān)李旭慧打了個(gè)比方：「如果把算力比作 AI 時(shí)代的石油，網(wǎng)力就是輸油管道。算力提供動(dòng)力，網(wǎng)力保障效率。」

4 月 28 日，在數(shù)字中國(guó)建設(shè)峰會(huì)上，平頭哥發(fā)布首款智能網(wǎng)卡磐脈 920。這是國(guó)內(nèi)首個(gè)內(nèi)置 PCIe Switch 的 400G 智能網(wǎng)卡，最大支持 400Gbps 吞吐帶寬，可應(yīng)用于萬(wàn)卡智算集群、通算集群和高性能存儲(chǔ)等場(chǎng)景，目前已經(jīng)量產(chǎn)，并將率先部署在阿里云數(shù)據(jù)中心。

磐脈 920 想要解決的就是「網(wǎng)力」問題。

今天的大模型訓(xùn)練，一個(gè)訓(xùn)練任務(wù)，往往需要幾千甚至上萬(wàn)張 GPU 同時(shí)協(xié)作。單張 GPU 性能再?gòu)?qiáng)，也必須跟整個(gè)集群保持同步。

問題在于，只要其中一部分節(jié)點(diǎn)慢下來(lái)，其他節(jié)點(diǎn)就只能等待。他觀察到，目前行業(yè)里很多萬(wàn)卡級(jí)智算集群，GPU 實(shí)際利用率較低，「能做到 60%，已經(jīng)算行業(yè)頂尖水平。」

過去行業(yè)更容易關(guān)注「有多少卡」，但實(shí)際在 AI 訓(xùn)練場(chǎng)景中，系統(tǒng)運(yùn)行效率并不是由最強(qiáng)的硬件決定，而是受限于集群里最慢的那個(gè)節(jié)點(diǎn)。「領(lǐng)先節(jié)點(diǎn)的算力會(huì)持續(xù)閑置等待，造成大規(guī)模算力浪費(fèi)。」

磐脈 920 的發(fā)布實(shí)際上也指明了一個(gè)方向：當(dāng) GPU 已經(jīng)足夠強(qiáng)之后，下一步到底該補(bǔ)哪里。

一張網(wǎng)卡，盤活整個(gè)智算集群

當(dāng) AI 智能體開始進(jìn)入真實(shí)業(yè)務(wù)場(chǎng)景，推理業(yè)務(wù)的占比越來(lái)越高。

「在 Agent 應(yīng)用爆發(fā)的背景下，推理業(yè)務(wù)的增長(zhǎng)速度顯著快于訓(xùn)練。」李旭慧表示。

大模型訓(xùn)練強(qiáng)調(diào)強(qiáng)同步，而推理面對(duì)的是大量突發(fā)、小包、高頻請(qǐng)求，對(duì)低時(shí)延和穩(wěn)定性的要求更高，這也意味著對(duì)「網(wǎng)力」的要求更高。

而概括一下磐脈 920 在做的事，就是盡量減少整系統(tǒng)里的「堵」和「等」，通過網(wǎng)力的提升來(lái)釋放 AI 算力。

其背后的實(shí)現(xiàn)原理，有三個(gè)關(guān)鍵。

首先是支持多路徑 RDMA，打破單一路徑的局限。

通俗理解，就是原本只能走一條高速，現(xiàn)在變成多條路同時(shí)分流。更關(guān)鍵的是，這些數(shù)據(jù)雖然分開走，但最終還能按順序準(zhǔn)確拼回來(lái)。

李旭慧解釋，磐脈 920 通過支持逐包噴灑、亂序接收和選擇性重傳，實(shí)現(xiàn) RDMA 多路徑。

從結(jié)果來(lái)看，這套方案帶來(lái)的改善比較直接。

按照官方實(shí)測(cè)，磐脈 920 支持單 QP 打滿 400G 帶寬，而同類主流產(chǎn)品帶寬大約只有其一半。同時(shí)，多路徑能力可以把交換機(jī)端口緩沖區(qū)水線降低 90%，減少丟包和重傳。

第二個(gè)關(guān)鍵設(shè)計(jì)，是把「繞路」變成「直連」。

磐脈 920 最大的亮點(diǎn)之一，是內(nèi)置 PCIe Switch。這也是國(guó)內(nèi)首個(gè)做到這一點(diǎn)的 400G 智能網(wǎng)卡。

傳統(tǒng)服務(wù)器架構(gòu)里，PCIe Switch 通常部署在主板上，數(shù)據(jù)需要繞多個(gè)節(jié)點(diǎn)轉(zhuǎn)發(fā)。結(jié)果就是，有的路徑長(zhǎng)，有的路徑短，時(shí)延不一致。

對(duì)于需要高度同步的 AI 訓(xùn)練任務(wù)來(lái)說，這種「不整齊」會(huì)直接影響效率。

李旭慧打了個(gè)比方：傳統(tǒng)架構(gòu)里，經(jīng)常會(huì)出現(xiàn)「四個(gè)下行通道擠一個(gè)上行通道」的情況。

這很像四條支路同時(shí)匯入一條主干道，堵塞幾乎不可避免。

磐脈 920 把 PCIe Switch 直接集成進(jìn)芯片內(nèi)部，讓網(wǎng)卡與 CPU、GPU 形成更直接的連接關(guān)系。

少繞路，意味著更低時(shí)延；路徑更統(tǒng)一，則意味著更穩(wěn)定的同步效率。

根據(jù)平頭哥實(shí)測(cè)，在相同集群規(guī)模和任務(wù)條件下，部署磐脈 920 后，大模型訓(xùn)練和推理任務(wù)完成時(shí)間可縮短 14%。

第三個(gè)關(guān)鍵，是讓網(wǎng)絡(luò)具備自己判斷的能力。

傳統(tǒng)網(wǎng)卡更多像搬運(yùn)工。收到數(shù)據(jù)，搬過去，僅此而已。

據(jù)了解，磐脈 920 加入了細(xì)粒度網(wǎng)絡(luò)感知和可編程擁塞控制能力。直白講，就是它能主動(dòng)避堵。讓網(wǎng)絡(luò)開始從被動(dòng)傳輸，變成主動(dòng)調(diào)度。

對(duì)于越來(lái)越復(fù)雜的 AI 集群來(lái)說，這種能力的重要性會(huì)越來(lái)越明顯。

從這些設(shè)計(jì)能看出來(lái)，磐脈 920 并不是在追求參數(shù)上的簡(jiǎn)單提升，它做的事情很務(wù)實(shí)，讓已經(jīng)很貴的算力，少浪費(fèi)一點(diǎn)，從而激發(fā)最大的潛能。

為何是阿里在定義 AI 基礎(chǔ)設(shè)施？

除了性能本身，磐脈 920 背后更值得關(guān)注的，是平頭哥和阿里的整體布局。

過去幾年，很多公司做芯片，往往集中在單一環(huán)節(jié)，比如 GPU、AI 加速卡或者 CPU。

但平頭哥的思路是做全棧。

目前，平頭哥已經(jīng)形成四條產(chǎn)品線：真武系列 AI 芯片、倚天服務(wù)器 CPU、鎮(zhèn)岳存儲(chǔ)主控芯片，以及這次發(fā)布的磐脈系列智能網(wǎng)卡。

對(duì)應(yīng)的，正好是數(shù)據(jù)中心里的幾個(gè)關(guān)鍵環(huán)節(jié)：算力、存力和網(wǎng)力。

李旭慧在采訪中表示：「單一芯片產(chǎn)品無(wú)法解決全鏈路問題，只有打通算力、存力、網(wǎng)力，才能最大化釋放 AI 硬件性能。」

這也是平頭哥和很多單點(diǎn)芯片公司的區(qū)別。它不是只做一塊性能更強(qiáng)的芯片，而是試圖從整個(gè)系統(tǒng)角度去看問題。

很多芯片公司做產(chǎn)品，先做出來(lái)，再去找客戶和落地場(chǎng)景。

但平頭哥不是。

李旭慧告訴極客公園，磐脈 920 立項(xiàng)之時(shí) AI 智能體尚未成為行業(yè)焦點(diǎn)。但他們從阿里云自身業(yè)務(wù)中判斷，未來(lái) AI 一定會(huì)推動(dòng)數(shù)據(jù)中心網(wǎng)絡(luò)能力升級(jí)。

「一線業(yè)務(wù)場(chǎng)景的實(shí)際需求，是芯片技術(shù)迭代與產(chǎn)品優(yōu)化的核心驅(qū)動(dòng)力。」先有阿里云的大規(guī)模業(yè)務(wù)場(chǎng)景，再?gòu)膶?shí)際場(chǎng)景需求里倒推產(chǎn)品定義。

這就是磐脈 920 的商業(yè)路徑。據(jù)透露，和平頭哥倚天、真武、鎮(zhèn)岳系列芯片一樣，它會(huì)先部署在阿里云數(shù)據(jù)中心。

從這個(gè)角度看，磐脈 920 的發(fā)布，本身就是阿里「通云哥」協(xié)同能力的一次體現(xiàn)。

通義負(fù)責(zé)模型，阿里云負(fù)責(zé)場(chǎng)景，平頭哥負(fù)責(zé)底層硬件。模型需求推動(dòng)云基礎(chǔ)設(shè)施升級(jí)，云場(chǎng)景又反向推動(dòng)芯片演進(jìn)。

這種全棧自研的閉環(huán)，在國(guó)內(nèi)科技公司里并不多見。「通云哥」的模式雖然前期投入大、周期長(zhǎng)，但一旦走通，護(hù)城河也極深。

AI 競(jìng)爭(zhēng)走到今天，比拼的已經(jīng)不是單點(diǎn)能力，而是這一整套系統(tǒng)能否順暢運(yùn)轉(zhuǎn)。

隨著 AI 越來(lái)越多從訓(xùn)練走向推理，模型、云與芯片之間形成的持續(xù)反饋循環(huán)，整體優(yōu)勢(shì)的顯現(xiàn)可能才剛剛開始。

*頭圖來(lái)源：平頭哥

本文為極客公園原創(chuàng)文章，轉(zhuǎn)載請(qǐng)聯(lián)系極客君微信 geekparkGO

極客一問

你如何看待「磐脈 920」？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.