![]()
GPU 買了那么多,跑起來(lái)卻像「堵車」?
作者|蘇子華
編輯|鄭玄
最近兩年,AI 行業(yè)最熱的詞一直繞不開「算力」。
從大模型訓(xùn)練,到今年 Agent 的火熱,再到各家云廠商不斷擴(kuò)建智算中心,行業(yè)討論最多的,幾乎都是 GPU、芯片和算力規(guī)模。好像只要卡夠多,AI 就能繼續(xù)往前跑。
但現(xiàn)實(shí)并不是。
不少做大模型訓(xùn)練和推理的人,已經(jīng)越來(lái)越明顯地感受到另一層問題:機(jī)器越來(lái)越貴,GPU 越來(lái)越強(qiáng),但模型訓(xùn)練和推理的效率,卻沒有同步提升。
問題不一定出在算力本身,而可能出在另一件長(zhǎng)期被忽視的事情上——網(wǎng)力。
平頭哥產(chǎn)品總監(jiān)李旭慧打了個(gè)比方:「如果把算力比作 AI 時(shí)代的石油,網(wǎng)力就是輸油管道。算力提供動(dòng)力,網(wǎng)力保障效率。」
4 月 28 日,在數(shù)字中國(guó)建設(shè)峰會(huì)上,平頭哥發(fā)布首款智能網(wǎng)卡磐脈 920。這是國(guó)內(nèi)首個(gè)內(nèi)置 PCIe Switch 的 400G 智能網(wǎng)卡,最大支持 400Gbps 吞吐帶寬,可應(yīng)用于萬(wàn)卡智算集群、通算集群和高性能存儲(chǔ)等場(chǎng)景,目前已經(jīng)量產(chǎn),并將率先部署在阿里云數(shù)據(jù)中心。
![]()
磐脈 920 想要解決的就是「網(wǎng)力」問題。
今天的大模型訓(xùn)練,一個(gè)訓(xùn)練任務(wù),往往需要幾千甚至上萬(wàn)張 GPU 同時(shí)協(xié)作。單張 GPU 性能再?gòu)?qiáng),也必須跟整個(gè)集群保持同步。
問題在于,只要其中一部分節(jié)點(diǎn)慢下來(lái),其他節(jié)點(diǎn)就只能等待。他觀察到,目前行業(yè)里很多萬(wàn)卡級(jí)智算集群,GPU 實(shí)際利用率較低,「能做到 60%,已經(jīng)算行業(yè)頂尖水平。」
過去行業(yè)更容易關(guān)注「有多少卡」,但實(shí)際在 AI 訓(xùn)練場(chǎng)景中,系統(tǒng)運(yùn)行效率并不是由最強(qiáng)的硬件決定,而是受限于集群里最慢的那個(gè)節(jié)點(diǎn)。「領(lǐng)先節(jié)點(diǎn)的算力會(huì)持續(xù)閑置等待,造成大規(guī)模算力浪費(fèi)。」
磐脈 920 的發(fā)布實(shí)際上也指明了一個(gè)方向:當(dāng) GPU 已經(jīng)足夠強(qiáng)之后,下一步到底該補(bǔ)哪里。
01
一張網(wǎng)卡,盤活整個(gè)智算集群
當(dāng) AI 智能體開始進(jìn)入真實(shí)業(yè)務(wù)場(chǎng)景,推理業(yè)務(wù)的占比越來(lái)越高。
「在 Agent 應(yīng)用爆發(fā)的背景下,推理業(yè)務(wù)的增長(zhǎng)速度顯著快于訓(xùn)練。」李旭慧表示。
大模型訓(xùn)練強(qiáng)調(diào)強(qiáng)同步,而推理面對(duì)的是大量突發(fā)、小包、高頻請(qǐng)求,對(duì)低時(shí)延和穩(wěn)定性的要求更高,這也意味著對(duì)「網(wǎng)力」的要求更高。
而概括一下磐脈 920 在做的事,就是盡量減少整系統(tǒng)里的「堵」和「等」,通過網(wǎng)力的提升來(lái)釋放 AI 算力。
其背后的實(shí)現(xiàn)原理,有三個(gè)關(guān)鍵。
![]()
首先是支持多路徑 RDMA,打破單一路徑的局限。
通俗理解,就是原本只能走一條高速,現(xiàn)在變成多條路同時(shí)分流。更關(guān)鍵的是,這些數(shù)據(jù)雖然分開走,但最終還能按順序準(zhǔn)確拼回來(lái)。
李旭慧解釋,磐脈 920 通過支持逐包噴灑、亂序接收和選擇性重傳,實(shí)現(xiàn) RDMA 多路徑。
從結(jié)果來(lái)看,這套方案帶來(lái)的改善比較直接。
按照官方實(shí)測(cè),磐脈 920 支持單 QP 打滿 400G 帶寬,而同類主流產(chǎn)品帶寬大約只有其一半。同時(shí),多路徑能力可以把交換機(jī)端口緩沖區(qū)水線降低 90%,減少丟包和重傳。
第二個(gè)關(guān)鍵設(shè)計(jì),是把「繞路」變成「直連」。
磐脈 920 最大的亮點(diǎn)之一,是內(nèi)置 PCIe Switch。這也是國(guó)內(nèi)首個(gè)做到這一點(diǎn)的 400G 智能網(wǎng)卡。
傳統(tǒng)服務(wù)器架構(gòu)里,PCIe Switch 通常部署在主板上,數(shù)據(jù)需要繞多個(gè)節(jié)點(diǎn)轉(zhuǎn)發(fā)。結(jié)果就是,有的路徑長(zhǎng),有的路徑短,時(shí)延不一致。
對(duì)于需要高度同步的 AI 訓(xùn)練任務(wù)來(lái)說,這種「不整齊」會(huì)直接影響效率。
李旭慧打了個(gè)比方:傳統(tǒng)架構(gòu)里,經(jīng)常會(huì)出現(xiàn)「四個(gè)下行通道擠一個(gè)上行通道」的情況。
這很像四條支路同時(shí)匯入一條主干道,堵塞幾乎不可避免。
磐脈 920 把 PCIe Switch 直接集成進(jìn)芯片內(nèi)部,讓網(wǎng)卡與 CPU、GPU 形成更直接的連接關(guān)系。
少繞路,意味著更低時(shí)延;路徑更統(tǒng)一,則意味著更穩(wěn)定的同步效率。
根據(jù)平頭哥實(shí)測(cè),在相同集群規(guī)模和任務(wù)條件下,部署磐脈 920 后,大模型訓(xùn)練和推理任務(wù)完成時(shí)間可縮短 14%。
第三個(gè)關(guān)鍵,是讓網(wǎng)絡(luò)具備自己判斷的能力。
傳統(tǒng)網(wǎng)卡更多像搬運(yùn)工。收到數(shù)據(jù),搬過去,僅此而已。
據(jù)了解,磐脈 920 加入了細(xì)粒度網(wǎng)絡(luò)感知和可編程擁塞控制能力。直白講,就是它能主動(dòng)避堵。讓網(wǎng)絡(luò)開始從被動(dòng)傳輸,變成主動(dòng)調(diào)度。
對(duì)于越來(lái)越復(fù)雜的 AI 集群來(lái)說,這種能力的重要性會(huì)越來(lái)越明顯。
從這些設(shè)計(jì)能看出來(lái),磐脈 920 并不是在追求參數(shù)上的簡(jiǎn)單提升,它做的事情很務(wù)實(shí),讓已經(jīng)很貴的算力,少浪費(fèi)一點(diǎn),從而激發(fā)最大的潛能。
02
為何是阿里在定義 AI 基礎(chǔ)設(shè)施?
除了性能本身,磐脈 920 背后更值得關(guān)注的,是平頭哥和阿里的整體布局。
過去幾年,很多公司做芯片,往往集中在單一環(huán)節(jié),比如 GPU、AI 加速卡或者 CPU。
但平頭哥的思路是做全棧。
目前,平頭哥已經(jīng)形成四條產(chǎn)品線:真武系列 AI 芯片、倚天服務(wù)器 CPU、鎮(zhèn)岳存儲(chǔ)主控芯片,以及這次發(fā)布的磐脈系列智能網(wǎng)卡。
對(duì)應(yīng)的,正好是數(shù)據(jù)中心里的幾個(gè)關(guān)鍵環(huán)節(jié):算力、存力和網(wǎng)力。
李旭慧在采訪中表示:「單一芯片產(chǎn)品無(wú)法解決全鏈路問題,只有打通算力、存力、網(wǎng)力,才能最大化釋放 AI 硬件性能。」
這也是平頭哥和很多單點(diǎn)芯片公司的區(qū)別。它不是只做一塊性能更強(qiáng)的芯片,而是試圖從整個(gè)系統(tǒng)角度去看問題。
很多芯片公司做產(chǎn)品,先做出來(lái),再去找客戶和落地場(chǎng)景。
但平頭哥不是。
李旭慧告訴極客公園,磐脈 920 立項(xiàng)之時(shí) AI 智能體尚未成為行業(yè)焦點(diǎn)。但他們從阿里云自身業(yè)務(wù)中判斷,未來(lái) AI 一定會(huì)推動(dòng)數(shù)據(jù)中心網(wǎng)絡(luò)能力升級(jí)。
「一線業(yè)務(wù)場(chǎng)景的實(shí)際需求,是芯片技術(shù)迭代與產(chǎn)品優(yōu)化的核心驅(qū)動(dòng)力。」先有阿里云的大規(guī)模業(yè)務(wù)場(chǎng)景,再?gòu)膶?shí)際場(chǎng)景需求里倒推產(chǎn)品定義。
這就是磐脈 920 的商業(yè)路徑。據(jù)透露,和平頭哥倚天、真武、鎮(zhèn)岳系列芯片一樣,它會(huì)先部署在阿里云數(shù)據(jù)中心。
從這個(gè)角度看,磐脈 920 的發(fā)布,本身就是阿里「通云哥」協(xié)同能力的一次體現(xiàn)。
通義負(fù)責(zé)模型,阿里云負(fù)責(zé)場(chǎng)景,平頭哥負(fù)責(zé)底層硬件。模型需求推動(dòng)云基礎(chǔ)設(shè)施升級(jí),云場(chǎng)景又反向推動(dòng)芯片演進(jìn)。
這種全棧自研的閉環(huán),在國(guó)內(nèi)科技公司里并不多見。「通云哥」的模式雖然前期投入大、周期長(zhǎng),但一旦走通,護(hù)城河也極深。
AI 競(jìng)爭(zhēng)走到今天,比拼的已經(jīng)不是單點(diǎn)能力,而是這一整套系統(tǒng)能否順暢運(yùn)轉(zhuǎn)。
隨著 AI 越來(lái)越多從訓(xùn)練走向推理,模型、云與芯片之間形成的持續(xù)反饋循環(huán),整體優(yōu)勢(shì)的顯現(xiàn)可能才剛剛開始。
*頭圖來(lái)源:平頭哥
本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請(qǐng)聯(lián)系極客君微信 geekparkGO
極客一問
你如何看待「磐脈 920」?
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.