![]()
![]()
“算力、網力和存力的全布局,讓平頭哥在國內AI基建競賽中占據關鍵一席。”
作者丨劉伊倫
編輯丨包永剛
“在網絡結構未充分優化的情況下,大規模AI集群的GPU利用率通常僅維持在較低水平。”平頭哥產品總監李旭慧表示。
算力集群本質上是一個強同步系統:上千張GPU需要在同一時間完成計算并交換數據。一旦某個節點通信出現延遲,整個集群的計算進程就會被迫等待,系統效率最終由最慢路徑決定。
當集群規模進一步擴展,網絡瓶頸被進一步放大:突發推理流量帶來的數據洪峰、復雜拓撲導致的鏈路擁塞,以及依賴系統級PCIe總線所形成的長數據路徑,都在不斷侵蝕算力效率。
在這一背景下,行業正在形成一個新的共識:決定AI系統效率的關鍵,正在從單點算力性能,轉向整個算力網絡系統的協同能力。
4月28日,在2026數字中國建設峰會上,平頭哥正式發布旗下首款智能網卡“磐脈920”。
磐脈920被定義為AI原生智能網卡,其搭載自主設計的智能網卡芯片,采用PCIe 5.0與112G PAM4以太網技術,最大支持400Gbps吞吐帶寬,收發包率達到400Mpps。
據雷峰網了解,磐脈920已進入量產階段,首批產品已于本月上線,相關訂單正在加速交付。
隨著磐脈920的發布,平頭哥已完成數據中心四大核心芯片的布局:真武系列AI芯片、倚天系列CPU、磐脈系列智能網卡,以及鎮岳系列存儲主控芯片,覆蓋算力、網絡與存力三大關鍵環節。
當Agent驅動的流量結構變得更加碎片化與不可預測,算力、網絡與存儲之間的協同邊界被持續放大,智能網卡還能在多大程度上繼續釋放系統效率?
01
AI算力越強越浪費?
通信路徑讓GPU利用率「卡」在30%
“從行業趨勢來看,AI算力增長很快,網絡已經成為明顯的短板。”李旭慧說到。
這一問題在訓練與推理分化中被進一步放大。
隨著智能體開始進入規模化應用,AI系統的負載結構正在發生轉移:推理與訓練的占比逐步從1:1向4:1演進。
在這一變化下,網絡不再只是訓練階段的支撐系統,而是同時承載高頻、突發、混合型的推理流量,整體負載從相對可預測的同步通信,轉向高度動態的不確定性結構,對帶寬與時延能力提出持續性挑戰。
但現有網絡體系仍存在明顯代際差異。
傳統TCP網卡依賴內核與軟件棧完成數據搬移,本質上仍是“CPU參與型”的通信路徑;RDMA雖然通過繞過內核、減少拷貝開銷來降低時延,但在大規模AI集群中,仍會受到多層交換拓撲、跨節點同步機制以及全局一致性調度等因素的制約。
DPU與AI專用網卡的路徑也開始分化。
DPU通常集成CPU核并支持可編程能力,同時需要掛載內存,整體更偏向通用計算場景下的資源虛擬化與云資源管理。而在AI訓練與推理場景中,核心需求并不是計算擴展,而是大規模、低時延、對稱通信能力,因此更輕量的專用網卡架構被認為更具針對性。
從實際效果來看,這類通信瓶頸會直接影響集群效率。
在大規模訓練系統中,如果網絡不匹配,GPU利用率往往只能維持在30%左右,即便優化較好也很難超過60%。其根源并不只在單點帶寬,而在于整個系統的拓撲結構與通信路徑難以完全對稱。CPU、GPU、網卡與多級交換機共同構成復雜路徑,一旦鏈路時延不均,就會被同步機制放大為整體性能損耗。
因此,網絡優化的關鍵不只在于帶寬提升,更在于對通信路徑的調度與均衡能力。例如在相近時延條件下進行路徑探測與流量分發,使系統盡可能避免“快慢不均”的資源浪費,從而提升整體算力利用效率。
02
帶寬利用率提升至90%、系統成本下降30%,
磐脈920「重構」集群通信效率邊界
“磐脈920搭載平頭哥自研芯片架構,每秒可處理4億個網絡數據包,提供400G網絡帶寬,單秒傳輸能力相當于100部高清視頻數據量。”李旭慧告訴雷峰網。
磐脈920以AI集群通信瓶頸為核心出發點,從“路徑、調度與架構”三個層面重構數據流轉方式。
在傳輸層面,磐脈920通過多路徑RDMA機制,打破傳統RDMA依賴單一路徑的限制,使數據流量能夠在多鏈路之間并行調度,從而降低熱點擁塞概率并提升整體帶寬利用率,顯著縮短訓練場景中的任務完成時間。
在調度層面,其集成細粒度網絡感知能力與可編程擁塞控制算法,能夠對鏈路狀態與流量變化進行實時監測,并在突發流量或擁塞發生前后動態調整傳輸策略,實現對不同業務流的差異化調度與優先級保障,從而降低網絡抖動對關鍵任務的影響。
同時,通過選擇性重傳與擁塞狀態實時監控機制,進一步降低跨域長尾時延,使鏈路帶寬利用率由約60%提升至接近90%。
這一調度能力的基礎,來自其更底層的智能感知算力網絡設計。磐脈920具備55種網絡感知手段與最多32種擁塞控制算法組合能力,能夠對鏈路進行細粒度檢測與收發包級控制,使擁塞感知時間較傳統軟件方案提升約10倍,并可實現7級業務優先級保障。
更關鍵的變化發生在系統架構層面。
磐脈920在網卡內部引入PCIe Switch,實現直連GPU、SSD,減少對外部交換芯片與冗余數據路徑的依賴,從而構建更短的數據傳輸鏈路,降低系統復雜度與通信開銷。
這種“內生式網絡結構”重構了數據流轉路徑,也直接帶來整體系統成本約30%的下降。
圍繞這一架構,磐脈920進一步集成可編程網絡能力與硬件加速引擎,支持對數據面、控制面及網絡事件的靈活編排,并具備多種網絡感知手段與擁塞控制算法組合能力,使系統能夠根據不同AI負載動態調整通信策略。
在實際部署中,這一設計不僅提升了網絡利用效率,也顯著降低了集群部署與運維復雜度,使AI系統從數小時級部署收斂至分鐘級響應。
03
磐脈920將首先在阿里云數據中心部署
據悉,磐脈920的帶寬等性能已處于行業領先水平。
在數據中心基礎設施這一長周期賽道中,技術能力只是起點,真正決定產品價值的,是能否完成從“可用”到“可規模化商用”的跨越。
基于這一判斷,磐脈920的設計并未局限于單一場景,而是圍繞多類算力基礎設施需求展開系統性布局,并在不同層級的數據流通與計算場景中形成適配能力:
在智算集群中,磐脈920主要支撐大規模AI訓練的高性能互聯,保障萬卡級集群的低時延、高穩定通信;在通算集群中,通過網絡卸載與容器化能力,降低網絡開銷,提升整體算力利用效率;在存儲場景中,為分布式存儲提供低時延、高帶寬與穩定流量支撐,保障海量數據的持續讀寫;在數據庫與大數據分析場景中,則通過優化數據傳輸路徑,提升整體數據處理與分析效率。
磐脈將首先在阿里云數據中心實現部署。阿里云所提供的高復雜度云計算場景,作為核心訓練環境,通過“標桿級負載”持續拉動產品能力上限。
從產品布局來看,磐脈920的發布,并非一次單點技術突破,而是平頭哥數據中心芯片體系的一次關鍵補位。
至此,真武AI芯片、倚天CPU、鎮岳存儲主控與磐脈智能網卡分別覆蓋智能計算、通用處理、數據存儲和網絡互聯,算力、存力與網力三類核心能力在芯片層完成閉環。這意味著,平頭哥已經具備從“提供單一算力器件”走向“構建完整算力基礎設施能力”的底層條件。
當算力集群效率越來越取決于通信與協同能力,網絡不再是附屬組件,而成為決定系統上限的核心變量。
在這一邏輯下,同時掌握算、存、網三類核心芯片能力的廠商,將不再只是參與某一環節的競爭者,而是有機會重新定義AI基礎設施的性能邊界與成本結構。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.