![]()
智東西
作者 程茜
編輯 漠影
智東西4月29日報道,昨日下午,阿里平頭哥旗下首款智能網卡產品磐脈920正式發布,該產品發布即量產,并首先在阿里云數據中心部署。
這是AI算力浪潮下,平頭哥在AI基礎設施網絡領域的關鍵落子。
磐脈920的幾項性能參數也頗有代表性:采用全自研ASIC芯片架構,國內首個內置PCIe Switch的400G智能網卡,支持多路徑RDMA,最大支持400Gbps吞吐帶寬,可在萬卡智算集群、通算集群、高性能存儲場景部署。
![]()
▲磐脈920
這些性能都指向了當下AI基礎設施中的關鍵一環——數據傳輸。
大模型正從單一大參數基座走向超大模型、多模態融合、長上下文、端邊云協同、Agent規模化、實時推理的演進路線,模型參數暴漲、上下文窗口擴容、訓練數據量級指數級增長、推理并發需求爆發,算力、存力、網力不再是配套基礎設施,而是決定大模型性能上限、落地成本、迭代速度與產業規模化的三大核心底座,三者互為約束、缺一不可。
此次磐脈920的發布,也意味著平頭哥完成了算網存的全棧布局。
一、平頭哥首款自研智能網卡亮相,打通低時延互聯壁壘
模型參數規模邁向萬億級、AI計算集群規模突破萬卡,通信瓶頸已成為制約算力發展的核心難題,高性能互聯更成為AI基礎設施的剛需。
但值得注意的是,AI訓練與推理兩大核心場景,對網絡及網卡的性能需求存在顯著差異,傳統企業級網卡已難以適配其嚴苛要求。
在AI訓練場景,訓練任務往往需要數千張甚至上萬張GPU同時協同運算,不僅要高頻、大批量傳輸訓練數據,還要保證所有節點同步完成數據搬運與計算任務。而整個集群的運行效率會受限于全網最慢節點,也就是說即便多數GPU計算、傳輸速度出眾,只要存在一處慢速鏈路或節點,整個任務就需等待其完成,會拖累效率。
反觀AI推理場景,其無需高強度同步協作,但核心訴求集中在小包高并發、低響應時延,且流量具有明顯突發性。同時,推理場景中混合流量并存,各類流量在時延敏感度、帶寬需求、突發特性上差異顯著,這就要求智能網絡既能實現低時延、高可靠傳輸,又能兼顧全網流量的高效均衡轉發。
平頭哥產品總監李旭慧透露,若網絡架構、網卡性能及傳輸調度未做好優化就會出現算力浪費,高端GPU的實際利用率往往較低,會導致大量高性能算力閑置。
正因如此,高性能網卡的重要性不言而喻。而作為平頭哥首款產品,磐脈920的性能參數也十分過硬。
磐脈920支持PCIe 5.0和112G PAM4,提供最大400Gbps吞吐帶寬,收發包率超400Mpps,具有512個超線程核心,搭建高效可編程平臺;同時集成芯片級網絡架構、內置PCIe Switch。
![]()
硬核指標對應的正是磐脈920超低時延互聯、多路徑噴灑與傳輸穩定性、細粒度擁塞控制能力、強適配通用性四大優勢,以匹配AI訓推場景需求。
首先在時延層面,磐脈920依托內置PCIe Switch,能打破傳統網卡的物理限制,確保網卡以極低時延直連GPU和SSD,減少對外部交換芯片的依賴,使系統成本降低30%。
其次是多路徑噴灑與傳輸穩定性,其支持多路徑RDMA突破了傳統RDMA依賴單一路徑的技術限制,可有效縮短訓推任務完成時間。李旭慧稱,他們內部實測的數據顯示,基于磐脈920實際訓練和推理的完成時間提升了14%。
第三是靈活擁塞控制能力,其通過集成細粒度網絡感知手段和用戶可編程擁塞控制算法,開放自定義API,可適配智算、通算等不同網絡環境部署,在微秒級擁塞響應和選擇性重傳布局下,能保證通信穩定。
最后是強適配通用性,磐脈920是半高半長單寬的標準尺寸,能適配各種主流服務器、兼容主流操作系統和通信庫,做到即插即用。
在應用方面,它能為政企、云廠商、AI企業等客戶,提供高帶寬、低時延、高可靠、可靈活定制的網絡加速能力,有效降低算力集群通信損耗、削減整體運維成本;另一方面,其直面大模型訓練、智算集群互聯、多模態推理、分布式超算等高速增長的AI核心場景,為其增長提供了更高效且具性價比的解決方案。
二、補齊AI網力關鍵一環,算存網全鏈路自研
算力與網絡的關聯密不可分,二者相輔相成、缺一不可。
李旭慧做了形象的比喻,如果把算力比作AI時代的石油,網力則是輸油管道,算力提供動力,網力保障效率,二者協同才能釋放有效算力。但當下在AI算力產業中“網絡拖了后腿”。
如今一個很明顯的產業趨勢是,AI算力重心從訓練單邊主導向訓練+推理共同驅動,且推理需求已顯著超過訓練。
區別于訓練,智能體驅動下的推理業務,混合流量場景會愈發復雜,對網絡的綜合調度能力要求大幅提升。傳統TCP網卡普遍依賴內核轉發架構,數據搬運轉發開銷大、性能瓶頸明顯,單路實際有效吞吐能力受限,而智能體業務天然具備交互頻繁、鏈路復雜、數據流轉量大的特點,會進一步放大傳統網卡的短板。
在這樣的判斷下,下一代AI網絡,需要打造大帶寬、低時延的高性能網卡方案,才能承接持續上漲的業務需求,同時聯動算力、存力協同發力,共建新一代一體化AI基礎設施體系。
與絕大多數獨立芯片公司和互聯網公司芯片業務不同,平頭哥已完成了算力、存力、網力的全布局。目前其已推出真武系列AI芯片、倚天系列Arm服務器CPU、磐脈系列智能網卡、鎮岳系列存儲主控芯片四大數據中心核心芯片,形成完整的底層芯片矩陣。
![]()
這一產品矩陣已形成清晰的分工體系:算力芯片為AI訓練、通用計算提供核心性能支撐,存儲芯片保障海量數據高速讀寫與穩定存儲,智能網卡則專攻高速通信傳輸難題。而更具想象力的是,未來這三大產品還可協同優化,提供更有競爭力的基礎設施解決方案。
三、阿里“通云哥”打造全棧AI,產業價值已顯現
從芯片、云服務到大模型,阿里一直在構建全棧AI優勢。
這一布局的底層邏輯,是全球科技賽道行業巨頭競爭范式的迭代升級。單純依靠單項技術優勢的時代已然落幕,取而代之的是全鏈條協同布局的角逐,覆蓋底層核心芯片、基礎硬件設施、大模型,直至云服務,全棧綜合實力正成為核心競爭的關鍵分水嶺。
而作為國內科技企業的代表,阿里已經把通義大模型事業部、阿里云和平頭哥組成的阿里巴巴AI黃金三角“通云哥”,打造為一臺AI超級計算機。
正如李旭慧所說,平頭哥布局磐脈920的核心思路,始終圍繞AI全棧解決方案的落地需求展開:凡是制約整體算力性能的關鍵環節,便是重點布局的方向。
自研芯片側,平頭哥在算力、存力和網力三大領域均實現了業界領先水平,例如,其“真武”PPU已成為出貨量最高的國產GPU之一。
大模型領域,2023年8月起,千問系列模型的編程和Agent能力穩居國內第一梯隊,是千行百業眾多頭部企業的首選模型。
云服務方面,阿里云已躋身全球頭部陣營。今年4月,Gartner發布的《2025年全球IaaS公有云服務市場份額》報告顯示,2025年中國IaaS市場阿里云以32.8%的份額位居第一,較2024年的30.1%提升2.7個百分點。
![]()
▲Gartner全球IaaS公有云服務市場份額報告
如今,阿里“通云哥”三位一體的布局全面成型,形成研發、驗證、迭代到商業化落地的良性循環,規避傳統各環節獨立設計、簡單銜接的技術模式,通過環環相扣、雙向賦能的閉環效應,構筑起芯片適配模型、平臺承載芯模、三者雙向優化的深度適配關系。
放眼全球,能做到芯片、云、大模型三者的互相優化協的公司寥寥可數,而這也是阿里在全球AI產業競爭中的核心壁壘。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.