最近,又一個長期被國外壟斷的技術高地被攻克。中科曙光正式發(fā)布首款全棧自研400G無損高速網(wǎng)絡——scaleFabric。它是國內首款國產(chǎn)類InfiniBand(簡稱IB)原生無損RDMA超高速網(wǎng)絡產(chǎn)品,曙光全棧自研,專為大規(guī)模萬卡集群打造,適配大模型訓練等高端計算場景,是實現(xiàn)國產(chǎn)算力網(wǎng)絡自主可控的核心產(chǎn)品。
曙光歷時三年研發(fā),實現(xiàn)scaleFabric從底層芯片到上層軟件的100%全棧自研。目前,曙光推出了scaleFabric 400單口標準網(wǎng)卡、scaleFabric 400 1U 80口液冷交換機、scaleFabric 400 2U 80口風冷交換機三款產(chǎn)品,核心技術是兩顆自研芯片:一是網(wǎng)卡芯片,400G高帶寬,自研RDMA引擎;二是交換芯片,64T雙向交換容量,轉發(fā)延時低至260納秒,采用112G高速Serdes。
這項突破究竟有多重要?業(yè)內普遍認為,計算、網(wǎng)絡、存儲是支撐大規(guī)模計算系統(tǒng)的三大核心支柱,算力決定系統(tǒng)性能的上限,但一旦網(wǎng)絡拉垮,可能將整體性能下限歸零。尤其在大規(guī)模集群場景下,網(wǎng)絡的重要性更為突出。
當前,從GPT?3到GPT?5,智算集群已正式邁入萬卡時代。隨著大模型即將進入萬億參數(shù)時代,計算卡規(guī)模持續(xù)擴張,網(wǎng)絡已成為制約智算性能的核心瓶頸。而scaleFabric的出現(xiàn),正是補齊了我國高端智算領域的最后一塊關鍵拼圖,讓上萬張GPU卡實現(xiàn)高效協(xié)同、緊密互聯(lián)。
scaleFabric的優(yōu)勢所在
當前國內廠商以RoCE路線為主,而曙光堅持采用IB原生RDMA路線,這是為什么?
RoCE網(wǎng)絡基于以太網(wǎng)嫁接RDMA技術,本質是“在以太網(wǎng)之上跑IB協(xié)議”,用UDP報文封裝IB協(xié)議,屬于嫁接式技術,可以兼容IP生態(tài),不過帶寬低、時延高、運維復雜、大規(guī)模組網(wǎng)能力弱等技術短板。如果只是中小規(guī)模系統(tǒng),RoCE會是不錯的選擇,但對大規(guī)模系統(tǒng)可能就不夠了。
IB是面向高端計算的原生RDMA專用高速網(wǎng)絡,協(xié)議棧專為高速通信設計、包頭信息短、有效載荷高,但成本昂貴且長期被國際廠商壟斷。以英偉達為例,其在2019年收購Mellanox補齊高速網(wǎng)絡板塊,足以見得其對IB這項技術的重視程度。
隨著以scaleFabric為代表的國產(chǎn)自主RDMA高速網(wǎng)絡應運而生,徹底打破了IB設備受限的現(xiàn)狀。它兼容IB生態(tài),擴展協(xié)議可支撐10萬卡規(guī)模集群,搭配400G網(wǎng)卡芯片,性能已達業(yè)界一流水平。
從核心指標方面看,時延方面,IB交換機采用VCT交換機制,支持邊收邊轉,交換時延小于 300ns,而RoCE采用存儲 - 轉發(fā)模式,需要完整接收數(shù)據(jù)包后才能轉發(fā),時延普遍在500ns以上,達到IB的兩倍以上,且動態(tài)時延容易受網(wǎng)絡擁堵影響而大幅波動;帶寬方面,主流IB網(wǎng)卡400G,主流RoCE網(wǎng)卡200G,而sacleFabric單端口帶寬達到了800G;無損網(wǎng)絡實現(xiàn)上,IB采用基于信用的精細化流控,發(fā)送前確認接收端資源,從根源避免丟包,無需額外擁塞控制;RoCE采用PFC暫停機制,粗粒度流控,易出現(xiàn)丟包、PFC風暴/死鎖,必須依賴擁塞控制且需人工調優(yōu)水線。
![]()
在并行效率方面,scaleFabric達到了85%,遠超RoCE的65%,核心算力利用率大幅提升。相比傳統(tǒng)RoCE方案,采用國產(chǎn)scaleFabric網(wǎng)絡后,整體應用性能提升幅度超過30%。
![]()
從參數(shù)來看,scaleFabric全面對標英偉達NDR系列,甚至部分規(guī)格更優(yōu):端口密度上,交換機達80口400G,比NDR的64口提升25%,大幅降低組網(wǎng)成本;最大QP數(shù)上,支持256K,是NDR的2倍,更好支撐大規(guī)模并行計算;實測性能上,RDMA延時0.93微秒,轉發(fā)延時260納秒,達到國內領先水平。
![]()
![]()
![]()
目前,scaleFabric已落地國家超算互聯(lián)網(wǎng)核心節(jié)點的3萬卡商用集群,實現(xiàn)3套scaleX萬卡集群同步上線,為國產(chǎn)最大規(guī)模真實負載驗證。
專家實測使用效果顯著
如果在國內要找一家與英偉達基因最像的企業(yè),我們認為是曙光。英偉達的GPGPU起源于科學計算,最早在中國高校和科研院所推廣生態(tài);而曙光同樣發(fā)軔于科學計算領域,在產(chǎn)品層面已形成全線對標英偉達的布局。
紙上談兵易,實戰(zhàn)驗證難。那么,站在一線工程師和從業(yè)者角度來看,曙光的scaleFabric使用體驗究竟如何?
中國科學院計算技術研究所研究員王展的團隊聚焦分子動力學模擬這一典型科學智能場景,其核心挑戰(zhàn)在于高精度長時間模擬。他表示,團隊曾在日本富岳超算上的優(yōu)化經(jīng)驗表明,通信是最大瓶頸。在拿到scaleFabric后,他們第一時間部署測試,在單卡性能方面,單QP通信性能優(yōu)于NVIDIA ConnectX-7(CX7),多QP通信Write/Send性能領先,RDMA Write延遲1.14μs、Send延遲 1.47μs,表現(xiàn)優(yōu)異;交換機轉發(fā)延遲實測255ns,與英偉達IB持平,優(yōu)于主流300ns方案;在大規(guī)模集群測試中,124 GPU規(guī)模下帶寬突破 120GB/s,4096 GPU至萬卡級規(guī)模帶寬基本穩(wěn)定。
王展特別提到,scaleFabric具備極強的科研友好性,開箱即用、OpenSM服務完善,HPL、LAMMPS 等應用無需額外配置即可運行,監(jiān)控與管理工具便捷易用。
北京科技大學計算機與通信工程學院儲根深表示,重大工程依賴數(shù)智模擬來降低成本、縮短周期,要實現(xiàn)“算得準、算得好”,必須做到高保真數(shù)值模擬,而這會帶來計算量激增,如何充分發(fā)揮算力成為核心挑戰(zhàn),尤其在超智一體架構下,如何利用scaleFabric優(yōu)化通信,是提升性能的關鍵。
儲根深的團隊基于scaleFabric硬件,從硬件層、系統(tǒng)庫層、算法層三層架構展開優(yōu)化。在國家超算互聯(lián)網(wǎng)核心節(jié)點的實測中,輻照材料分子動力學軟件從千卡擴展至萬卡,并行效率實現(xiàn)了86%,通信開銷從50%降至10%;堆芯流體力學CFD軟件 phi-flow萬卡并行效率57%,通信時間下降10%;三維快堆堆芯中子物理輸運軟件 ANT MOC2.0在萬卡規(guī)模下并行效率42%,特征線數(shù)量近2000億,計算精度提升7 倍。
![]()
![]()
![]()
“實際測試中,scaleFabric表現(xiàn)出優(yōu)異的穩(wěn)定性,兩周連續(xù)測試無網(wǎng)絡抖動或故障,生態(tài)兼容性對標英偉達。”儲根深感嘆道,scaleFabric為工程計算軟件的萬卡擴展提供了堅實硬件支撐,未來期待在生態(tài)層面持續(xù)優(yōu)化,進一步釋放國產(chǎn)算力潛能。
科大訊飛AI工程院智算基礎設施架構師鮑中帥表示,自2019年起,科大訊飛堅定走國產(chǎn)化路線,并與曙光展開深度合作。在國家超算互聯(lián)網(wǎng)核心節(jié)點的3萬卡商用集群中,科大訊飛也落地了多項應用優(yōu)化成果:落地了DeepEP,重點解決高吞吐場景的性能瓶頸;通過Ripiple策略重計算技術解除了重計算與反向計算的綁定關系,實現(xiàn)更細粒度的流水線并行;dualpipev+cudagraph技術實現(xiàn)EP域通信計算overlap,有效降低流水空泡。
鮑中帥強調,曙光不僅在IB領域能力突出,同時保持開放生態(tài),科大訊飛與曙光合作歷史久遠、深入且全面。此外,雙方的合作也不止于IB。
中國自主進入新階段
實現(xiàn)突破,曙光來時的路并不輕松。事實上,IB真正的難點在底層,物理層與工藝強相關,想把網(wǎng)絡做得比IB更好極其困難。研發(fā)初期,曙光并無十足把握能達到其水平,過程中經(jīng)歷了諸多艱辛。
最終能取得成功,得益于兩點:一是站在巨人的肩膀上,長期使用IB產(chǎn)品讓曙光對其有深刻理解;二是基于這些經(jīng)驗,得以在自研過程中改進其原有設計的不足,規(guī)避某些痛點。正因如此,曙光在部分性能上反而實現(xiàn)了超越。
而在整個大算力領域,曙光的布局不止是IB,主要集中在三個層面:一是核心計算芯片的研發(fā);二是硬件層面的高效實現(xiàn),隨著芯片功率密度、熱密度和IO密度的急劇攀升,在供電和冷卻等支撐技術上已進入“深水區(qū)”,面臨著極具挑戰(zhàn)性的工程難題,必須在此領域實現(xiàn)技術突破;三是系統(tǒng)級的協(xié)同與生態(tài)合作,曙光強調算、存、傳的協(xié)同,以及與IB等設備的深度融合。
通過在不同層級進行布局,并與國內產(chǎn)業(yè)鏈上下游伙伴保持緊密合作,曙光正在構建一個自主可控的算力生態(tài)。
從全球看,IB市場由少數(shù)全棧能力廠商主導,英偉達收購Mellanox后,軟硬件深度結合,構建了高性能集群。國內IB發(fā)展正迎頭趕上,從協(xié)議標準確立到速率快速升級,目前已步入融合與自研階段。由于IB設備一體機難以獲取,國產(chǎn)自主衍生的RDMA高速網(wǎng)絡便應運而生,如曙光scaleFabric。在此之后,真正的難點在上層生態(tài)建設。光合組織等平臺的協(xié)同正在加速這一進程。
請將我們設為“星標”,這樣就會第一時間收到推送消息。
歡迎關注EEWorld旗下訂閱號:“機器人開發(fā)圈”
掃碼添加小助手回復“機器人”
進群和電子工程師們面對面交流經(jīng)驗
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.