<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      推翻二十年組網邏輯,智譜落地ZCube,讓同樣的GPU多干15%的活

      0
      分享至



      編輯|冷貓

      在 AI 發展的歷程中,我們仍在經歷一個野蠻生長的階段:規模,就是一切。

      這條路確實管用。從千卡到萬卡,算力規模的躍升支撐了大模型從 GPT-4 到 DeepSeek V4、GLM-5 的一路狂飆。

      不過我們都忽略了一個現實,在 GPU 硬件規模達到一定程度的時候,將算力相連的鏈路就成了不能忽視的性能變量。

      2026 年 5 月 5 日,OpenAI 聯合 NVIDIA、AMD、Intel、Microsoft、Broadcom 五家巨頭,通過開放計算項目(OCP)向全行業發布了 MRC(Multipath Reliable Connection)協議。這是一種專為超大規模 AI 集群設計的網絡傳輸協議,已部署在 OpenAI 最大的 NVIDIA GB200 超算集群中,用于訓練 ChatGPT 等前沿模型。



      • 技術博客鏈接:https://openai.com/index/mrc-supercomputer-networking/

      MRC 的核心思路是:將數據傳輸分散到數百條路徑上并發傳輸,在微秒級繞過鏈路故障,從根本上解決大規模 GPU 集群的網絡通信瓶頸。

      而就在剛剛,智譜率先在 GLM-5.1 線上生產集群中完成了新一代組網架構 ZCube 的規?;涞亍?/strong>

      ZCube 發表于網絡領域頂會ACM SIGCOMM 2025,被評價為「significantly change the way we think about and understand networking/顯著改變整個行業對網絡認知方式」。這是該技術首次大規模運用于生產推理集群中,智譜聯合馭馴網絡與負責網絡架構升級和優化工作,組網架構優化基于銳捷網絡交換機。



      • 論文標題:From ATOP to ZCube: Automated Topology OptimizationPipeline and A Highly Cost-Effective Network Topology for LargeModel Training
      • 論文鏈接:https://dl.acm.org/doi/epdf/10.1145/3718958.3750503
      • 技術博客:https://z.ai/blog/zcube

      新一代組網架構下,在不新增任何 GPU、不修改任何應用代碼的前提下,集群推理吞吐提升了 15%,首 Token 響應的尾延遲(TTFT P99)下降了 40.6%,交換機與光模塊硬件成本減少了三分之一

      不加一塊GPU,算力瞬間多出15%。或許,在擴大 GPU 規模之外:網絡,已經成為超大規模 AI 基礎設施的下一個主戰場。

      ZCube 技術解讀:架構層面消除擁塞

      推理時代的流量,和訓練時代截然不同

      傳統互聯網時代的數據中心流量是「統計均勻」的。數據中心普遍采用的 Fat-Tree / Clos 架構正是基于這一假設設計的:通過多層交換機堆疊來擴展規模,依賴 ECMP(等價多路徑路由)在多條路徑間分配流量,效果不錯。AI 訓練集群也基本沿用了這套架構,因為訓練階段的通信模式相對固定和規整。

      但大模型推理帶來了一種全新的流量范式。隨著 Prefill(處理用戶輸入上下文)與 Decode(逐 Token 生成輸出)分離部署成為主流,集群內部的數據傳輸呈現出高度的動態不對稱性。Prefill 節點處理輸入上下文,Decode 節點負責持續生成 Token,兩類節點之間需要頻繁傳遞 KV Cache。不同請求的上下文長度差異可達數十倍,處理時間隨之變化,KV Cache 數據在 GPU 之間的流向幾乎毫無規律可循。



      ROFT架構中,Leaf交換機之間容易出現流量負載不均

      在采用傳統 ROFT 架構的集群中,同一臺機器上不同網卡承擔的 KV Cache 傳輸負載差異巨大。這種源-目的不對稱性讓 ROFT 的 rail 映射不再天然等價于負載均衡,反而容易把流量集中推向少數 Leaf 交換機和鏈路。



      同一臺機器不同網卡的 KV Cache 傳輸負載差異圖

      問題的根源在于,Clos / ROFT 架構對推理流量產生了一類特殊的擁塞,智譜在技術報告中將其明確區分為兩類:

      • 不可避免的擁塞:例如多個 GPU 同時向同一目的地發送數據,在最后一跳鏈路上必然產生競爭。這類擁塞是物理規律決定的,通常依賴擁塞控制、流量整形等機制來緩解。
      • 可避免的擁塞:由拓撲結構和流量映射方式導致,流量被拓撲關系天然地推向同幾臺交換機和同幾條鏈路,即使總帶寬充足,也會形成局部熱點。某些 Leaf 交換機的部分出口隊列深度持續高位,頻繁觸發 PFC(Priority Flow Control)反壓,進一步將擁塞從局部擴散到整條鏈路,放大尾時延、壓低整體吞吐。這類擁塞的本質是架構設計問題,靠調參和協議優化都無法根治。



      兩類網絡擁塞示意圖

      過去,業界應對網絡擁塞的主流思路集中在協議層:自適應路由(adaptive routing)、包噴灑(packet spraying),乃至 OpenAI 剛發布的 MRC,本質上都是在擁塞發生后做補救或繞行。

      ZCube 選擇了從架構層面消除第二類擁塞產生的根源,讓它「不該發生的就不發生」。

      ZCube 的三重設計邏輯

      從 ZCube 組網架構圖來看,該架構打破了 Clos 架構中層次化堆疊交換機的傳統組網思路,設計了一種完全扁平的方式進行 GPU 服務器互聯。



      ZCube架構相比ROFT架構可以有效避免結構性網絡擁塞



      文中視頻鏈接:https://mp.weixin.qq.com/s/Tf_ZJ5f_Ur00mofWuIBZZQ

      第一層:取消分層,全網扁平化。傳統 Clos 架構由 Spine 層和 Leaf 層組成,數據在 GPU 之間傳輸需要「上行到 Spine,再下行到 Leaf」,跨層轉發本身就引入了額外延遲和擁塞風險。ZCube 取消了 Spine 層交換機,將所有 Leaf 交換機按序號奇偶分為兩組,兩組之間采用完全二部圖互聯(即每臺奇數交換機與所有偶數交換機相連)。這意味著全網 GPU 僅經過兩臺交換機即可互達,網絡直徑為 2 跳,介于單層交換機組網(1 跳,規模受限)和雙層 Clos(3 跳,延遲高)之間。

      第二層:單軌 + 多軌混合接入,實現理想負載均衡。這是 ZCube 最精妙的設計。每張 GPU 網卡擁有兩個端口,分別以兩種截然不同的方式接入兩組交換機:第一個端口采用「多軌」方式,即相同編號的 GPU 連接到同一臺奇數交換機;第二個端口采用「單軌」方式,即連續編號的 GPU 連接到同一臺偶數交換機。

      這種「一張網卡,兩種接法」的拓撲設計帶來了一個關鍵特性:全網任意兩張 GPU 之間有且僅有一條最優路徑。多路徑選路是傳統架構擁塞的重要來源,因為多條路徑意味著負載均衡策略需要做選擇,選擇就可能出錯,就可能導致流量集中。ZCube 用唯一路徑消除了這一不確定性。

      用更直白的話說:在 ROFT 架構下會在交換機之間發生沖突的流量,在 ZCube 架構下可以獨享整條網絡路徑。

      第三層:更低成本,更強擴展性,更高容錯。ZCube 在實現性能提升的同時,反而降低了硬件成本。由于取消了 Spine 層,在相同集群規模下,ZCube 比 Clos / ROFT 架構減少約三分之一的交換機和光模塊。

      擴展性方面同樣表現出色。以當前主流的 400Gb/s 網絡配置計算,ZCube 僅用一層交換機即可構建連接 16384 張 GPU 的扁平網絡。而傳統 ROFT 架構要實現同等規模,需要三層交換機。如果采用下一代 102.4Tbps 交換機和四端口 ConnectX-8 網卡,ZCube 可支持的 GPU 規模更可達 65536 張

      容錯性方面也有優勢。由于 ZCube 全網 GPU 之間不存在硬性隔離平面,在給定鏈路故障率下,GPU 對不可達的概率比傳統雙平面 Clos 網絡低 50% 以上。



      ZCube架構下流量負載均衡示意圖

      傳統 Clos 架構像一座多層立交橋系統,車流需要頻繁上下匝道,高峰期特定匝道必然擁堵,且立交橋的某一層出故障會影響大量通行。ZCube 則像一張經過精密數學優化的平面路網,每輛車都有一條唯一的最短路徑直達目的地,任何路段的車流量都被均勻分攤,從規劃層面消除了擁堵發生的條件。

      實驗:同樣的硬件,多出 15% 的算力

      ZCube 真正引人注目的是它已經在智譜千卡級 GLM-5.1 coding 推理集群中完成了完整的生產驗證。

      實驗設置非常干凈:GPU 型號不變、軟件棧不變、業務代碼不變,唯一的變量是將傳統 ROFT 架構替換為 ZCube。結果如下:

      • 推理吞吐提升 15% 以上:同樣的硬件投入,每秒多響應 15% 的 API 請求
      • TTFT P99 下降 40.6%:首 Token 響應的尾延遲大幅降低,用戶體感更流暢
      • 交換機與光模塊成本減少三分之一:在萬卡規模集群中,僅網絡硬件一項即可節省投資約 2.1 億至 6.4 億元



      更關鍵的是,這項升級的邊際成本很低,純粹是組網架構的替換。當 GPU 供應持續緊張、價格居高不下時,一種不依賴硬件堆疊就能顯著提升系統效率的方案,其產業價值不言而喻。

      AI 基礎設施的價值重心正在遷移

      ZCube 的落地與 OpenAI MRC 協議的發布,放在 2026 年 AI 基礎設施的大背景下審視,它們共同指向一個更深層的行業拐點:AI 基礎設施的價值重心,正在從「算力」向「系統效率」遷移。

      讓 GPU 跑得更好

      過去三年,大模型公司的基礎設施策略可以用一個字概括:買。搶 GPU、搶算力卡、搶機柜、甚至搶能源。這套邏輯在模型從零到一的階段是成立的,算力規模直接決定了能訓練多大的模型、能支撐多少用戶。

      但到了現在,這個邏輯開始遇到阻力。

      第一,GPU 的供應仍然緊張。盡管英偉達持續擴產,但需求增速遠超供給,尤其是高端推理卡的交付周期依然以季度計。第二,算力采購的經濟模型正在惡化。GPU 價格居高不下,而大模型 API 的定價競爭日趨激烈,Token 單價持續走低,毛利空間被兩端擠壓。第三,單純堆 GPU 的邊際收益在遞減。當集群規模從千卡擴展到萬卡,新增 GPU 的算力并不能被線性釋放。

      在這一趨勢下,OpenAI 的 MRC 和智譜的 ZCube 代表了協議層和架構層的兩條互補的技術路徑。兩者高度互補,當推理集群規模繼續向十萬卡甚至更大規模演進時,這種「架構層無擁塞 + 協議層強容錯」的組合或許將成為標配。

      產業鏈的結構性變化

      英偉達 2019 年以 69 億美元收購 Mellanox,將 InfiniBand 納入自己的 AI 算力版圖。之后,數據中心網絡市場幾乎被 InfiniBand 壟斷了 AI 場景的高端需求。

      在行業發展到一個新階段后,多重力量正在打破這一格局。

      超以太網聯盟(UEC)標準快速推進,從協議層面為以太網補齊了 AI 場景所需的低延遲和高可靠能力。

      此外,據 TrendForce 研究報告,全球 AI 專用光收發模塊市場已進入高速成長階段,全球 AI 光收發模塊市場預計從 2025 年的 165 億美元增至 2026 年的 260 億美元,增幅超過 57%。國金證券研報指出,隨著推理需求驅動算力從通用 GPU 向專用 ASIC 演進,ASIC 芯片在網絡接口設計上天然傾向于采用開放的以太網標準,也在推動網絡架構從專有協議向開放標準遷移。

      ZCube 的出現進一步加速了這一進程。它對交換機層級的要求從傳統的三層降低到了一層,對高端 Spine 交換機的依賴大幅降低,轉而對 Leaf 交換機的端口密度提出了更高要求。

      這意味著集群組網的采購邏輯將發生結構性變化:需求從「少量高端交換機 + 大量中端交換機」的金字塔結構,轉向「大量高密度交換機 + 更高速光模塊」的扁平結構。

      尾聲

      網絡架構創新的投入產出比,可能遠超大多數人的直覺。

      在 GPU 價格高企、算力供給偏緊的大環境下,多數公司的注意力仍然集中在「如何獲得更多 GPU」上。但 ZCube 用真實的生產數據證明,在 GPU 資源不變的前提下,純粹通過網絡架構升級就能釋放 15% 的額外算力,同時節省三分之一的網絡成本。如果將這一比例外推到萬卡甚至十萬卡規模,網絡優化所釋放的價值將遠超一般認知。

      網絡瓶頸還具有一個被廣泛低估的特性:它隨集群規模指數級加劇。集群規模翻倍,GPU 間通信的復雜度可能增長數倍,擁塞發生的概率和影響也同步放大。這意味著 ZCube 這類架構級創新的價值,將隨著推理集群的持續擴張而加速顯現。

      對于正在加速擴建 AI 基礎設施的云廠商、模型公司與智算中心而言,這或許是一個重新審視組網方案的關鍵時刻。AI 算力競賽的下半場,勝負可能取決于那張「看不見的網」。

      https://www.trendforce.cn/presscenter/news/20260420-13018.html

      https://news.qq.com/rain/a/20260413A03IX100

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      看來美防長在華受刺激了,剛回國就準備再次訪問這回準備一個人來

      看來美防長在華受刺激了,剛回國就準備再次訪問這回準備一個人來

      故事終將光明磊落
      2026-05-21 14:08:01
      傳統剎車用了100年,為什么突然被“干掉”了

      傳統剎車用了100年,為什么突然被“干掉”了

      Autolab
      2026-05-19 22:25:00
      柳州地震捐款名單曝光,年入上億明星“集體沉默”,郭晶晶沒說錯

      柳州地震捐款名單曝光,年入上億明星“集體沉默”,郭晶晶沒說錯

      以茶帶書
      2026-05-21 13:14:32
      林彪專機為何注定要墜毀?幸存的副機長揭秘:有四大“致命錯誤”

      林彪專機為何注定要墜毀?幸存的副機長揭秘:有四大“致命錯誤”

      覃仕勇說史
      2026-05-20 11:32:45
      這可是何超瓊和陳百強少見的寫真。年輕又好看,越琢磨越覺得惋惜

      這可是何超瓊和陳百強少見的寫真。年輕又好看,越琢磨越覺得惋惜

      東方不敗然多多
      2026-05-21 14:25:27
      國民黨徹底撕破臉!

      國民黨徹底撕破臉!

      安安說
      2026-05-20 10:43:30
      巨嬰!孫楊采訪中途突然打斷主持人說到飯點了,直接拿手機點起外賣

      巨嬰!孫楊采訪中途突然打斷主持人說到飯點了,直接拿手機點起外賣

      818體育
      2026-05-19 17:52:24
      一場鬧??!香港頂流“忘年戀”徹底崩塌,往日恩愛變血色屠場...

      一場鬧?。∠愀垌斄鳌巴陸佟睆氐妆浪?,往日恩愛變血色屠場...

      港港地
      2026-05-21 10:04:21
      美媒稱普京這次訪華,要把一個令中方為難的項目談成

      美媒稱普京這次訪華,要把一個令中方為難的項目談成

      清歡百味
      2026-05-20 02:53:21
      神舟二十三號女航天員曝光,身份出人意料,首飛就要太空住一年

      神舟二十三號女航天員曝光,身份出人意料,首飛就要太空住一年

      云舟史策
      2026-05-21 07:37:48
      意甲近5個賽季轉會凈投入:米蘭超2.8億第1,國米倒賺近7000萬

      意甲近5個賽季轉會凈投入:米蘭超2.8億第1,國米倒賺近7000萬

      懂球帝
      2026-05-21 10:43:37
      腿筋拉傷4次!西決面臨報銷!雷霆遭遇沉重打擊

      腿筋拉傷4次!西決面臨報銷!雷霆遭遇沉重打擊

      籃球教學論壇
      2026-05-21 15:51:47
      其實我們也有合規的楊梅,只不過被賣到了國外

      其實我們也有合規的楊梅,只不過被賣到了國外

      黑噪音
      2026-05-20 17:06:54
      他是清白的?韓國警方調查確認金秀賢和未成年金賽綸交往不屬實,所謂證據是偽造!

      他是清白的?韓國警方調查確認金秀賢和未成年金賽綸交往不屬實,所謂證據是偽造!

      奮斗在韓國
      2026-05-21 13:37:11
      剛剛!深圳福田初中生登頂珠穆朗瑪峰,成為中國最年輕登頂者

      剛剛!深圳福田初中生登頂珠穆朗瑪峰,成為中國最年輕登頂者

      南方都市報
      2026-05-21 07:42:29
      夫妻倆用家中做菜擺攤被發現后拒不承認,燃氣公司停氣后開始維權

      夫妻倆用家中做菜擺攤被發現后拒不承認,燃氣公司停氣后開始維權

      映射生活的身影
      2026-05-20 20:25:57
      生意太好被處處刁難,屠夫6天殺13人,公安部A級通緝犯石悅軍落網

      生意太好被處處刁難,屠夫6天殺13人,公安部A級通緝犯石悅軍落網

      易玄
      2026-05-18 23:06:35
      馬刺G2后場告急輸得慘烈,一問題凸顯,文班亞馬正式表態

      馬刺G2后場告急輸得慘烈,一問題凸顯,文班亞馬正式表態

      大飛說籃球
      2026-05-21 15:43:28
      特朗普要搞大動作,突破47年對臺禁令?

      特朗普要搞大動作,突破47年對臺禁令?

      經點星娛
      2026-05-21 15:06:56
      在蒙古工作的華人感慨:不要信媒體吹牛,蒙古相當于我國二線城市

      在蒙古工作的華人感慨:不要信媒體吹牛,蒙古相當于我國二線城市

      阿器談史
      2026-05-21 10:20:40
      2026-05-21 16:20:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13050文章數 142651關注度
      往期回顧 全部

      科技要聞

      好到離譜也不夠!英偉達交出816億美元營收

      頭條要聞

      園區被指以電費賺差價:有斷電企業被要求繳納數十萬

      頭條要聞

      園區被指以電費賺差價:有斷電企業被要求繳納數十萬

      體育要聞

      常住人口7000的小鎮,擁有了一支德甲球隊

      娛樂要聞

      同行吐槽汪涵野心重 爆雷37萬人受損

      財經要聞

      英偉達業績超預!指引再新高仍不夠亮眼

      汽車要聞

      26.98萬起步 看小鵬GX如何詮釋一車多能以及滿配的科技與豪華

      態度原創

      數碼
      手機
      藝術
      家居
      房產

      數碼要聞

      一季度全球電視品牌出貨量達4712萬臺 年增3.3%

      手機要聞

      三星開始向全球Galaxy S23系列手機推送One UI 8.5更新

      藝術要聞

      崔雪冬 2026年油畫新作

      家居要聞

      風格碰撞 個性與藝術

      房產要聞

      順德澐璟樓王『澐冠』啟幕|一場高階共鳴的靜奢美學之約

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: a片在线免费看| 亚洲AV播放| 亚洲五月婷婷| 成全视频在线观看免费高清下载| 草草久久久无码国产专区| 日产亚洲一卡2卡3卡4卡网站| 台湾少妇的春潮| 无码AV免费一区二区三区| 国产成人户外露出视频在线| 拍拍拍网站| 亚洲高清成人aⅴ片777| 亚洲丝袜熟女| 亚洲中文无码天堂一区二区三区 | 免费精品99久久国产综合精品| 三叶草欧洲码在线| 在线播放国产精品三级网| 亚洲中文字幕一区二区| 日日碰狠狠添天天爽五月婷| 国产欧美久久一区二区| A片A级毛片| 国产精品揄拍100视频| A片黄色| 国产偷国产偷亚洲清高| 久热这里只有精品12| 亚洲AVAV天堂Av在线播放| 无码之国产精品网址蜜芽| 不卡的无码AV| YW亚洲AV无码乱码在线观看| 亚洲永久无码3d动漫一区| 囯产精品无码va一区二区| 国产乱码一二三区精品| 无码伊人66久久大杳蕉网站谷歌| 18禁不禁短片| 内地偷拍一区二区三区| 女同性av| 亚洲人成网站在线观看播放| 欧美成人精品一区二区三区| 中文字幕在线一区二区在线| 西西人体大胆午夜视频| 亚洲全部无码中文字幕| 91资源站|