<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      英偉達AMD英特爾博通聯手,堵上GPU算力浪費的漏洞

      0
      分享至


      芯東西(公眾號:aichip001)
      編譯 程茜
      編輯 Panken

      芯東西5月7日消息,昨日晚間,OpenAIAMD、博通、英特爾、微軟、英偉達聯合發布全新開放網絡協議MRC(多路徑可靠連接),可幫助大型AI訓練集群更快、更可靠地運行。OpenAI通過開放計算項目(OCP)發布了MRC。

      MRC已部署在OpenAI所有用于訓練前沿模型的超級計算機上,包括位于美國德克薩斯州阿比林的美國甲骨文云基礎設施(OCI)站點,以及微軟Fairwater超級計算機等。


      MRC是一種內置于最新800Gb/s網絡接口中的新網絡協議,可將單次數據傳輸分流至數百條路徑、微秒級繞開故障鏈路,同時還能簡化網絡控制面架構。

      OpenAI官方博客提到,近期為ChatGPT與Codex訓練一款前沿大模型時,他們不得不重啟四臺一級核心交換機,以往重啟交換機需運維團隊極度謹慎,引入MRC之后,他們甚至無需與集群訓練任務的運維團隊提前協調就可重啟

      在打造基建項目Stargate之前,OpenAI已與合作伙伴在幾年間開發并維護了前三代超級計算機,這使其認識到要在超級計算機上高效利用算力并成功完成任務,需要大幅降低堆棧每一層的復雜性,包括重新設計網絡設計。

      OpenAI官方賬號X的評論區有不少網友肯定了MRC的發布,稱其是真正的基礎設施進步、標志著基礎設施競爭轉向標準化集群通信效率時代。


      論文地址:https://cdn.openai.com/pdf/resilient-ai-supercomputer-networking-using-mrc-and-srv6.pdf

      一、破解網絡難題,MRC對擴展超級計算機有三大助力

      訓練大模型時,一個步驟可能涉及數百萬次數據傳輸,而一次延遲傳輸可能會在整個作業中波動導致GPU處于空閑狀態,而網絡擁塞、鏈路和設備故障是傳輸延遲和抖動最常見的原因。

      隨著算力基建規模的增大,這些問題發生得更頻繁且更難解決。其面臨兩個關鍵的網絡挑戰:要盡可能降低網絡擁塞的發生概率,盡量減少網絡故障對訓練工作本身的影響。

      基于此,OpenAI聯合多家芯片公司打造了MRC。其目標是打造一個即使在出現故障時也能提供高度可預測性能的網絡,以保持訓練任務能持續推進。

      MRC是對聚合以太網RDMA(RoCE)的擴展。RoCE是由無限帶寬行業協會制定的標準,能夠在GPU與CPU之間實現硬件加速的遠程直接內存訪問。MRC借鑒了超以太網聯盟(UEC)研發的技術,并基于SRv6源路由對其進行能力擴展,從而支撐大規模AI網絡架構組網。

      該網絡架構已依托英偉達和博通的硬件,支撐多款OpenAI模型訓練。

      AMD為MRC貢獻了擁塞控制技術,以提升MRC的實際性能,且AMD已經與頭部云服務商合作,在測試集群中大規模部署MRC,在MRC規范開發之前,AMD已有改進版RoCEv2傳輸協議的預標準實現,該協議演變為今日的MRC標準。AMD的官方新聞稿提到,其是最早且唯一在400G網卡上實現MRC的公司之一,他們可以無縫過渡到AMD Pensando“Vulcano”800G AI NIC的應用,該NIC同樣支持MRC傳輸協議。

      MRC是首次在英偉達Spectrum-X以太網上驗證并優化的新傳輸協議,其故障繞過技術可以在僅幾微秒內檢測網絡路徑故障,并在硬件中自動重路由流量。英偉達官方博客提到,這種繞過失敗技術對于AI訓練集群尤為重要,因為成千上萬的GPU必須保持同步,即使是短暫的網絡中斷也可能減緩甚至中斷整個訓練任務。

      博通Thor Ultra是一款面向AI負載與多平面架構網絡設計的800Gbps高性能以太網卡。該產品基于數代RoCE網卡技術打造,新增支持MRC以及高級RoCE技術。博通官方博客稱,其將這項技術與經驗投入到了MRC生態合作研發當中。Thor Ultra集成了使用網絡編程語言(NPL)實現高帶寬線率可編程數據路徑,實現先進擁塞控制(基于發送端和接收端)、負載均衡以及可靠傳輸等功能,可以降低系統成本和復雜度。

      英特爾在官方X賬號發帖稱,借助MRC技術,英特爾正構建多平面以太網組網架構,該架構可實現超大規模集群部署,同時減少交換機層級、降低功耗、提升整體可靠性。

      MRC為其擴展超級計算機帶來三個關鍵優勢

      首先,該技術僅通過兩層以太網交換機,就能搭建出可承載十萬塊GPU規模超算的多平面高速網絡。這套架構具備充足冗余能力,可平穩抵御網絡故障;同時相比同等規模的三層、四層單平面網絡,功耗更低。

      其次,MRC的自適應數據包散射具備極佳的負載均衡能力,使得網絡核心基本不會出現擁塞。

      這降低了同步訓練中各數據流之間的吞吐量波動,而消除異常延遲正是同步訓練性能優化的核心關鍵。同時,即便多項任務共享同一個超算集群,彼此之間也不會產生性能干擾。

      最后,MRC采用SRv6源路由快速繞過故障鏈路,僅在正常可用路徑上轉發數據包。

      這使得其可以采用簡潔的靜態網絡控制面,并從根本上規避一大類動態路由特有的故障異常問題。

      二、支持多平面網絡,可實現更低成本、功耗

      MRC采用了多平面網絡,不再把每個網絡接口視作一條800Gb/s的鏈路,而是將其拆分為多條更小粒度的子鏈路。例如,單個網絡接口可同時連接八臺不同交換機。由此便可搭建八路獨立并行網絡(網絡平面),每路帶寬為100Gb/s,而非構建單一的800Gb/s網絡。

      這樣做的好處是,一臺原本支持64個800Gb/s端口的交換機,改用后可提供512個100Gb/s端口,借此僅用兩層交換機就能搭建出可全互聯約131000塊GPU的網絡;而傳統800Gb/s組網則需要三層甚至四層交換機架構。


      ▲支持多平面網絡

      這樣設計的網絡成本、功耗都更低,且比傳統網絡設計能提供更多路徑多樣性的網絡,還允許更多流量留在第0層交換機本地,從而提升性能。

      然而,這樣的路徑多樣性往往難以被充分利用。用于AI訓練的傳統網絡協議,通常要求每次數據傳輸固定走單一路徑,以保證數據包按序到達。


      在大規模多平面網絡中,這會帶來兩大問題:一是不同數據流可能爭搶同一條鏈路,引發網絡擁塞;二是單條數據流只能占用眾多網絡平面中的其中一條。如果不做針對性優化,多平面網絡反而會出現嚴重擁塞,整體性能表現會大打折扣。


      ▲數據包流相互碰撞導致擁塞

      三、跨數百條路徑進行數據包散射轉發

      MRC從根本上改變了這一模式。

      其不再將一次數據傳輸限定在單條路徑上,而是把單次傳輸的數據包分散分發到網絡中數百條路徑、跨所有獨立網絡平面并行傳輸。

      數據包可以亂序到達,但所有MRC數據包都攜帶最終內存地址,因此接收端無需等待排序,可隨到隨寫入內存。


      這樣一來,每條MRC連接都會為其所使用的眾多路徑維護少量狀態信息。一旦檢測到某條路徑出現擁塞,就會立刻切換至其他路徑,從而均衡全網負載。

      如果發生丟包,MRC會采取穩妥策略,默認該路徑可能已出現故障,隨即立即停用該路徑,并對可能丟失的數據包進行重傳。

      在淘汰某條路徑后,MRC會發送探測包核查是否確實存在故障;若確有故障,則進一步檢測鏈路是否已經恢復。

      還有一個丟包原因是目標端擁塞。MRC可以通過報文截斷機制處理這類場景:當交換機因擁塞即將丟棄報文時,并不會直接整包丟棄,而是裁減掉有效載荷,僅將報文頭部轉發至目的端,以此觸發顯式重傳請求。

      并且報文截斷能夠有效減少誤判,避免把單純擁塞導致的丟包,錯誤判定為路徑故障。

      結合多平面拓撲、數據包散射轉發、負載均衡與報文截斷這些機制,MRC連接能夠微秒級檢測網絡故障并完成迂回繞行,降低對同步訓練任務的影響。相比之下,傳統網絡架構往往需要數秒甚至數十秒才能完成收斂穩定、實現故障繞行。

      四、進一步簡化網絡,一旦丟包即停止路徑

      MRC在簡化網絡方面更進一步。

      傳統方案中,交換機都會運行BGP(邊界網關協議)這類動態路由協議,用以計算可用路徑并實現故障迂回。

      但交換機本身結構復雜、運行的軟件也十分龐雜。一旦出現隱匿性異常,這類問題往往難以排查,還會持續引發連接中斷,直至故障修復。

      采用MRC后,一旦某條路徑出現丟包,MRC便會停止使用該路徑。

      其采取的方案是,關閉動態路由,轉而采用IPv6分段路由(SRv6)。SRv6允許發送端直接指定每個數據包在網絡中的轉發路徑,實現方式是將交換機標識序列嵌入每個數據包的目的地址字段。


      拆解原理如下:

      交換機在轉發報文時,會檢查自身標識是否在路徑列表中。如果命中,就通過偏移目的地址字段移除當前自身標識,露出下一跳交換機的標識。

      隨后交換機在靜態路由表中查詢該標識,據此決定報文的下一跳轉發去向。

      與動態路由不同,這類靜態路由表在交換機初始配置階段一次性部署完成,后續不再變更。

      MRC利用SRv6在所有網絡平面間分散分發數據包,同時在每個平面內并行使用多條路徑。一旦某條路徑發生故障,MRC直接停止選用該路徑即可。

      交換機無需重新計算路由,只需嚴格按照預設的靜態路由規則進行轉發,無需額外做任何復雜處理。

      結語:大廠聯手,打破超算集群算力利用率瓶頸

      根據官方博客,MRC顯著提升了OpenAI訓練全新大模型的能力,同時讓網絡架構能夠匹配其AI發展路線圖。

      隨著訓練集群規模持續擴張,網絡設計愈發決定可用算力的實際利用率。MRC能夠讓GPU集群在遭遇擁塞、鏈路故障和運維維護時保持協同穩定運行,而這類事件在過去都會中斷訓練任務。

      在超大規模算力場景下,這種可靠性與運行效率或將成為支撐前沿大模型同步訓練得以實現的基礎前提。

      來源:OpenAI

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      嚴幼韻98歲確診大腸癌,醫生勸她手術,她嘆了口氣:還是安樂死吧

      嚴幼韻98歲確診大腸癌,醫生勸她手術,她嘆了口氣:還是安樂死吧

      興趣知識
      2026-05-20 00:27:29
      又有4名河南籍男子赴泰國后失聯,曾發送SOS短信給緊急聯系人暗示遭遇危險

      又有4名河南籍男子赴泰國后失聯,曾發送SOS短信給緊急聯系人暗示遭遇危險

      現代快報
      2026-05-21 22:14:20
      炸鍋!2026車市最大騙局:省油電車全虧錢,爛大街油車才是真贏家

      炸鍋!2026車市最大騙局:省油電車全虧錢,爛大街油車才是真贏家

      劉哥談體育
      2026-05-22 05:12:14
      比開塞露還管用!這3種“推屎”食物,每天吃一點,清空宿便

      比開塞露還管用!這3種“推屎”食物,每天吃一點,清空宿便

      白宸侃片
      2026-05-19 11:56:50
      收盤了,我更想說句難聽:今天不是洗盤,是市場重新排座次

      收盤了,我更想說句難聽:今天不是洗盤,是市場重新排座次

      風風順
      2026-05-22 02:05:03
      布達諾夫稱“俄羅斯就是烏克蘭,烏克蘭人應該統治俄羅斯”

      布達諾夫稱“俄羅斯就是烏克蘭,烏克蘭人應該統治俄羅斯”

      山河路口
      2026-05-21 20:38:45
      這部豆瓣9.1神話,18年后等來了它的觀眾

      這部豆瓣9.1神話,18年后等來了它的觀眾

      新周刊
      2026-05-21 13:08:17
      4-1,C羅騰空轉體180度慶祝:雙響炮,率隊奪沙特聯冠軍+個人第37冠

      4-1,C羅騰空轉體180度慶祝:雙響炮,率隊奪沙特聯冠軍+個人第37冠

      側身凌空斬
      2026-05-22 04:04:33
      上海市戶籍老人最新數據公布:這三區老齡化程度最高

      上海市戶籍老人最新數據公布:這三區老齡化程度最高

      音樂時光的娛樂
      2026-05-21 19:34:11
      吉利“平民帕梅”火了!30天狂賣10868輛,5米大車油耗僅4.58L

      吉利“平民帕梅”火了!30天狂賣10868輛,5米大車油耗僅4.58L

      侃故事的阿慶
      2026-05-22 00:30:09
      CBA季后賽最慘對決!三戰連傷7員猛將:北京上海這次要撿漏了?

      CBA季后賽最慘對決!三戰連傷7員猛將:北京上海這次要撿漏了?

      籃球快餐車
      2026-05-22 03:31:22
      任達華李麗珍經典激情戲翻紅,網友:當年看懵不敢聲張

      任達華李麗珍經典激情戲翻紅,網友:當年看懵不敢聲張

      蒂蒂茱家
      2026-05-21 10:07:29
      別總怪基因!研究證實:這9個生活習慣,才是真正的“長壽鑰匙”

      別總怪基因!研究證實:這9個生活習慣,才是真正的“長壽鑰匙”

      人民日報健康客戶端
      2026-05-19 20:49:35
      惋惜!12位名將無緣德國世界杯名單 4大紅星落選引爭議 3悍將傷缺

      惋惜!12位名將無緣德國世界杯名單 4大紅星落選引爭議 3悍將傷缺

      我愛英超
      2026-05-21 20:04:06
      意大利人拆完張雪機車破防了:設計太激進,歐洲日本根本學不來!

      意大利人拆完張雪機車破防了:設計太激進,歐洲日本根本學不來!

      阿芒娛樂說
      2026-05-22 04:47:31
      你們都是什么時候對男女之事開竅的?網友:果然還是攔不住有心人

      你們都是什么時候對男女之事開竅的?網友:果然還是攔不住有心人

      夜深愛雜談
      2026-02-21 21:37:02
      遭禁賽5年!37歲名將被緊急撤出首發 共7位現役球員被罰+光速失業

      遭禁賽5年!37歲名將被緊急撤出首發 共7位現役球員被罰+光速失業

      我愛英超
      2026-05-21 16:38:52
      【沙職足】4比1!C羅雙響射落沙特生涯首個正式冠軍!

      【沙職足】4比1!C羅雙響射落沙特生涯首個正式冠軍!

      體壇周報
      2026-05-22 08:07:14
      深圳91-80廣廈!賽后數據出爐!連重傷7員大將下場,深圳6人上雙

      深圳91-80廣廈!賽后數據出爐!連重傷7員大將下場,深圳6人上雙

      老吳說體育
      2026-05-21 21:42:14
      中央重磅定調!2026老房全面翻身,自住家庭穩穩接住時代紅利

      中央重磅定調!2026老房全面翻身,自住家庭穩穩接住時代紅利

      說故事的阿襲
      2026-05-22 05:23:45
      2026-05-22 08:23:00
      芯東西 incentive-icons
      芯東西
      智東西AI媒體矩陣品牌。芯東西,芯片產業新媒體。我們是一群追芯人,專注報道AI芯片和半導體產業創新。
      2335文章數 8158關注度
      往期回顧 全部

      科技要聞

      小米YU7 GT正式發布:售價38.99萬元

      頭條要聞

      中俄元首會晤在俄羅斯刷屏 俄女主播一身"中國紅"播報

      頭條要聞

      中俄元首會晤在俄羅斯刷屏 俄女主播一身"中國紅"播報

      體育要聞

      常住人口7000的小鎮,擁有了一支德甲球隊

      娛樂要聞

      反轉!金秀賢與金賽綸未成年時交往不實

      財經要聞

      潮水退去,裸泳的一定不止五糧液

      汽車要聞

      配1.5L動力/增加新配色 吉利帝豪向上系列將于5月24日上市

      態度原創

      手機
      親子
      本地
      旅游
      軍事航空

      手機要聞

      AYANEO Pocket AIR Mini安卓掌機Arcade Home聯名款發布,739元起

      親子要聞

      不要讓孩子沉迷手機, 危害可不小!

      本地新聞

      用云錦的方式,打開江蘇南京

      旅游要聞

      三亞通報“網友稱某景區游玩體驗不佳”:組織聯合調查組

      軍事要聞

      伊朗警告:任何新襲擊將促使戰場擴大到中東以外

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久挑色综合网| 日本簧片在线观看| 精品无码午夜福利理论片| 国语偷拍视频一区二区三区| 欧美性爱视频网站| 国产国产人免费人成免费| 骚虎视频在线观看| 国产69精品久久久久久人妻精品| 一区二区激情| 亚洲日韩精品欧美中文字幕| 日韩亚av无码一区二区三区| 伊人久久免费视频| 亚洲av无码专区国产不卡顿 | 国产精品亚洲片在线| 欧美亚洲人成网站在线观看| 最新亚洲春色av无码专区| 亚洲精品在看在线观看| 亚洲成人一区| 精品国产中文字幕在线| 国产 在线播放无码不卡| 波多野结衣无内裤护士| 国产精品亚洲A∨天堂| 成av人电影在线观看| 国产乱子伦精品无码码专区| 手机看片日韩欧美| 无码 人妻 在线 视频| 电影 国产 偷窥 亚洲 欧美| 青草国产精品久久久久久| 亚洲日韩av无码一区二区三区人 | 国产精品自在拍在线拍| 中文字幕被公侵犯的漂亮人妻| 日韩三级久久| 午夜免费福利一区二区无码AV| 2021精品国产自在现线看| 无码精品不卡一区二区三区| 亚洲中文字| 日本午夜精品一本在线观看| 欧美不卡精品中文字幕日韩| 中文字幕av中文字无码亚| 久久一区二区三区黄色片| 国产亚洲精aa在线观看不卡|