<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      8大國產AI芯片火速適配DeepSeek-V4!華為百度阿里全吻上來了

      0
      分享至


      芯東西(公眾號:aichip001)
      作者 程茜
      編輯 Panken

      芯東西4月24日報道,剛剛,華為昇騰直播解讀DeepSeek-V4技術,并披露昇騰950性能表現。截至發稿,華為昇騰、寒武紀、海光信息、摩爾線程、沐曦股份、昆侖芯、平頭哥真武、天數智芯8家國產AI芯片品牌和英偉達均已適配DeepSeek-V4。


      ▲昇騰950性能表現(圖源:昇騰CANN直播截圖)

      此外,華為云、騰訊云、PPIO、用友、聯想智能云、天翼云息壤、云工場科技等云服務商,寧暢、長江計算、百信、昆侖技術等服務器企業,鄭州人工智能計算中心等算力服務提供商都第一時間宣布適配或上架DeepSeek-V4模型服務。網易智企、萬格智元、極光、網易有道旗下Agent產品宣布接入DeepSeek-V4。


      ▲截至發稿,官宣支持DeepSeek模型的AI芯片企業(芯東西制表)

      根據DeepSeek-V4技術報告,其并細粒度專家并行(EP)方案同時在英偉達GPU和華為昇騰NPU上完成驗證,相比非融合基線在通用推理場景中實現1.50-1.73倍加速,在對延遲敏感的強化學習推演和高速Agent服務場景中最高可達1.96倍


      ▲DeepSeek-V4技術報告

      據DeepSeek公眾號披露,受限于高端算力,目前DeepSeek-V4-Pro的服務吞吐十分有限,預計下半年昇騰950超節點批量上市后,其價格會大幅下調


      ▲DeepSeek官方文章

      DeepSeek-V4模型采用FP4+FP8混合精度訓練,在脫離英偉達生態背景下,其大概率是基于深度定制的內部格式。網友猜測,該模型依托華為昇騰950超節點集群完成訓練,從側面印證華為底層算力架構與低精度混合訓練技術,已具備支撐萬億級大模型的能力。


      ▲DeepSeek在Hugging Face上的模型卡

      智源研究院眾智FlagOS社區在8款AI芯片上適配DeepSeek-V4時,實現了三大技術突破:支持8種以上芯片的全算子替代、解除張量并行最多單機8卡限制、支持從“FP4+FP8混合精度”到BF16的精度轉換

      截至今日收盤,AI算力芯片板塊股價大漲,在A股,海光信息以8.2%的增幅領漲、寒武紀增幅為2.23%,在港股,天數智芯的漲幅達到9.54%


      ▲AI芯片板塊股價變化

      一、華為昇騰首發適配,支撐DeepSeek-V4毫秒級推理、超高并發推理

      首發適配DeepSeek-V4后,華為昇騰今日16點開啟了“基于CANN的訓推優化實踐”直播。在直播中,華為相關研發人員提到其基于CANN進行了全鏈路優化:


      1、昇騰950超節點支撐DeepSeek V4毫秒級推理,背后有三大黑科技

      昇騰950超節點實現DeepSeek V4-Pro 20ms和DeepSeek V4-Flash 10ms低時延推理。這得益于昇騰950代際底層架構的三大升級:

      首先是原生精度加速,其全面支持FP8、MXFP8、MXFP4等數據格式,在保證模型精度的同時,可實現內存占用降低50%+,計算能力翻倍。

      其次是稀疏訪存優化,針對MoE模型的離散訪存特征,他們通過大幅提升硬件級稀疏訪存能力,解決了專家路由過程中的帶寬瓶頸。

      最后是Vector與Cube共享Memory,其采用創新存儲架構設計,實現了向量單元(Vector)與矩陣單元(Cube)的Memory共享,消除大量片上數據搬運開銷,降低了端到端推理時延。

      根據華為官方信息,昇騰950超節點還從基礎器件、協議算法到光電互聯,實現了系統級突破,支持用戶以64卡為步長按需擴展,可實現8192卡無收斂全互聯,提供業界最大Scale Up能力。

      華為與DeepSeek聯合定義了昇騰超節點架構,專門解決大模型超長上下文推理的時延高、吞吐低、成本貴三大痛點,同時能做到萬卡級大規模擴展,并靠NAND SSU做低成本大容量KV Cache,支撐4K~1M全長度長序列應用。

      2、昇騰同步開源DeepSeek-V4復雜稀疏注意力+mHC續訓實現

      華為昇騰通過TorchTitan-NPU插件與Autofuse自動融合技術協同,實測模型吞吐量最高達到1100 tokens/p/s,實現模型訓練性能開箱即優。

      這得益于以下三大維度的系統級優化:

      極簡分布式并行架構: 突破傳統復雜的混合并行設計,采用超節點親和的大EP+純FSDP的極簡并行切分策略。


      ▲并行策略

      原生“入圖”與自動融合:TorchTitan-NPU深度適配torch.compile機制,使能訓練入圖技術,依托Inductor+AutoFuse(基于Ascend C的Codegen后端)實現端到端的Vector算子自動融合,為整網帶來高達31.8%的開箱即用性能收益。

      稀疏Attention高效融合算子: 針對稀疏注意力等復雜結構,開發SparseAttnSharedkv、LightningIndexer 等多個高效的NPU融合算子,釋放芯片稀疏算力。

      3、推昇騰PyPTO編程范式,讓大模型算子開發輕量化

      此外,昇騰CANN還推出PyPTO編程范式,解決自定義算子開發門檻高、周期長的痛點。該范式提供完善的Python API,使開發者能夠以符合Python習慣的語法進行算子開發。

      PyPTO編程范式有四大特點:

      首先是高效的算子開發,PyPTO依托內置高級編譯優化,可自動完成流水編排與內存管理,使開發者無需關注硬件細節而專注于計算流表達,實現DeepSeek-V4新一代模型算子開發周期可縮短至天級

      其次是高性能Kernel自動生成,針對Attention、Compressor、mHC等復雜邏輯算子,PyPTO可自動生成高度優化的Kernel,避免開發者手動處理繁瑣的同步與數據搬運,縮短從算法驗證到部署落地的開發周期。


      ▲融合Kernel

      第三是PTO ISA虛擬指令集跨代兼容,PyPTO基于PTO虛擬指令集(PTO ISA),實現了對硬件新特性的“零感適配”,針對不同代際芯片統一指令接口,同一套算子代碼可在不同代際芯片上的兼容實現。

      其借助畢昇編譯器的VF(Vector Fusion)自動融合能力,可在micro kernel級別實現更優融合。

      最后是TileLang社區生態,TileLang-Ascend是TileLang針對華為昇騰平臺深度優化的實現,分別對應Tilelang-Ascend的Expert和Developer開發模式,提供AscendC基礎指令和PTO AS兩種對接層次,為各種編程前端語言和編譯器提供多層開放接口。

      DeepSeek-V4模型相關實現已在TileAI開源社區正式發布,后續將持續推進性能優化與功能迭代。

      二、4家國產AI芯片官宣適配DeepSeek-V4

      DeepSeek-V4模型發布后,寒武紀、華為昇騰、海光信息、摩爾線程火速官宣適配,拉開國產AI芯片支持DeepSeek系列模型的大幕。

      1、寒武紀

      寒武紀基于vLLM推理框架完成對DeepSeek最新開源模型285B DeepSeek-V4-flash和1.6T DeepSeek-V4-pro適配,適配代碼已開源到GitHub社區。

      2、華為

      華為昇騰超節點全系列產品支持DeepSeek-V4系列模型。基于DeepSeek-V4-Pro模型,在8K輸入場景,昇騰950超節點可實現TPOT約20ms時單卡Decode吞吐4700TPS。DeepSeek-V4-Flash模型,8K長序列輸入場景下可實現TPOT約10ms時單卡Decode吞吐1600TPS(注:上述Benchmark數據均基于Offine推理模式采集,不包含Serving調度和框架負載均衡影響)。

      基于昇騰A3 64卡超節點結合大EP模式部署,DeepSeek-V4-Flash模型,8K/1K輸入輸出場景,基于vLLM推理引擎可實現2000+TPS的單卡Decode吞吐。針對DeepSeek V4-Pro模型,昇騰A3正同步支持推理部署,性能持續優化中。


      3、海光信息

      海光DCU同步完成對DeepSeek-V4的Day0適配,其中,DTK(異構計算平臺)可為DeepSeek-V4提供完整的軟件生態支撐,DAS(人工智能基礎軟件系統)集成超2000個算子,提高DeepSeek-V4微調與推理性能,DAP(人工智能應用平臺)內置知識庫引擎、智能體編排引擎等高階模塊,可將DeepSeek-V4便捷集成到主流AI平臺。

      4、摩爾線程

      摩爾線程聯手智源眾智FlagOS社區,在旗艦級AI訓推一體全功能GPU MTT S5000上,實現對新一代大模型DeepSeek-V4-Flash的Day-0極速適配,并完成全量核心算子的深度優化與部署支持。

      DeepSeek-V4模型首次采用“FP4+FP8”混合精度策略,當前國內主流AI芯片仍普遍以BF16為主。摩爾線程具有原生FP8支持優勢,能夠高效承載DeepSeek-V4的精度設計。摩爾線程與FlagOS社區正持續推進擁有1.6T旗艦模型(1.86萬億參數)的DeepSeek-V4-Pro在MTT S5000上的遷移適配工作。

      三、8大芯片全量適配,拆解三大黑科技

      智源研究院眾智FlagOS社區宣布將對DeepSeek-V4模型進行全量適配,目前其已完成DeepSeek-V4-Flash在8款以上AI芯片上的全量適配與推理部署,包括海光、沐曦、華為昇騰、摩爾線程(FP8)、昆侖芯、平頭哥真武、天數、英偉達(FP8)等芯片,正在推進DeepSeek-V4-Pro模型在多個芯片的遷移適配。

      這背后,智源研究院實現了三大技術突破:

      1、支持8種以上芯片全算子替代

      本次DeepSeek-V4-Flash的適配,全球最大的Triton單一算子庫FlagGems實現了模型推理鏈路中全部算子的替代。在40個主流模型上,推理任務算子覆蓋度達到90%~100%,能完整支持DeepSeek-V4-Flash的全部計算需求。這意味著徹底脫離CUDA算子依賴、無需芯片廠商逐一適配、新算子即時可用。

      2、獨立并行策略,解除張量并行最多單機8卡限制

      FlagOS團隊對o_group張量并行改動有:

      (1)獨立的并行策略:獨立于已有的張量并行通信組之外,為o-group單獨構建所需要的張量并行通信組,確保其他模型結構張量并行切分超過8的情況下,o-group的張量并行在8以內。

      (2)參數轉換調整:對o_group相關的參數進行對應單獨的張量并行切分處理。

      (3)覆蓋面擴展:這一優化能夠將DeepSeek-V4-Flash在單獨采用張量并行策略下,把可運行芯片范圍從”僅限單機80GB以上顯存的個別高端卡“擴展到”多機64GB/32GB的更多主流國產芯片”。

      3、支持“FP4+FP8混合精度”到BF16的精度轉換

      DeepSeek-V4模型采用FP4+FP8混合精度訓練,但當前所有國內非英偉達AI芯片都未能支持FP4+FP8混合精度,只有摩爾線程原生支持了FP8,其余依然以BF16為主。

      FlagOS完成了從FP4到BF16的完整精度轉換,將FP4量化權重轉換為BF16格式;FlagOS對推理鏈路中的GEMM、Attention、MoE路由等關鍵計算節點逐一適配了BF16路徑;經過標準評測集驗證,BF16版本與FP4原生版本在核心能力指標上保持對齊,確保精度轉換不引入業務層面的效果損失。

      FlagOS推出了FP8和BF16兩種適配版本,讓DeepSeek-V4-Flash不再是“只有最新英偉達卡才能跑”的模型,而是真正可以部署在FP8及BF16生態的主流國產芯片上。

      智源研究院公布的數據顯示,經GPQA_Diamond、AIME等評測集驗證,FlagOS適配后的DeepSeek-V4-Flash,在語言理解、復雜推理、代碼生成、數學計算等核心能力上,可與CUDA原生版本對齊


      DeepSeek-V4-Flash安裝部署指引:GitHub:https://github.com/flagos-ai/DeepSeek-V4-FlagOS

      結語:DeepSeek-V4的里程碑時刻,國產頂級大模型+國產高端算力深度綁定

      萬眾期待的“國產大模型之光”DeepSeek-V4正式亮相后,多款國產高端芯片率先完成適配與深度兼容。這也意味著,國產頂級大模型與本土高端算力矩陣實現了全棧深度綁定與協同。

      此次華為等國產芯片廠商與 DeepSeek 強強聯合,在技術協同迭代、規模化產業落地、本土生態共建三大維度,都具有里程碑意義。此舉有望打破英偉達長期主導的壟斷生態,推動國內AI國產軟硬一體、自主可控產業鏈發展。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      耿同學遇到麻煩了!有人會對他不利?吉林大學緊急出手

      耿同學遇到麻煩了!有人會對他不利?吉林大學緊急出手

      平老師666
      2026-05-21 22:15:05
      詹姆斯:濃眉的防守已經夠好了,但仍跟文班不在一個層次

      詹姆斯:濃眉的防守已經夠好了,但仍跟文班不在一個層次

      移動擋拆
      2026-05-22 06:22:52
      最熱門下家!熱火6換1報價字母哥籌碼曝光:希羅韋爾哈克斯+3首輪

      最熱門下家!熱火6換1報價字母哥籌碼曝光:希羅韋爾哈克斯+3首輪

      醉臥浮生
      2026-05-22 08:52:34
      Shams:福克斯能否出戰西決G3,將在賽前決定

      Shams:福克斯能否出戰西決G3,將在賽前決定

      懂球帝
      2026-05-22 07:49:06
      《鏢人》下映,登頂全球武俠片票房冠軍:江湖再見|創意海報

      《鏢人》下映,登頂全球武俠片票房冠軍:江湖再見|創意海報

      新京報
      2026-05-21 15:15:45
      81歲任正非突然登陸《新聞聯播》,信息量有多大?

      81歲任正非突然登陸《新聞聯播》,信息量有多大?

      快刀財經
      2026-05-21 22:22:04
      董路:U17國足能贏斐濟8-0 這國家以胖為美 世青賽成績并不重要

      董路:U17國足能贏斐濟8-0 這國家以胖為美 世青賽成績并不重要

      風過鄉
      2026-05-22 07:27:52
      《主角》何大錘主動讓位的瞬間,才明白他是劇團里最清醒的聰明人

      《主角》何大錘主動讓位的瞬間,才明白他是劇團里最清醒的聰明人

      慫熊劇場
      2026-05-21 00:51:33
      福建泡藥楊梅難追回,浙江果農最受傷,多措施挽救危機,網友表態

      福建泡藥楊梅難追回,浙江果農最受傷,多措施挽救危機,網友表態

      普陀動物世界
      2026-05-22 06:19:40
      終結馬西14年國會生涯,特朗普重塑共和黨

      終結馬西14年國會生涯,特朗普重塑共和黨

      南文視界
      2026-05-21 07:30:14
      3輪8人負傷!大秋舊患復發,廣廈徹底被拖垮,上海爭冠只剩1威脅

      3輪8人負傷!大秋舊患復發,廣廈徹底被拖垮,上海爭冠只剩1威脅

      后仰大風車
      2026-05-22 08:20:10
      吃完晚宴后,普京離開北京,臨走前發出邀請,中俄有一件事沒談攏

      吃完晚宴后,普京離開北京,臨走前發出邀請,中俄有一件事沒談攏

      丹妮觀
      2026-05-21 10:14:27
      為什么華為和蘋果的差距,越追反而越大了?背后的原因懂的人不多

      為什么華為和蘋果的差距,越追反而越大了?背后的原因懂的人不多

      世界圈
      2026-05-15 09:20:20
      裁判穿SGA球鞋!這還怎么玩?裝都不裝了!

      裁判穿SGA球鞋!這還怎么玩?裝都不裝了!

      柚子說球
      2026-05-21 20:32:56
      奔馳碾殺貓男社死!囂張連累公司,更多惡行被扒,勢力大也得坐牢

      奔馳碾殺貓男社死!囂張連累公司,更多惡行被扒,勢力大也得坐牢

      奇思妙想草葉君
      2026-05-22 01:59:21
      比學術造假更可怕的是,不造假飯碗都保不住!

      比學術造假更可怕的是,不造假飯碗都保不住!

      細說職場
      2026-05-20 12:02:31
      6-3,6-4!中國金花創紀錄:首進法網正賽,賺70萬獎金,對手待定

      6-3,6-4!中國金花創紀錄:首進法網正賽,賺70萬獎金,對手待定

      劉姚堯的文字城堡
      2026-05-22 08:26:36
      高云翔包子鋪打工!跑外賣擦桌一小時掙15塊,提到小酒窩滿臉幸福

      高云翔包子鋪打工!跑外賣擦桌一小時掙15塊,提到小酒窩滿臉幸福

      呀古銅
      2026-05-22 00:07:12
      “后悔參觀清華,自取其辱!”家長帶3歲娃逛清華,給出三點差評

      “后悔參觀清華,自取其辱!”家長帶3歲娃逛清華,給出三點差評

      妍妍教育日記
      2026-05-19 17:10:31
      伊朗最大內鬼曝光!前總統內賈德為以色列賣命,欲顛覆伊朗政權

      伊朗最大內鬼曝光!前總統內賈德為以色列賣命,欲顛覆伊朗政權

      共工之錨
      2026-05-21 18:45:55
      2026-05-22 09:28:49
      芯東西 incentive-icons
      芯東西
      智東西AI媒體矩陣品牌。芯東西,芯片產業新媒體。我們是一群追芯人,專注報道AI芯片和半導體產業創新。
      2335文章數 8158關注度
      往期回顧 全部

      科技要聞

      三年間,AI研究員從年薪百萬漲到破億

      頭條要聞

      克宮:不排除普京與特朗普11月在中國深圳會晤的可能

      頭條要聞

      克宮:不排除普京與特朗普11月在中國深圳會晤的可能

      體育要聞

      常住人口7000的小鎮,擁有了一支德甲球隊

      娛樂要聞

      反轉!金秀賢與金賽綸未成年時交往不實

      財經要聞

      又一存儲芯片類產品,價格暴漲300%

      汽車要聞

      配1.5L動力/增加新配色 吉利帝豪向上系列將于5月24日上市

      態度原創

      游戲
      親子
      數碼
      教育
      軍事航空

      為什么烏魯魯那么CS的干員,卻很少見到三角洲玩家吐槽他?

      親子要聞

      孩子抽動癥 這4個誘發因素 家長對照檢查

      數碼要聞

      投影、音響、云臺三體合一僅800元!哈趣投影儀H3 pro圖賞

      教育要聞

      太憋屈!就因放學后給高三孩子講了會題目,被舉報:影響孩子吃飯

      軍事要聞

      伊朗警告:任何新襲擊將促使戰場擴大到中東以外

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日韩精品一卡二卡在线观看| 爱啪导航| 亚洲七七久久桃花影院| 久久综合婷婷成人网站| 欧美日韩不卡视频合集| 日韩毛片免费无码无毒视频观看| 全部孕妇毛片| 97人妻一区二区三区免费视频| 久久精品一卡日本电影| 亚洲视频一区| 一二三四在线视频观看社区| 亚洲色人| 国产精品禁18久久久夂久| 啊啊乱理视频在线观看| 精品码字幕区中文在线| 久久婷婷五月综合色一区二区| 麻豆国产AV剧情偷闻女邻居内裤| 国产又色又爽又黄的网站免费| 亚洲精品97久久中文| 亚洲国产成人超a在线播放| 无码少妇一区二区浪潮AV| 中文字幕人妻伦伦| 人妻AV中文字幕一区二区三区 | 好想被狂躁无码视频在线字幕| 99久久久无码国产精品动漫| 久久久久蜜桃精品成人片公司| 91精品人人妻人人澡人人爽人人精东影业| 国产日韩欧美在线视频免费观看 | 国产精品美女久久久久av爽| 天天爽夜夜爱| 亚洲AV麻豆| 国产精品成人啪精品视频| 久久精品久久久久久噜噜| 亚洲人成人无码网WWW电影首页| 欧美三级韩国三级日本三斤| 亚洲video| 精品影院| 色天使色偷偷色噜噜| 余姚市| 日韩精品亚洲人旧成在线| 国产成人精品亚洲日本片|