![]()
作者 | 褚杏娟
“客戶測了我們的 950,不到一個禮拜就說可以下單了。”昇騰計算業務副總裁張良透露,近期昇騰銷量比以前要好,客戶認可度也提高很多。
現在互聯網公司、大模型初創公司都有在完全基于昇騰做模型訓推。
推理看重性價比,沒有那么高的穩定性要求,客戶覺得用得快捷就好;而訓練,客戶則要求經過長時間的可靠性驗證。張良向 InfoQ 表示,“客戶要求的是成熟、穩定、且經過長時間驗證的大規模集群系統,硬件和軟件要一起驗證。”
今年,大量客戶開始基于昇騰做訓練了。這里指的是訓練大模型、超大參數模型。越來越多模型,包括一些國內領先的模型,都在基于昇騰進行訓練。這個變化體現了昇騰產品成熟度的提升,確實經受住了考驗。
DeepSeek V4 是對華為的一次考驗
DeepSeek V4 是華為面臨的一次大考,也驗證了昇騰超節點全系列產品的能力。
從結果看,昇騰超節點全系列產品均支持 DeepSeek V4 。其 950 系列芯片可以同時兼顧低時延和高吞吐的兩種應用場景:在 950 DT 系列上,DeepSeek V4 Flash 模型實現了低于 10 毫秒的低時延推理,Pro 模型則實現了約 20 毫秒的低時延推理;在 Atlas A3 系列上,DeepSeek V4 Flash 實現了約 30 毫秒的高吞吐性能表現。
這次,DeepSeek V4 在模型結構上發生了明顯變化,比如引入混合注意力機制,結合滑窗、稀疏、壓縮等多種 Attention 優化算法,以支持 1M 級長上下文推理;同時,模型繼續采用 MoE 結構,對專家路由、多卡通信、KV Cache 管理和端到端推理效率提出了更高要求。
![]()
為此,CANN 針對 DeepSeek V4 中的 mHC、Hybrid Attention、Compressor、MoE 等模塊進行了原生適配。其中,mHC 用于擴展傳統殘差連接,對此 CANN 提供了多種實現方式,包括基于 Ascend C、PyTorch 以及 TileLang 的實現路徑。
比如,針對混合注意力機制,CANN 提供了 Sparse Attention Shared KV 融合算子,支持多種注意力計算,同時開發了不同倍率 KV Cache 壓縮的 Compressor 算子,以及支持 KV Cache 更新的相關算子。此外,CANN 還增強了 Lightning Indexer 能力,用于高效篩選 Top-K 稀疏 KV,支撐長上下文下的稀疏注意力計算。
由于混合注意力機制依賴關系更復雜,在 prefill 階段,CANN 通過 All Gather 或 Send/Receive 等通信能力,在卡間交換必要 Token,保證 CP 并行下的注意力計算正確執行。
而在 MoE 方面,CANN 加強了 MoE Gating TopK 功能,以支持 DeepSeek V4 中的 hash routing 和 scaled softmax。
上述也只是昇騰努力優化的一部分,在 AI 算力日益重要的當下,昇騰團隊過去一年都在“卷”。
“一卡難求”下,先建基礎設施
“所有工作沒有基礎設施是不行的。現在大家都在說‘一卡難求’,包括我自己也是一卡難求。雖然我們生產卡,但我想用卡也很難。”張良說道。
去年以來,昇騰對芯片體系進行了一輪大幅調整。
今天的大模型推理和 Agent 場景,對編程靈活性、細粒度訪存能力、Cache line 設計等均提出更高的要求;同時,AI 產業的發展也需要更開放的生態支持。
針對這些問題,昇騰在新一輪產品和軟件棧演進中進行了系統性補齊:一方面重新優化算力配比,提升芯片在不同計算負載下的適配能力;另一方面引入 SIMT 能力,增強編程靈活性;同時強化細粒度訪存能力,使芯片能夠更好適應大模型訓練、推理以及復雜 Agent 工作負載中的數據訪問需求。
低精度計算能力也是此次調整的重要方向。隨著 DeepSeek 等模型在 FP8 等低精度格式上的探索,大模型產業對更高 Token 產出效率的需求快速提升。在此背景下,昇騰加速推進 FP8、FP4 能力落地。
張良表示,團隊“拼盡全力”將 FP8、FP4 提前做出來,這使得 Token 產出能力相比此前實現翻倍提升。
當前 AI 產業正在進入新的算力周期。Agent 應用帶來的高頻推理、多輪調用和長鏈路任務執行,使 Token 消耗快速增長,也讓算力效率成為客戶關注的核心指標。張良認為,面對這一變化,芯片廠商不僅要提升峰值算力,更要圍繞真實業務場景優化計算效率、訪存能力、編程體驗和生態開放能力。
“只有痛下決心真正改掉以前的不足,才能把業務做得越來越好。”張良說道,下一波 AI 機會究竟來自哪里仍不確定,但芯片和軟件生態必須提前準備好。昇騰此次調整,正是為了補齊過去架構中的短板,并為未來可能出現的新一輪 AI 應用浪潮打下基礎。
軟件棧升級,拒絕仿 CUDA
在完成硬件架構調整后,昇騰軟件棧也迎來一輪重要升級。此次升級的一個重點是將原本高度耦合的軟件體系拆分為更清晰的結構模塊。
過去,CANN 的很多能力像“麻花團”一樣交織在一起,外部開發者很難理解和調用。現在,昇騰通過架構解耦,將不同能力模塊化、結構化地拆開,讓每一塊能力都能被開發者看見、調用,并推動相關代碼開源。
![]()
張良介紹道,這次解耦工作量很大,接近于“把軟件重寫一遍、把架構重新設計一遍”。昇騰原計劃用一年半時間完成,但最終在 4 個月內完成核心改造。近期開發者試用后,普遍認為相比過去更容易上手。
除了架構層面的解耦,昇騰還推出了新的編程方式 PyPTO。該方式面向 Python 開發者,未來將與業界主流的基于 Python 的 Triton 編程方式保持一致,以降低開發者遷移和適配門檻。
張良表示,AI 開發正在越來越多地圍繞 Python 展開,昇騰必須融入這一主流編程體系。昇騰從去年開始推進相關工作,并在今年正式將 PyPTO 做出來。
不過,Python 編程雖然快速、靈活,適合驗證功能和提升開發效率,但在追求極致性能時仍存在不足。尤其是在大模型推理場景中,Token 吞吐直接影響產品性價比。同樣硬件、同樣算力條件下,如果 Token 吞吐低于競爭對手,就意味著單位成本競爭力不足。因此,昇騰在支持 Python 開發方式的同時,也繼續保留并強化基于 C 語言的底層優化能力。
其思路是:Python 負責靈活和便捷,C 語言負責性能和吞吐優化。通過這兩條路徑并行,既尊重開發者對主流編程方式的偏好,也保障底層性能調優能力。
昇騰認為,開源開放的核心不是簡單“放代碼”,而是讓開發者能夠真正理解、使用和擴展底層能力。張良表示,昇騰自身不可能超過幾萬名開發者的智慧,外部開發者的創新方式和使用需求,也遠遠超過單一廠商內部能夠預判的范圍。因此,提升開發者使用便利性,是生態建設的根本。
對于底層軟件和算子開發而言,讓開發者真正持續投入并不容易。數據顯示,今年以來昇騰算子開發者數量增長較快,已達到約 1.3 萬人;社區月活開發者約 2000 人,這已經是相當不錯的成績。
如果說英偉達的生態護城河是 CUDA,那昇騰對應的就是 CANN。現在,比較熟悉的模型,大約 6 個小時就可以從 CUDA 遷移到 CANN,比如千問 3.6;模型架構比較新、變化比較大,可能需要花一兩周時間遷完。整個遷移是較為絲滑的。
實際上,在建設生態期間,國內 AI 計算生態發展面臨不同路徑選擇,其中一條看似簡單的路線就是做一套與英偉達 CUDA 高度相似的體系,也就是所謂“仿 CUDA”。張良特別強調,昇騰堅決拒絕走這條捷徑。
“如果只是做一個‘CUDA 2 號’,雖然短期適配成本較低,基于這一體系做出的新特性、新功能,最終是建立在他人的生態上,而不是在建設真正自主的 AI 計算生態。”張良說道。
按照其思路,從虛擬指令級、運行時能力,到編譯器、硬件協同,都要自主構建。這樣才能確保底層能力真正掌握在自己手中,而不是長期依附在既有國外生態之上。
不過,張良也強調,堅持自主路線并不意味著脫離業界生態。現實中,大量開發者主要使用的是更上層的開發框架和工具,而不是直接操作底層指令和運行時。因此,昇騰需要一方面堅持底層自主,另一方面也要兼容業界主流開發習慣,支持國內外開發者已有的軟件棧和工具鏈。
其生態建設思路可以概括為三點:第一,底層關鍵能力必須自主掌握;第二,上層要兼容主流開發方式,尊重開發者習慣;第三,要逐步將自主 NPU 的關鍵特性和功能組件引入主流開源社區,讓圍繞中國 AI 硬件的能力在社區中沉淀下來。
但這一過程并不容易。目前 AI 軟件生態中大量關鍵開源項目由海外社區主導。以 OpenAI 主導的 Triton 為例,推動其支持昇騰硬件并不容易,對方首先會考慮“敏感”問題。
張良透露,過去,昇騰開發者和華為內部團隊所做的很多適配工作,往往只能以插件形式存在。相關代碼提交到主流社區時,社區并不一定接受,而是要求昇騰自行維護插件。同時,這些社區在發布新版本前,也很少會基于中國軟件和硬件進行驗證。這導致昇騰生態長期處在被動適配狀態。
為改變這一局面,昇騰投入大量時間和精力與海外開源社區溝通,通過現場交流和技術論證,推動相關插件和能力逐步進入主流項目。目前,部分社區已經開始接受昇騰相關能力,后續版本發布時也能夠逐步支持昇騰硬件。類似工作不僅發生在 Triton,也發生在 PyTorch 等多個開源項目中。
這正是做生態最難的地方:不是簡單寫一套適配代碼,而是要讓主流社區認可、接受,并在版本演進中持續支持。
結束語
“做這一切,都取決于一個基礎:你愿不愿意持續投入,愿不愿意把自己壓到極致,在很短時間內把能力補起來,這是關鍵。再往下說,就是你愿不愿意砸錢,或者說有沒有能力長期、持續地投入。”張良說道。
張良也坦言,昇騰團隊過去幾年既抓住過機會,也走過彎路,甚至有些問題曾被階段性的市場紅利掩蓋。
在他看來,今天 Agent 的快速興起,又一次把產業推向新的階段。Agent 應用對時延、多輪推理、長序列處理以及系統綜合能力提出了更高要求,也可能進一步帶來“算力荒”。這對昇騰來說既是機會,也是挑戰。
“Agent 這么紅火,我們當然很開心,它可能帶來新的算力需求。但更重要的是,我們要從中識別出真正的問題,看到不同場景對產品改進提出的新要求,比如編程編譯速度的問題。只有把這些問題識別出來,才能繼續投入、繼續改進。能不能做到這一點,非常關鍵。”
張良強調,昇騰不滿足于某一輪機會,而是要在每一輪產業變化中,持續暴露問題、修正問題、補齊能力。
“在我個人看來,我的產品永遠不完美,還要繼續努力。面向未來,我們還有很多事要做。”他說道。
聲明:本文為 AI 前線整理,不代表平臺觀點,未經許可禁止轉載。
會議推薦
世界模型的下一個突破在哪?Agent 從 Demo 到工程化還差什么?安全與可信這道坎怎么過?研發體系不重構,還能撐多久?
AICon 上海站 2026,4 大核心專題等你來:世界模型與多模態智能突破、Agent 架構與工程化實踐、Agent 安全與可信治理、企業級研發體系重構。14 個專題全面開放征稿。
誠摯邀請你登臺分享實戰經驗。AICon 2026,期待與你同行。
今日薦文
![]()
你也「在看」嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.