![]()
圖1:DeepSeek V4成為近期國產AI算力討論的核心事件
DeepSeek V4適配華為昇騰,表面上看是一條模型發布新聞,實質上是中國AI產業鏈的一次壓力測試:頂級開源模型能不能不只停留在論文、榜單和發布頁,而是真正跑在國產算力底座上,支撐高并發、長上下文和智能體應用。
這件事不能簡單理解為“國產芯片已經全面替代英偉達”。更準確的說法是:在大模型推理側,國產算力開始從“能跑”進入“可交付、可優化、可規模化驗證”的階段。這個變化比單一模型分數更重要。
一、這次適配為什么重要不是
過去很多大模型發布時,默認優先適配的是英偉達GPU和CUDA生態。開發者、云廠商和企業客戶也習慣把訓練、推理、部署工具都圍繞這一套體系來做。DeepSeek V4把華為昇騰NPU寫入適配路徑,意味著國產AI芯片開始進入前沿模型的正式驗證清單。
這背后的價值不在“宣傳口徑”,而在工程閉環。大模型不是安裝一個軟件就能跑得好,尤其是萬億參數MoE模型,還要面對專家并行、KV Cache、長上下文、顯存調度、算子融合、服務調度等一整套難題。模型側和芯片側能夠同步推進,說明國產算力已經不只是備選項,而是進入了模型設計、推理優化和部署決策的前臺。
二、DeepSeek V4真正帶來的壓力
DeepSeek V4最顯眼的升級,是上下文長度從上一代的128K擴展到1M級別。對普通讀者來說,可以把它理解為:模型一次能讀、能記、能處理的材料大幅增加,長文檔、長代碼庫、多輪工具調用和復雜Agent任務都能被放進同一個任務窗口里。
但長上下文不是免費能力。上下文越長,推理時要保存和讀取的KV Cache越大,注意力計算和訪存壓力也越高。V4之所以被關注,是因為它通過滑窗、壓縮和混合注意力機制,試圖把長上下文的成本降下來。也就是說,它不只是“能讀更多字”,而是希望在讀更多內容時仍然有可接受的速度和成本。
![]()
圖2:DeepSeek V4技術報告中的性能、FLOPs與KV Cache對比
三、昇騰接住的是推理側商業負載
大模型上線后,最直接的成本來自推理。用戶每問一次,系統都要完成輸入處理、模型計算、Token生成和結果返回。企業真正關心的不是單卡紙面峰值,而是三個問題:同一時間能服務多少請求?每個Token返回要等多久?單位Token成本能不能降下來?
華為昇騰在這次適配中的重點,正是圍繞低時延和高吞吐做工程優化。公開信息中提到,昇騰950通過融合Kernel、多流并行、量化算法等方式降低Attention計算和訪存開銷;A3超節點則面向規模化部署,強調大EP模式、vLLM推理引擎和多卡協同。
這里需要分清兩件事:適配推理,不等于所有訓練都已經完全遷移到國產芯片;提供訓練參考實現,也不等于立刻替代所有現有訓練集群。當前更現實的突破口,是先把高頻、持續、成本敏感的推理服務做穩,再逐步擴大訓練和微調場景。
![]()
圖3:華為發布超節點互聯技術,強調以系統工程承接AI算力需求
四、為什么是“超節點”
國產AI芯片短期內最大的挑戰,是單顆芯片在制程、HBM、生態成熟度上仍要追趕國際最高端GPU。華為選擇的工程路線,是用超節點和高速互聯把多顆NPU組織成一個更大的邏輯計算單元。
這條路線的關鍵,是減少多卡之間“等數據”的時間。MoE模型尤其依賴專家路由,不同Token會被分配到不同專家網絡,卡與卡之間通信頻繁。如果互聯帶寬低、延遲高,算力就會被通信拖住。超節點的價值,就是讓多卡協同更像一臺機器,而不是一堆松散服務器。
因此,DeepSeek V4適配昇騰的意義不只是“芯片能跑模型”,而是“模型結構、推理引擎、算子優化和集群互聯能不能形成組合優勢”。AI時代的硬件競爭,已經從單卡參數競爭,變成系統工程競爭。
![]()
圖4:DeepSeek V4的壓縮稀疏注意力結構,直接關系到長上下文推理成本
五、生態才是下一場硬仗
真正決定國產算力能走多遠的,不是一次適配,而是開發者遷移成本。企業不可能為了換芯片,把模型服務、推理框架、監控運維和業務系統全部重寫一遍。國產算力要被大規模采用,必須讓常見工具鏈盡量保持熟悉:PyTorch、vLLM、SGLang、Triton、TileLang、MindSpore、CANN,都要在實際項目里被反復打磨。
這也是這次新聞最值得跟進的部分。DeepSeek V4如果能在昇騰生態中持續優化,后續其他開源模型、行業模型、企業私有模型也會更容易遷移。對云廠商來說,這是服務成本問題;對政企客戶來說,這是供應連續性和數據本地化問題;對開發者來說,這是能不能少踩坑、少改代碼、少等適配的問題。
![]()
圖5:MWC 2026上華為展示面向AI基礎設施的SuperPoD產品路線
六、熱度會落到哪里
第一,云服務價格會被重新計算。如果國產算力能夠穩定承接長上下文推理,API價格就有繼續下降空間,更多企業會把內部知識庫、代碼助手、客服、研報生成、數據分析等高頻任務遷到大模型上。
第二,智算中心建設會更重視“模型適配能力”。過去建算力中心容易只看卡的數量,現在還要看能不能穩定跑主流模型,能不能支持MoE、長上下文、Agent框架和多租戶調度。算力中心不再只是機房項目,而是模型服務能力項目。
第三,國產芯片產業鏈會被推到更前面。服務器整機、交換設備、液冷、光模塊、連接器、運維軟件都會受益,但真正能留下來的,仍然是能夠把穩定性、能耗、成本和交付周期做平衡的公司。
我的判斷是,DeepSeek V4適配昇騰不會馬上改寫全球AI芯片格局,卻會改變國內AI企業的選型心態:以前國產算力更多是政策選項和備份選項,現在開始成為部分真實業務可以認真評估的主選項。接下來最值得看三件事:V4在昇騰上的真實線上吞吐能否持續優化;更多開源模型是否會跟進適配;云廠商和政企客戶是否愿意把核心推理負載長期放到國產算力上。答案如果逐步變成“是”,國產AI的底座就會真正熱起來。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.