網易首頁 > 網易號 > 正文申請入駐

DeepSeek V4支持華為昇騰，AI底座重構引發熱議。

2026-05-02 16:38:31　來源: 科技見聞Techknow

廣東舉報

分享至

圖1：DeepSeek V4成為近期國產AI算力討論的核心事件

DeepSeek V4適配華為昇騰，表面上看是一條模型發布新聞，實質上是中國AI產業鏈的一次壓力測試：頂級開源模型能不能不只停留在論文、榜單和發布頁，而是真正跑在國產算力底座上，支撐高并發、長上下文和智能體應用。

這件事不能簡單理解為“國產芯片已經全面替代英偉達”。更準確的說法是：在大模型推理側，國產算力開始從“能跑”進入“可交付、可優化、可規模化驗證”的階段。這個變化比單一模型分數更重要。

一、這次適配為什么重要不是

過去很多大模型發布時，默認優先適配的是英偉達GPU和CUDA生態。開發者、云廠商和企業客戶也習慣把訓練、推理、部署工具都圍繞這一套體系來做。DeepSeek V4把華為昇騰NPU寫入適配路徑，意味著國產AI芯片開始進入前沿模型的正式驗證清單。

這背后的價值不在“宣傳口徑”，而在工程閉環。大模型不是安裝一個軟件就能跑得好，尤其是萬億參數MoE模型，還要面對專家并行、KV Cache、長上下文、顯存調度、算子融合、服務調度等一整套難題。模型側和芯片側能夠同步推進，說明國產算力已經不只是備選項，而是進入了模型設計、推理優化和部署決策的前臺。

二、DeepSeek V4真正帶來的壓力

DeepSeek V4最顯眼的升級，是上下文長度從上一代的128K擴展到1M級別。對普通讀者來說，可以把它理解為：模型一次能讀、能記、能處理的材料大幅增加，長文檔、長代碼庫、多輪工具調用和復雜Agent任務都能被放進同一個任務窗口里。

但長上下文不是免費能力。上下文越長，推理時要保存和讀取的KV Cache越大，注意力計算和訪存壓力也越高。V4之所以被關注，是因為它通過滑窗、壓縮和混合注意力機制，試圖把長上下文的成本降下來。也就是說，它不只是“能讀更多字”，而是希望在讀更多內容時仍然有可接受的速度和成本。

圖2：DeepSeek V4技術報告中的性能、FLOPs與KV Cache對比

三、昇騰接住的是推理側商業負載

大模型上線后，最直接的成本來自推理。用戶每問一次，系統都要完成輸入處理、模型計算、Token生成和結果返回。企業真正關心的不是單卡紙面峰值，而是三個問題：同一時間能服務多少請求？每個Token返回要等多久？單位Token成本能不能降下來？

華為昇騰在這次適配中的重點，正是圍繞低時延和高吞吐做工程優化。公開信息中提到，昇騰950通過融合Kernel、多流并行、量化算法等方式降低Attention計算和訪存開銷；A3超節點則面向規模化部署，強調大EP模式、vLLM推理引擎和多卡協同。

這里需要分清兩件事：適配推理，不等于所有訓練都已經完全遷移到國產芯片；提供訓練參考實現，也不等于立刻替代所有現有訓練集群。當前更現實的突破口，是先把高頻、持續、成本敏感的推理服務做穩，再逐步擴大訓練和微調場景。

圖3：華為發布超節點互聯技術，強調以系統工程承接AI算力需求

四、為什么是“超節點”

國產AI芯片短期內最大的挑戰，是單顆芯片在制程、HBM、生態成熟度上仍要追趕國際最高端GPU。華為選擇的工程路線，是用超節點和高速互聯把多顆NPU組織成一個更大的邏輯計算單元。

這條路線的關鍵，是減少多卡之間“等數據”的時間。MoE模型尤其依賴專家路由，不同Token會被分配到不同專家網絡，卡與卡之間通信頻繁。如果互聯帶寬低、延遲高，算力就會被通信拖住。超節點的價值，就是讓多卡協同更像一臺機器，而不是一堆松散服務器。

因此，DeepSeek V4適配昇騰的意義不只是“芯片能跑模型”，而是“模型結構、推理引擎、算子優化和集群互聯能不能形成組合優勢”。AI時代的硬件競爭，已經從單卡參數競爭，變成系統工程競爭。

圖4：DeepSeek V4的壓縮稀疏注意力結構，直接關系到長上下文推理成本

五、生態才是下一場硬仗

真正決定國產算力能走多遠的，不是一次適配，而是開發者遷移成本。企業不可能為了換芯片，把模型服務、推理框架、監控運維和業務系統全部重寫一遍。國產算力要被大規模采用，必須讓常見工具鏈盡量保持熟悉：PyTorch、vLLM、SGLang、Triton、TileLang、MindSpore、CANN，都要在實際項目里被反復打磨。

這也是這次新聞最值得跟進的部分。DeepSeek V4如果能在昇騰生態中持續優化，后續其他開源模型、行業模型、企業私有模型也會更容易遷移。對云廠商來說，這是服務成本問題；對政企客戶來說，這是供應連續性和數據本地化問題；對開發者來說，這是能不能少踩坑、少改代碼、少等適配的問題。

圖5：MWC 2026上華為展示面向AI基礎設施的SuperPoD產品路線

六、熱度會落到哪里

第一，云服務價格會被重新計算。如果國產算力能夠穩定承接長上下文推理，API價格就有繼續下降空間，更多企業會把內部知識庫、代碼助手、客服、研報生成、數據分析等高頻任務遷到大模型上。

第二，智算中心建設會更重視“模型適配能力”。過去建算力中心容易只看卡的數量，現在還要看能不能穩定跑主流模型，能不能支持MoE、長上下文、Agent框架和多租戶調度。算力中心不再只是機房項目，而是模型服務能力項目。

第三，國產芯片產業鏈會被推到更前面。服務器整機、交換設備、液冷、光模塊、連接器、運維軟件都會受益，但真正能留下來的，仍然是能夠把穩定性、能耗、成本和交付周期做平衡的公司。

我的判斷是，DeepSeek V4適配昇騰不會馬上改寫全球AI芯片格局，卻會改變國內AI企業的選型心態：以前國產算力更多是政策選項和備份選項，現在開始成為部分真實業務可以認真評估的主選項。接下來最值得看三件事：V4在昇騰上的真實線上吞吐能否持續優化；更多開源模型是否會跟進適配；云廠商和政企客戶是否愿意把核心推理負載長期放到國產算力上。答案如果逐步變成“是”，國產AI的底座就會真正熱起來。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.