網易首頁 > 網易號 > 正文申請入駐

DeepSeek V4：架構極度聰明，黃仁勛擔心的事也許就此開始

2026-04-25 11:46:04　來源: 硅星人

北京舉報

分享至

作者：王兆洋 + DeepSeek V4 專家模式

V4 終于終于終于終于是來了。

而且它不在假期，不在深夜，而是突然就發了。模型，開源權重，技術報告和官方的文章同時發給所有人。

官方給出的亮點是“百萬上下文的普惠”。但顯然，這個模型里DeepSeek做的創新工作還是非常的多。

一如既往的，它的技術報告是今天比讀任何新聞都過癮的存在。

這一次V4最讓人欣喜的是，它的架構依然在進化，且依然極度聰明。它告訴整個 AI 圈一件事：不用堆參數，不用買更多卡，僅靠對注意力機制和訓練方式的重新發明，就能把百萬 token 長文本的門檻踩到地板上。

而且，外界一直在關注的用“華為芯片”訓練的問題，也終于有所揭曉：這次華為昇騰的名字，是和 NVIDIA 并列寫在驗證平臺里的。雖然從技術報告來看，訓練部分依然大概率用的英偉達芯片，但在與昇騰的適配上，它顯然達到了前所未有的“原生”水平。這后面的意味，比跑分更有意思。

而在官方文檔里，API價格的地方有一行小字：

受限于高端算力，目前Pro的服務吞吐十分有限，預計下半年昇騰950超節點批量上市后，Pro的價格會大幅下調。

這同樣讓人浮想聯翩，且讓人對未來更加期待。

27% 和 10%，這兩個數字定義了什么叫“效率革命”

看看技術報告里的硬數據。基準是 DeepSeek-V3.2——本身已經是一個效率很高的模型。

在 100 萬 token 上下文下（大約能裝三部《三體》），DeepSeek-V4-Pro——1.6 萬億參數，激活 49B——處理一個新 token 需要的算力只有 V3.2 的 27%，KV 緩存只占 10%。

而小杯 DeepSeek-V4-Flash：284B 參數，激活僅 13B，算力只要 10%，緩存只要 7%。

一個容易被忽略的細節：報告明確標注，單 token 推理算力的單位是等效 FP8 FLOPs。這不是拿低精度取巧，而是已經換算到和 V3.2 相同的精度標準去比。而且，V4 系列的路由專家權重還用了 FP4 精度，報告特別指出，現有硬件上 FP4 和 FP8 的峰值算力相同，但未來硬件上 FP4 可以再高出三分之一的效率。換句話說，現在的數字還不是天花板，等昇騰 950 這類新硬件到位，還有一波可挖的潛力。

長上下文，正在從奢侈品變成日用品。

憑什么能做到？兩大壓縮注意力，從根源上做手術

傳統 Transformer 處理長文本的死穴：序列長度加 N 倍，注意力計算量平方級爆炸，KV 緩存線性膨脹。這個瓶頸不破，百萬 token 就只是論文里的數字。

DeepSeek V4 的辦法不是湊合，而是直接改造注意力機制本身。總體架構上，注意力層采用 CSA 和 HCA 交錯配置，前饋層沿用 DeepSeekMoE，殘差連接用 mHC 加強。核心是兩種新注意力。

CSA——壓縮稀疏注意力

CSA 的數據流分三路并行。KV token 的隱藏狀態同時進入三個模塊：一個 Token-Level Compressor 負責把每 4 個 token 的 KV 緩存壓縮成一個條目；一個 Lightning Indexer 生成“索引鍵”，用于后續的匹配打分；同一個索引器還生成“索引分數”。查詢 token 的隱藏狀態則單獨進入 Lightning Indexer，生成查詢側的索引分數。兩邊一合，送入 Top-k 選擇器，從所有壓縮塊中只挑出最相關的 512 個（Pro 版是 1024 個）。最后，這些選中的壓縮塊和滑動窗口里保留的 128 個原始 token 拼在一起，送進核心的多查詢注意力計算。

索引器的實現細節：查詢端先降維到 dc=1024，減少參數量，再升維到多頭索引查詢，配合 ReLU 激活后與壓縮索引鍵計算分數。這一整套不是簡單的“截斷”，是學出來的動態篩選——哪些信息重要、哪些可以忽略，由模型自己在訓練中決定。

HCA——重度壓縮注意力

和 CSA 不同，HCA 去掉了整個稀疏選擇鏈路——沒有 Lightning Indexer，沒有 Top-k Selector。數據流非常直接：KV token 隱藏狀態經過 Token-Level Compressor 壓縮（壓縮比 m'=128，遠大于 CSA 的 4），得到的壓縮條目直接與滑動窗口 KV 拼在一起，送進 MQA。因為每條目覆蓋 128 個 token，條目總量已經很少，全量算也不貴，省掉了篩選環節。這是為了抓全局結構，避免模型“只見樹木不見森林”。

兩種注意力都額外配了一個滑動窗口，保留最近 128 個 token 的原始 KV 不壓縮，確保局部依賴沒有精度損失。同時還用了注意力沉降技術——給每個頭一個可學習的 sink logit，加到注意力的分母里，讓每個頭可以選擇“什么都不關注”。

另外，報告透露了一個重要的工程決定：CSA 和 HCA 在 Query 和 KV 上只對最后 64 個維度施加 RoPE 位置編碼，其他維度不編碼。同時 KV 緩存采用混合精度存儲——RoPE 維度用 BF16，其余維度用 FP8——又把緩存砍掉近一半。

而這套注意力架構要真正落地，緩存管理也必須重新設計。V4 的 KV 緩存被拆成兩大塊：一塊是“狀態緩存”，每個請求分一個固定大小的區域，存滑動窗口最近 128 個 token 的 KV，以及 CSA/HCA 中還沒攢夠 4 個或 128 個 token、暫時無法壓縮的“尾料”。

另一塊是“經典緩存”，存已經壓縮好的條目。經典緩存里，每個塊覆蓋的原始 token 數是兩種壓縮比（4 和 128）的最小公倍數，這樣同一塊里 CSA 和 HCA 的壓縮結果都能對齊——CSA 產 32 個壓縮條目，HCA 產 1 個——不會因為兩種壓縮率不一致導致碎片化管理。這套緩存布局，是百萬上下文能從實驗室走進生產環境的關鍵工程基礎設施。

所以這套方案是壓縮、稀疏化、混合精度、滑動窗口、注意力沉降、精細緩存管理多管齊下。局部細節、中段關聯、全局脈絡，全抓住了，算力開銷斷崖式下降。

也就是說，傳統注意力機制要求每個 token 和歷史上所有 token 都做一次交互，歷史多長，活兒就多沉。DeepSeek V4 做的，是把“記憶”本身先整理成層次化的摘要——有些是每一小段的凝練，有些是每一章的概括，再加上眼前幾句話的原文。需要調用哪一層、哪一段，由模型自己根據當前要解決的問題即場判斷。內存里不再存一座山，算力不用翻整座山，百萬上下文的成本自然下來了。

Muon 和 mHC：訓練上的降本增效

架構的聰明不止在推理側。報告用專門章節講了兩項訓練優化。

一個是此前已經被放出來過的 Muon 優化器。

大多數優化器拿到梯度，一個參數一個參數地調。Muon 不這么干。它把整個梯度矩陣做一步“捋正”運算，讓各行更新方向相互獨立、不打架。效果就是每次更新都踩在最干凈的方向上，同樣步數學到更多，變相省算力。為了配合 Muon，分布式策略也改了：稠密參數限制切分，每個 GPU 最多管五個完整矩陣；MoE 參數直接拼成大向量等分，不切單個矩陣。梯度通信還做了 BF16 量化，砍掉一半通信量。

另一個是 mHC——流形約束超連接。

深層網絡的老大難是信號穿幾十層，要么逐層放大到溢出，要么衰減到消失。mHC 的解法是給殘差連接加個數學籠子——強制每層的混合矩陣滿足“每行每列和為 1，元素非負”。這保證了無論怎么傳，幅度不發散。

實現上，DeepSeek V4 拿到參數后，做 20 次交替的行歸一化和列歸一化，硬把矩陣拉回約束集合。報告承認萬億參數訓練遇到了損失尖峰，但用兩招解決了：“預判路由”打破路由和主網絡的同步更新循環，“SwiGLU 截斷”把激活值鉗在 [-10,10]。

一如既往的，數學上很干凈，工程上訓練不崩。

后訓練更絕：分頭訓專才，再無損蒸餾

DeepSeek V4 的后訓練流程也很有想法，報告用第五章詳述了這套“先分后合”的工藝。

第一步，分別對代碼、數學、智能體、指令遵循等方向獨立訓練專家模型。每個專家都先做 SFT 打底，再用 GRPO 強化學習，配合領域專屬的獎勵模型。連獎勵模型本身也是生成式的——讓模型同時學會“判卷”和“答卷”，減少對人類標注的依賴。

報告中很有意思的一點是為不同推理模式設了三種檔位：Non-think（無思考標簽，快速回答）、Think High（顯式思維鏈但受控長度）、Think Max（極限思維模式，給特殊系統提示同時放寬長度懲罰）。三種模式在 RL 訓練時分別用不同的上下文窗口和懲罰系數，讓同一套權重能根據場景切推理深度。

第二步，用在策略蒸餾把所有專才的知識融合到一個統一模型里。關鍵是，他們做的不是 token 級近似，而是全詞表級別的反向 KL 散度——保持教師完整的 logit 分布。這帶來了巨大的計算壓力：詞表 128K，十多個老師，每個都是萬億參數級別。報告給出的解決路徑是：教師權重從中心化存儲按需加載；不存完整 logits，只緩最后一層隱藏狀態，訓練時即時重算；按教師索引排序樣本，保證同一時刻 GPU 上只有一個教師頭。這些都是生產環境才會碰到的硬問題。

效果直接反映在基準上。Pro Max 在知識基準 SimpleQA 拿下 57.9，比開源最佳高出 20 個點；數學 Putnam 2025 做到 120/120 滿分；Codeforces 評分在人類選手中排第 23。這三個分屬不同類型的任務同時沖頂，背后的路線選擇是被驗證了的。

“細粒度通信-計算重疊”和昇騰“原生”

報告里另一個讓所有人都非常關注的事情，就是：它和華為昇騰到底是什么關系。

報告 3.1 節原文是：“我們在 NVIDIA GPU 和華為昇騰 NPU 兩個平臺上驗證了這個細粒度的專家并行方案。”兩個平臺并列，寫在驗證結論里。

這套方案的核心是把 MoE 的通信和計算切成更細的顆粒，按“波”調度。每個波只含一小部分專家，這個波的通信一完成立刻開始計算，同一時刻，下一個波的通信和上一個波的結果回傳同步進行。報告里的加速比數據是：通用推理 1.50–1.73 倍，RL 長尾小批次最高 1.96 倍。

報告還給了硬件設計公式：每 GBps 通信帶寬對應 6.1 TFLOP/s 算力，通信就能被完全隱藏。這意味著 DeepSeek 在用架構告訴硬件廠商：不用卷帶寬，按這個比例配算力就行。這比適配某個具體型號高一個維度——是定義需求。昇騰 950 如果按這個配比來設計，跑 V4 就能把利用率拉到滿。

你可以這樣理解，MoE 每次計算都要在不同 GPU 之間搬運中間結果，以前是搬完才算，搬運時長全在等。現在是把搬運拆碎，搬一小批就算一小批，算的同時繼續搬下一批。結果就是搬運時間被計算時間吃掉了，用戶感覺不到等。這套機制不挑硬件，只要算力和帶寬的比例到位，NVIDIA 還是昇騰都能跑出高利用率。

報告也提到了用 TileLang 做算子開發，配合 Z3 SMT 求解器自動驗證和優化；同時要求訓練推理“批次不變”和“確定性”——同一個 token 無論和誰一批、在什么硬件上，輸出比特級一致。這對昇騰這種新硬件的調試和部署是基礎設施級的支持。

雖然開源 MegaMoE 內核還是 CUDA 版，主力訓練集群大概率仍是 NVIDIA，但架構上已經把適配昇騰的土壤翻松了、路鋪平了。

加上報告公開說 FP4 在未來硬件上還能再提效三分之一，以及官方文檔里那句“預計下半年昇騰 950 超節點批量上市后 Pro 價格大幅下調”，信號已經不能更明確了。

看完V4的報告，感觸它想得夠清楚。

過去兩年，行業解決長文本問題的主流思路本質上是在堆資源。要么堆顯存，把KV緩存硬塞進去；要么堆算力，讓芯片更快一點。這條路走到現在，邊際效益已經很明顯了。

DeepSeek V4換了一個完全不同的方向——不再追著“怎么能扛住”不放，而是問“這東西真的需要全記住嗎”。CSA和HCA本質上是讓模型在記憶的時候就有了層次感，細顆粒的、粗顆粒的、最近的原文，各存各的。這不再是工程上的妥協，而是架構層面對“什么值得記住”這個問題的重新回答。思路一旦轉過來了，效率的提升就是數量級的。

而這套東西還有一個容易被低估的價值，就是它讓硬件的選擇權回到了算法這邊。

過去芯片決定模型能跑多長的上下文，帶寬不夠就不行。V4這套壓縮加波浪調度的方案出來后，算和搬的比例被一個公式定義清楚了。這意味著不是算法去適配硬件，而是算法在告訴硬件應該怎么設計。昇騰被寫進驗證平臺、FP4留出三分之一效率冗余，這些細節放在一起看，就知道它從一開始就沒打算綁定某一家。這種獨立性，在現在這個時間點，比性能本身更有分量。

V4的神就在這里。

它再次給大家提供了一個更聰明的選擇。

而這正是前不久黃仁勛在播客里有些失去耐心時表達的擔心：當所有人都在去CUDA，都在擺脫硬件主導的限制，當DeepSeek這類開源模型有一天可以原生長在華為等其他芯片生態里。今天AI格局的根基會迅速動搖。

現在看，他的擔心不無道理。

「不誘于譽，不恐于誹，率道而行，端然正己。」這是DeepSeek官方公告里的一句與其他內容都不同的話，這句話也幾乎是V4的特質，它讓人繼續對DeepSeek接下來的目標充滿期待。

點個“愛心”，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.