網易首頁 > 網易號 > 正文申請入駐

終等到DeepSeek V4：1.6萬億參數、百萬上下文，牽手華為，價格依然"屠夫級"

2026-04-24 21:06:05　來源: 太空與網絡

北京舉報

分享至

作者 | 袁寧

DeepSeek-V4，終于來了。

這段時間，行業節奏已經快到有些失真。新模型一波接一波，參數、榜單、價格、長上下文、Agent、推理強度，幾乎每隔幾天就要重排一次座次。越是在這種密集更新里，DeepSeek 的沉默就越容易被放大。再疊加融資、擴張、下一階段戰略這些外圍討論，市場對它的期待，早就不只是“再發一個新模型”這么簡單。

所以，V4 這次上線，大家真正想知道的其實是兩件事：

第一，DeepSeek 還在不在第一梯隊里。

第二，它這次到底拿出了什么新東西。

4 月 24 日，DeepSeek-V4 預覽版官宣上線，同步開源。

先說結論：V4 不是一代靠“能力全面躍升”來定義自己的模型。官方表示，相比前代模型，DeepSeek-V4-Pro 的 Agent 能力顯著增強。在 Agentic Coding 評測中，V4-Pro 已達到當前開源模型最佳水平，并在其他 Agent 相關評測中同樣表現優異。目前 DeepSeek-V4 已成為公司內部員工使用的 Agentic Coding 模型，據評測反饋使用體驗優于 Sonnet 4.5，交付質量接近 Opus 4.6 非思考模式，但仍與 Opus 4.6 思考模式存在一定差距。

DeepSeek-V4-Pro 在世界知識測評中，大幅領先其他開源模型，僅稍遜于頂尖閉源模型 Gemini-Pro-3.1。

在數學、STEM、競賽型代碼的測評中，DeepSeek-V4-Pro 超越當前所有已公開評測的開源模型，取得了比肩世界頂級閉源模型的優異成績。

那 V4 在做什么？一句話：它把長上下文的成本結構徹底重寫了一遍。100 萬 token 上下文成為標配，但單 token 的算力消耗反而大幅下降。這是一次基礎設施級別的發布，為下一階段的 test-time scaling 和長程 Agent 任務鋪路。

兩個版本、百萬上下文、三檔推理，DeepSeek這次最狠的還是價

這次 V4 一共兩個版本。

V4-Pro 是旗艦版，總參數 1.6T，激活參數 49B；V4-Flash 是輕量版，總參數 284B，激活參數 13B。兩者都原生支持 1M 上下文，同時支持非思考模式和思考模式。

更進一步，每個模型又分成三檔推理強度：Non-think、Think High、Think Max。也就是說，這次 DeepSeek 給出的不只是兩個模型，而是一整套可以按場景分層調用的能力結構。

從產品上看，這個思路已經很明確了：Pro 負責沖能力上限，Flash 負責鋪性價比；非思考負責效率，Max 負責榨干推理能力。

官方也直接說了，“從現在開始，一百萬上下文將是 DeepSeek 所有官方服務的標配。”這句話表面上是在強調上下文長度，實際上更重要的是它背后的意思：DeepSeek 不是想把 1M 當成一個展示參數，而是想把它做成標準配置。

而標準配置能不能成立，關鍵從來都不是“寫沒寫支持 1M”，而是成本。

這次 V4 最值得注意的地方，也正是在成本曲線。按照官方披露的數據，在 1M 上下文設置下，V4-Pro 的單 token 推理 FLOPs 只有 V3.2 的 27%，KV Cache 只有 10%；V4-Flash 更激進，分別壓到 10% 和 7%。換句話說，雖然上下文從 128K 拉到了 1M，理論上放大接近 8 倍，但單 token 的推理成本并沒有跟著爆炸，反而被打了下來。

這一點其實比“百萬上下文”本身更關鍵。因為過去很長一段時間，長上下文一直都更像一種能力展示：窗口越寫越長，但真到實際調用時，價格、延遲、顯存壓力都很難看。V4 這次真正想證明的是，長上下文不一定只能做成貴族配置，它可以被改造成可供大規模調用的基礎能力。

這一點在價格上體現得非常直接。

V4-Pro 每百萬 token 輸入價格是 1 元，輸出是 12 元；V4-Flash 每百萬 token 輸入 0.2 元，輸出 2 元。這個價格一出來，基本上還是那個熟悉的 DeepSeek 風格。

也難怪不少用戶第一反應還是那句老話：便宜，而且強。

技術上動了三刀：

注意力、殘差、后訓練

V4 最核心的技術改動在注意力層。傳統 Transformer 的注意力機制里，每個 token 要和前面所有 token 算一遍相似度。上下文從 10 萬拉到 100 萬，計算量增長的不是 10 倍，是 100 倍。

V4 的做法是把注意力拆成兩種，交替疊用。一種叫 CSA（壓縮稀疏注意力），先把每 4 個 token 的 KV 緩存合并成一條摘要，再讓每個 query 只在這些摘要里挑出最相關的 top-k 條去算。既壓縮了"要看的內容"，又只挑"值得看的"去算。另一種叫 HCA（重壓縮注意力），壓縮率更激進，把每 128 個 token 合并成一條，但對剩下的摘要做稠密注意力，不做稀疏挑選。兩種交替疊起來，再加一個滑動窗口分支處理近距離 token 之間的細節依賴。這是一套"粗粒度 + 細粒度、稀疏 + 稠密"的組合拳。

把這套方案放進 DeepSeek 過去兩年的技術脈絡里，變化就很清晰。V2、V3 走的是參數稀疏化，總參數很大，但每 token 只激活一小部分專家。V4 在此之外又開了一條上下文稀疏化的路，KV 壓縮、top-k 選擇、分層壓縮率。這是 DeepSeek 第一次把"稀疏化"的刀動到 Transformer 的核心結構里。

除了注意力層，V4 還改了兩處之前沒動過的地方。一是把傳統殘差連接升級為 mHC（流形約束超連接），通過數學約束讓深層網絡的前向和反向傳播更穩定；二是用 Muon 優化器替代大部分模塊原本用的 AdamW，收斂更快，訓練更穩。同時動注意力、殘差、優化器三處核心結構，在 DeepSeek 的歷史上是第一次。

比架構改動更值得注意的是后訓練方法的切換。V3.2 用的是"混合 RL"，一次性用強化學習優化多個目標。V4 換成了"分化再統一"的兩步走。第一步，針對數學、代碼、Agent、指令跟隨等不同領域，每個領域單獨訓練一個專家模型——先用該領域高質量數據做監督微調，再用 GRPO 算法做強化學習，在各自的細分賽道上跑到最優。第二步，用 On-Policy Distillation（OPD，在策略蒸餾）把十多個領域專家"合成"回一個統一的學生模型。學生自己生成回答，然后對每個回答，去匹配"最懂這個問題"的專家的輸出分布，通過 logit 級對齊把能力吸收進來。通俗地講，就是把一堆尖子生的本事蒸餾進同一個人腦袋里。

這套流程的工程難度極高：同時加載十多個萬億參數級的教師模型做在線推理不現實。DeepSeek 的做法是把所有教師權重統一卸載到分布式存儲，只緩存每個教師最后一層的 hidden state，訓練時按教師索引排序樣本，保證任意時刻 GPU 顯存里只駐留一個 teacher head。V4 的能力不再靠一個模型從頭學到底，而是先讓不同專家在各自賽道跑到頂，再把它們收編進同一套權重。這種思路繞開了傳統混合 RL 容易導致的能力互相干擾問題。

在 Agent 方向，V4 做了幾處專項優化：后訓練階段把 Agent 作為與數學、代碼并列的獨立專家方向單獨訓練；工具調用格式從 JSON 換成帶特殊 token 的 XML 結構，降低轉義錯誤；跨輪次推理痕跡在工具調用場景下完整保留，不再像 V3.2 那樣每輪清空。DeepSeek 還自建了一套名為 DSec 的沙箱平臺，單集群可并發管理數十萬個沙箱實例，專門支撐 Agent 強化學習訓練和評測。V4 針對 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 產品進行了適配優化，在代碼任務和文檔生成任務上均有提升。

融資、算力、昇騰，

V4背后還有DeepSeek的下一道現實題

V4 這次發布，另一個繞不開的話題，是算力。

DeepSeek 在說明里提到，受限于高端算力，當前 Pro 的服務吞吐仍然有限，預計下半年昇騰 950 超節點批量上市之后，Pro 的價格還會進一步大幅下調。它基本等于確認了兩件事。

第一，DeepSeek 這次確實已經把國產算力協同放進正式路線里了。

第二，V4 當前的能力釋放，還沒有完全到位，背后依然受制于算力供給。

昇騰表示，其一直同步支持DeepSeek系列模型，本次通過雙方芯模技術緊密協同，實現昇騰超節點全系列產品支持DeepSeek V4系列模型。基于DeepSeek V4-Pro模型，在8K輸入場景，昇騰950超節點可實現TPOT約20ms時單卡Decode 吞吐4700TPS。DeepSeek V4-Flash模型，8K長序列輸入場景下可實現TPOT約10ms時單卡Decode 吞吐1600TPS。

今天下午，16點，華為昇騰還將在B站直播DeepSeek V4在其平臺的首發。

此前有消息稱，DeepSeek 正以超過 100 億美元估值尋求外部融資，計劃募集不少于 3 億美元資金。對一家過去長期強調獨立性、相對克制資本敘事的公司來說，這種變化本身就很值得玩味。因為當模型行業進入更高密度的競爭之后，技術路線再強，也很難脫離算力、人才和現金流去單獨討論。

從這個角度看，V4 其實也暴露出 DeepSeek 當前所處的位置：它在模型能力上仍然保持強競爭力，尤其在開源和高性價比這條線上依然非常突出；但與此同時，它也已經進入一個必須更現實地處理算力和資源配置的問題階段。

這點在多模態上體現得尤其明顯。

這次 V4 沒有推出多模態版本，而多模態已經越來越成為頭部模型廠商的“標配動作”。如果說 V4 展現的是 DeepSeek 仍然有能力在文本模型和 Agent 能力上繼續往前推，那么它暫時沒有補上的那一塊，也同樣說明公司還得在資源約束下做取舍。

所以，怎么理解這次 V4？如果說過去外界對 DeepSeek 的期待，是它還能不能再做出一個“便宜又強”的模型；那么 V4 給出的回答是：它不僅還在這么做，而且正在試圖把“便宜又強”這件事，進一步做成一種結構性的能力。

至于再往后，DeepSeek 能不能補上多模態、能不能借融資解決算力瓶頸、能不能把 V4 這套 preview 架構真正打磨成熟，那就是下一階段的問題了。

>End

本文轉載自“網易科技”，原標題《終等到DeepSeek V4：1.6萬億參數、百萬上下文，牽手華為，價格依然"屠夫級"》。

為分享前沿資訊及有價值的觀點，太空與網絡微信公眾號轉載此文，并經過編輯。

未按照規范轉載及引用者，我們保留追究相應責任的權利

部分圖片難以找到原始出處，故文中未加以標注，如若侵犯了您的權益，請第一時間聯系我們。

HISTORY/往期推薦

充滿激情的新時代，

充滿挑戰的新疆域，

與踔厲奮發的引領者，

卓爾不群的企業家，

一起開拓，

一起體驗，

一起感悟，

共同打造更真品質，

共同實現更高價值，

共同見證商業航天更大的跨越！

——《太空與網絡》，觀察，記錄，傳播，引領。

·《衛星與網絡》創始人：劉雨菲

·《衛星與網絡》副社長：王俊峰

·微信公眾號（ID：satnetdy）團隊

編輯：艷玲、哈玫，周泳、邱莉、黃榕、娜娜

主筆記者：李剛、魏興、張雪松、霍劍、樂瑜、稻子、趙棟

策劃部：楊艷、若?、李真子

視覺總監：董濘

專業攝影：馮小京、宋偉

設計部：顧錳、潘希峎、楊小明

行政部：姜河、林紫

業務部：王錦熙、瑾怡

原創文章轉載授權、轉載文章侵權、投稿等事宜，請加微信：15910858067

商務合作；展覽展廳設計、企業VI/CI及室內設計、企業文化建設及品牌推廣；企業口碑傳播及整體營銷傳播等，請加微信：13811260603

雜志訂閱，請加微信：wangxiaoyu9960

·衛星與網絡各分部：

成都分部負責人：沈淮

長沙分部負責人：賓鴻浦

西安分部負責人：郭朝暉

青島分部負責人：江偉

·衛星與網絡總部負責人：農燕

·會議活動部負責人：喬顥益、許克新、董今福

· 投融資及戰略層面合作：劉雨菲

·本平臺簽約設計公司：一畫開天（北京）文化創意設計有限公司

· 航天加（深圳）股權投資基金管理負責人：楊艷

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.