網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek-V4更新：百萬 token 上下文、1.6T MoE、FP4+FP8 混合精度、Pro-Max 與 Flash-Max 全面解析

2026-04-25 00:10:50　來源: moonfdd

北京舉報(bào)

分享至

2026年4月24日，DeepSeek-AI正式發(fā)布DeepSeek-V4系列預(yù)覽版本，該系列包含兩款強(qiáng)大的混合專家（Mixture-of-Experts, MoE）語言模型——DeepSeek-V4-Pro與DeepSeek-V4-Flash，同時(shí)配套推出DeepSeek-V4-Flash-Base、DeepSeek-V4-Pro-Base兩個(gè)基礎(chǔ)版本，全方位覆蓋不同推理需求場(chǎng)景。作為開源大模型領(lǐng)域的重要更新，DeepSeek-V4系列在架構(gòu)優(yōu)化、推理效率、任務(wù)適配性上實(shí)現(xiàn)多重突破，支持百萬token上下文長(zhǎng)度，在代碼、數(shù)學(xué)、推理、智能體等多類任務(wù)中表現(xiàn)亮眼，甚至在部分基準(zhǔn)測(cè)試中逼近領(lǐng)先閉源模型，成為當(dāng)前開源大模型領(lǐng)域的標(biāo)桿之作。本文將對(duì)DeepSeek-V4全系列模型進(jìn)行全面、詳細(xì)的拆解，涵蓋模型簡(jiǎn)介、架構(gòu)升級(jí)、下載方式、評(píng)測(cè)結(jié)果、使用方法等核心內(nèi)容，助力開發(fā)者快速掌握模型特性、高效上手部署。

一、DeepSeek-V4系列核心模型整體概述

DeepSeek-V4系列是DeepSeek-AI推出的新一代MoE架構(gòu)語言模型，核心定位是“高效能、長(zhǎng)上下文、多場(chǎng)景適配”，預(yù)覽版本包含四款核心模型，分別為DeepSeek-V4-Flash、DeepSeek-V4-Flash-Base、DeepSeek-V4-Pro、DeepSeek-V4-Pro-Base，其中DeepSeek-V4-Flash與DeepSeek-V4-Pro為核心功能版本，Base版本則提供基礎(chǔ)模型支持，滿足不同開發(fā)者的輕量化或定制化需求。

兩款核心功能模型（DeepSeek-V4-Flash與DeepSeek-V4-Pro）均采用混合專家（MoE）架構(gòu)，支持百萬token（1M）的上下文長(zhǎng)度，這意味著模型能夠處理超長(zhǎng)文本輸入，適配長(zhǎng)文檔分析、多輪對(duì)話、代碼審計(jì)等復(fù)雜場(chǎng)景。二者的核心差異集中在參數(shù)量與性能定位上：DeepSeek-V4-Pro總參數(shù)量達(dá)1.6T，激活參數(shù)量49B，主打高性能、全場(chǎng)景覆蓋；DeepSeek-V4-Flash總參數(shù)量284B，激活參數(shù)量13B，主打輕量化、高效推理，在控制資源占用的同時(shí)兼顧性能表現(xiàn)。

值得注意的是，DeepSeek-V4-Pro與DeepSeek-V4-Flash均支持三種推理強(qiáng)度模式，可根據(jù)實(shí)際任務(wù)需求靈活切換，同時(shí)推出Max推理模式（DeepSeek-V4-Pro-Max、DeepSeek-V4-Flash-Max），進(jìn)一步挖掘模型推理潛力，其中DeepSeek-V4-Pro-Max穩(wěn)居當(dāng)前最佳開源模型之列，大幅縮小了與領(lǐng)先閉源模型的差距。

二、DeepSeek-V4系列核心架構(gòu)與優(yōu)化升級(jí)

DeepSeek-V4系列在架構(gòu)設(shè)計(jì)與訓(xùn)練優(yōu)化上引入多項(xiàng)關(guān)鍵創(chuàng)新，核心目標(biāo)是提升長(zhǎng)上下文處理效率、訓(xùn)練穩(wěn)定性與模型表達(dá)能力，具體升級(jí)點(diǎn)如下：

2.1 混合注意力架構(gòu)：大幅提升長(zhǎng)上下文處理效率

為解決長(zhǎng)上下文場(chǎng)景下推理效率低、資源占用高的痛點(diǎn)，DeepSeek-V4系列設(shè)計(jì)了混合注意力機(jī)制，創(chuàng)新性地結(jié)合壓縮稀疏注意力（Compressed Sparse Attention, CSA）與重度壓縮注意力（Heavily Compressed Attention, HCA），實(shí)現(xiàn)了長(zhǎng)上下文處理效率的顯著提升。

該架構(gòu)的核心優(yōu)勢(shì)的在于“精準(zhǔn)壓縮、高效計(jì)算”：通過CSA與HCA的協(xié)同作用，在保留關(guān)鍵信息的前提下，對(duì)注意力權(quán)重進(jìn)行合理壓縮，減少冗余計(jì)算。官方測(cè)試數(shù)據(jù)顯示，在百萬token上下文場(chǎng)景下，DeepSeek-V4-Pro相比上一代模型DeepSeek-V3.2，僅需27%的單token推理FLOPs（浮點(diǎn)運(yùn)算次數(shù)）和10%的KV緩存，極大降低了長(zhǎng)上下文推理的資源消耗，讓百萬token級(jí)別的長(zhǎng)文本處理變得更加高效、可行。

2.2 流形約束超連接（mHC）：增強(qiáng)跨層信號(hào)傳播穩(wěn)定性

在傳統(tǒng)殘差連接的基礎(chǔ)上，DeepSeek-V4系列引入了流形約束超連接（Manifold-Constrained Hyper-Connections, mHC），進(jìn)一步優(yōu)化模型的跨層信號(hào)傳播機(jī)制。傳統(tǒng)殘差連接雖能緩解梯度消失問題，但在深層模型中仍存在信號(hào)衰減、傳播不穩(wěn)定的問題，影響模型的表達(dá)能力與訓(xùn)練效果。

mHC通過引入流形約束，對(duì)跨層信號(hào)傳播進(jìn)行規(guī)范與增強(qiáng)，在保留模型原有表達(dá)能力的同時(shí)，顯著提升了跨層信號(hào)傳播的穩(wěn)定性，讓深層模型的訓(xùn)練更加順暢，有效避免了訓(xùn)練過程中出現(xiàn)的梯度爆炸、模型退化等問題，為模型性能的提升奠定了架構(gòu)基礎(chǔ)。

2.3 Muon優(yōu)化器：實(shí)現(xiàn)更快收斂與更高訓(xùn)練穩(wěn)定性

訓(xùn)練優(yōu)化器是大模型訓(xùn)練的核心組件，直接影響模型的收斂速度、訓(xùn)練穩(wěn)定性與最終性能。DeepSeek-V4系列采用全新的Muon優(yōu)化器，相比傳統(tǒng)優(yōu)化器（如Adam、SGD），Muon優(yōu)化器在收斂速度與訓(xùn)練穩(wěn)定性上實(shí)現(xiàn)雙重提升。

通過優(yōu)化學(xué)習(xí)率調(diào)度、梯度更新策略，Muon優(yōu)化器能夠讓模型在訓(xùn)練過程中更快收斂，減少訓(xùn)練迭代次數(shù)，同時(shí)有效抑制訓(xùn)練過程中的波動(dòng)，提升訓(xùn)練穩(wěn)定性，確保模型能夠充分學(xué)習(xí)訓(xùn)練數(shù)據(jù)中的特征，進(jìn)一步挖掘模型的性能潛力。

2.4 預(yù)訓(xùn)練與后訓(xùn)練：打造多領(lǐng)域?qū)I(yè)能力

DeepSeek-V4系列的兩款核心模型（DeepSeek-V4-Flash與DeepSeek-V4-Pro）均在超過32T高質(zhì)量、多樣化token上進(jìn)行了預(yù)訓(xùn)練，涵蓋文本、代碼、數(shù)學(xué)、知識(shí)問答等多個(gè)領(lǐng)域，確保模型具備扎實(shí)的基礎(chǔ)能力。

在預(yù)訓(xùn)練基礎(chǔ)上，模型經(jīng)過全面的后訓(xùn)練流程，采用兩階段范式，精準(zhǔn)培養(yǎng)模型的領(lǐng)域?qū)＜夷芰Γ旱谝浑A段，通過監(jiān)督微調(diào)（SFT）和基于GRPO的強(qiáng)化學(xué)習(xí)（RL），獨(dú)立培養(yǎng)模型在不同領(lǐng)域的專業(yè)能力，讓模型在代碼、數(shù)學(xué)、推理等特定領(lǐng)域形成核心優(yōu)勢(shì)；第二階段，通過在線策略蒸餾（on-policy distillation）對(duì)模型進(jìn)行統(tǒng)一整合，將多個(gè)領(lǐng)域的專業(yè)能力融合到單一模型中，實(shí)現(xiàn)“全領(lǐng)域覆蓋、各領(lǐng)域精通”的效果，讓模型能夠適配多樣化的任務(wù)需求。

2.5 Max推理模式：挖掘模型性能極限

DeepSeek-V4-Pro-Max是DeepSeek-V4-Pro的最大推理努力模式，經(jīng)過針對(duì)性優(yōu)化，顯著提升了開源模型的知識(shí)能力，穩(wěn)居當(dāng)前最佳開源模型之列。該模式下，模型在代碼基準(zhǔn)測(cè)試中達(dá)到頂尖水平，在推理與智能體任務(wù)上大幅縮小了與領(lǐng)先閉源模型之間的差距，成為開源模型中少有的能夠與閉源模型同臺(tái)競(jìng)技的存在。

與此同時(shí)，DeepSeek-V4-Flash-Max作為DeepSeek-V4-Flash的Max推理模式，在擁有更大推理預(yù)算的情況下，可實(shí)現(xiàn)與Pro版本相當(dāng)?shù)耐评硇阅埽軌驖M足中高端推理需求；但由于其參數(shù)規(guī)模較?。倕?shù)量284B，激活參數(shù)量13B），在純知識(shí)類任務(wù)和最復(fù)雜的智能體工作流上，性能略遜于Pro版本，適合對(duì)資源占用有要求、推理難度適中的場(chǎng)景。

三、DeepSeek-V4全系列模型下載指南

DeepSeek-V4系列四款模型均支持通過HuggingFace與ModelScope兩個(gè)平臺(tái)下載，其中DeepSeek-V4-Flash-Base與DeepSeek-V4-Pro-Base還支持通過ModelScope SDK和Git命令下載，具體下載信息與操作步驟如下，開發(fā)者可根據(jù)自身需求選擇合適的下載方式。

3.1 全系列模型下載信息匯總

以下是DeepSeek-V4系列四款模型的核心參數(shù)與下載地址匯總，清晰呈現(xiàn)各模型的差異與下載渠道，方便開發(fā)者快速查詢：

模型名稱

總參數(shù)量

激活參數(shù)量

上下文長(zhǎng)度

精度

下載渠道

DeepSeek-V4-Flash-Base

284B

13B

FP8 混合

HuggingFace | ModelScope

DeepSeek-V4-Flash

284B

13B

FP4 + FP8 混合*

HuggingFace | ModelScope

DeepSeek-V4-Pro-Base

1.6T

49B

FP8 混合

HuggingFace | ModelScope

DeepSeek-V4-Pro

1.6T

49B

FP4 + FP8 混合*

HuggingFace | ModelScope

注：FP4 + FP8 混合精度說明：MoE專家參數(shù)使用FP4精度；其余大部分參數(shù)使用FP8精度，該精度設(shè)置在保證模型性能的前提下，進(jìn)一步降低了模型的存儲(chǔ)與推理資源占用。

3.2 DeepSeek-V4-Flash-Base下載方法

當(dāng)前DeepSeek-V4-Flash-Base的貢獻(xiàn)者未提供更詳細(xì)的模型介紹，模型文件和權(quán)重可通過“模型文件”頁面獲取，也可通過以下兩種方式直接下載：

3.2.1 ModelScope SDK下載

首先需要安裝ModelScope SDK，然后通過代碼調(diào)用實(shí)現(xiàn)模型下載，具體步驟如下：

# 安裝ModelScope
pip install modelscope


# SDK模型下載
from modelscope import snapshot_download
model_dir = snapshot_download('deepseek-ai/DeepSeek-V4-Flash-Base')

執(zhí)行上述代碼后，模型將自動(dòng)下載到指定目錄（默認(rèn)目錄可通過ModelScope配置調(diào)整），下載完成后即可用于本地部署與推理。

3.2.2 Git下載

通過Git命令直接克隆模型倉庫，獲取模型文件與權(quán)重，具體命令如下：

# Git模型下載
git clone https://www.modelscope.cn/deepseek-ai/DeepSeek-V4-Flash-Base.git

克隆完成后，進(jìn)入對(duì)應(yīng)目錄即可獲取模型的全部文件與權(quán)重，適合需要手動(dòng)配置模型參數(shù)的開發(fā)者。

3.3 DeepSeek-V4-Pro-Base下載方法

與DeepSeek-V4-Flash-Base類似，DeepSeek-V4-Pro-Base未提供詳細(xì)模型介紹，模型文件和權(quán)重可通過以下兩種方式下載：

3.3.1 ModelScope SDK下載

安裝ModelScope SDK后，通過以下代碼下載模型：

# 安裝ModelScope（若已安裝可跳過）
pip install modelscope


# SDK模型下載
from modelscope import snapshot_download
model_dir = snapshot_download('deepseek-ai/DeepSeek-V4-Pro-Base')

3.3.2 Git下載

使用Git命令克隆模型倉庫，具體命令如下：

# Git模型下載
git clone https://www.modelscope.cn/deepseek-ai/DeepSeek-V4-Pro-Base.git

3.4 核心模型（DeepSeek-V4-Flash/Pro）下載說明

DeepSeek-V4-Flash與DeepSeek-V4-Pro可直接通過HuggingFace或ModelScope平臺(tái)下載，訪問對(duì)應(yīng)平臺(tái)的模型頁面，按照平臺(tái)提示操作即可完成下載。其中，ModelScope平臺(tái)的模型地址分別為：

- DeepSeek-V4-Flash：可通過ModelScope搜索“deepseek-ai/DeepSeek-V4-Flash”獲取下載鏈接；

- DeepSeek-V4-Pro：可通過ModelScope搜索“deepseek-ai/DeepSeek-V4-Pro”獲取下載鏈接。

下載完成后，模型文件可直接用于本地推理、微調(diào)等任務(wù)，無需額外的權(quán)重轉(zhuǎn)換（若有特殊需求，可參考后續(xù)“本地運(yùn)行”部分的說明）。

四、DeepSeek-V4系列模型詳細(xì)評(píng)測(cè)結(jié)果

為全面驗(yàn)證DeepSeek-V4系列模型的性能，官方進(jìn)行了多維度的基準(zhǔn)測(cè)試，涵蓋基礎(chǔ)模型評(píng)測(cè)、指令微調(diào)模型評(píng)測(cè)、與前沿模型對(duì)比、不同推理模式對(duì)比四個(gè)維度，測(cè)試數(shù)據(jù)全面、詳實(shí)，能夠清晰反映各模型的性能表現(xiàn)與優(yōu)勢(shì)場(chǎng)景。以下是完整的評(píng)測(cè)結(jié)果解析：

4.1 基礎(chǔ)模型評(píng)測(cè)結(jié)果

基礎(chǔ)模型評(píng)測(cè)主要針對(duì)DeepSeek-V3.2-Base、DeepSeek-V4-Flash-Base、DeepSeek-V4-Pro-Base三款模型，從架構(gòu)、參數(shù)量、世界知識(shí)、語言與推理、代碼與數(shù)學(xué)、長(zhǎng)上下文六個(gè)維度進(jìn)行測(cè)試，具體結(jié)果如下表所示：

基準(zhǔn)測(cè)試（指標(biāo)）

樣本數(shù)（Shots）

DeepSeek-V3.2-Base

DeepSeek-V4-Flash-Base

DeepSeek-V4-Pro-Base

架構(gòu)

MoE

激活參數(shù)量

37B

13B

49B

總參數(shù)量

671B

284B

1.6T

世界知識(shí)

AGIEval (EM)

0-shot

80.1

82.6

83.1

MMLU (EM)

5-shot

87.8

88.7

90.1

MMLU-Redux (EM)

5-shot

87.5

89.4

90.8

MMLU-Pro (EM)

5-shot

65.5

68.3

73.5

MMMLU (EM)

5-shot

87.9

88.8

90.3

C-Eval (EM)

5-shot

90.4

92.1

93.1

CMMLU (EM)

5-shot

88.9

90.4

90.8

MultiLoKo (EM)

5-shot

38.7

42.2

51.1

Simple-QA verified (EM)

25-shot

28.3

30.1

55.2

SuperGPQA (EM)

5-shot

45.0

46.5

53.9

FACTS Parametric (EM)

25-shot

27.1

33.9

62.6

TriviaQA (EM)

5-shot

83.3

82.8

85.6

語言與推理

BBH (EM)

3-shot

87.6

86.9

87.5

DROP (F1)

1-shot

88.2

88.6

88.7

HellaSwag (EM)

0-shot

86.4

85.7

88.0

WinoGrande (EM)

0-shot

78.9

79.5

81.5

CLUEWSC (EM)

5-shot

83.5

82.2

85.2

代碼與數(shù)學(xué)

BigCodeBench (Pass@1)

3-shot

63.9

56.8

59.2

HumanEval (Pass@1)

0-shot

62.8

69.5

76.8

GSM8K (EM)

8-shot

91.1

90.8

92.6

MATH (EM)

4-shot

60.5

57.4

64.5

MGSM (EM)

8-shot

81.3

85.7

84.4

CMath (EM)

3-shot

92.6

93.6

90.9

長(zhǎng)上下文

LongBench-V2 (EM)

1-shot

40.2

44.7

51.5

從基礎(chǔ)模型評(píng)測(cè)結(jié)果可以看出：

1. 參數(shù)量?jī)?yōu)勢(shì)：DeepSeek-V4-Pro-Base總參數(shù)量（1.6T）和激活參數(shù)量（49B）遠(yuǎn)超另外兩款模型，為其性能優(yōu)勢(shì)奠定了基礎(chǔ)；DeepSeek-V4-Flash-Base雖然激活參數(shù)量（13B）最小，但整體性能優(yōu)于上一代模型DeepSeek-V3.2-Base，體現(xiàn)了架構(gòu)優(yōu)化的價(jià)值。

2. 世界知識(shí)表現(xiàn)：三款模型中，DeepSeek-V4-Pro-Base在所有世界知識(shí)類基準(zhǔn)測(cè)試中均表現(xiàn)最佳，尤其是Simple-QA verified（55.2）、FACTS Parametric（62.6）等指標(biāo)，大幅領(lǐng)先于另外兩款模型；DeepSeek-V4-Flash-Base在C-Eval（92.1）、CMMLU（90.4）等中文知識(shí)測(cè)試中表現(xiàn)突出，適合中文場(chǎng)景應(yīng)用。

3. 語言與推理表現(xiàn)：三款模型整體表現(xiàn)接近，DeepSeek-V4-Pro-Base在HellaSwag（88.0）、WinoGrande（81.5）等推理類指標(biāo)中略勝一籌，DeepSeek-V4-Flash-Base在DROP（88.6）指標(biāo)中表現(xiàn)最佳，體現(xiàn)了輕量化模型的推理優(yōu)勢(shì)。

4. 代碼與數(shù)學(xué)表現(xiàn)：DeepSeek-V4-Pro-Base在HumanEval（76.8）、MATH（64.5）等核心指標(biāo)中表現(xiàn)最佳，適合復(fù)雜代碼與數(shù)學(xué)任務(wù)；DeepSeek-V4-Flash-Base在CMath（93.6）指標(biāo)中表現(xiàn)突出，在基礎(chǔ)數(shù)學(xué)任務(wù)中具備優(yōu)勢(shì)；DeepSeek-V3.2-Base在BigCodeBench（63.9）指標(biāo)中領(lǐng)先，但其整體代碼能力不及DeepSeek-V4系列模型。

5. 長(zhǎng)上下文表現(xiàn)：DeepSeek-V4-Pro-Base（51.5）> DeepSeek-V4-Flash-Base（44.7）> DeepSeek-V3.2-Base（40.2），充分體現(xiàn)了DeepSeek-V4系列在長(zhǎng)上下文處理上的優(yōu)化效果，尤其是Pro版本，能夠更好地適配超長(zhǎng)文本場(chǎng)景。

4.2 指令微調(diào)模型：三種推理模式詳解

DeepSeek-V4-Pro和DeepSeek-V4-Flash均支持三種推理強(qiáng)度模式，不同模式針對(duì)不同的任務(wù)場(chǎng)景設(shè)計(jì)，具備不同的特點(diǎn)與回復(fù)格式，開發(fā)者可根據(jù)任務(wù)需求靈活選擇，具體如下表所示：

推理模式

特點(diǎn)

典型應(yīng)用場(chǎng)景

回復(fù)格式

Non-think

快速、直觀的響應(yīng)

日常例行任務(wù)、低風(fēng)險(xiǎn)決策

總結(jié)

Think High

有意識(shí)的邏輯分析，速度較慢但更準(zhǔn)確

復(fù)雜問題求解、規(guī)劃

思考過程總結(jié)

Think Max

將推理能力發(fā)揮到極致

探索模型推理能力的邊界

特殊系統(tǒng)提示 + 思考過程總結(jié)

三種推理模式的核心差異在于“推理深度”與“響應(yīng)速度”的平衡：Non-think模式追求高效，適合簡(jiǎn)單、高頻的日常任務(wù)；Think High模式兼顧速度與準(zhǔn)確性，適合中等復(fù)雜度的推理與規(guī)劃任務(wù)；Think Max模式追求極致準(zhǔn)確性，適合復(fù)雜、高風(fēng)險(xiǎn)的任務(wù)，能夠充分挖掘模型的推理潛力。

4.3 DeepSeek-V4-Pro-Max與前沿模型對(duì)比

為驗(yàn)證DeepSeek-V4-Pro-Max的性能水平，官方將其與當(dāng)前主流前沿模型（Opus-4.6 Max、GPT-5.4 xHigh、Gemini-3.1-Pro High等）進(jìn)行對(duì)比測(cè)試，涵蓋知識(shí)與推理、長(zhǎng)上下文、智能體能力三個(gè)維度，具體結(jié)果如下表所示：

基準(zhǔn)測(cè)試（指標(biāo)）

Opus-4.6 Max

GPT-5.4 xHigh

Gemini-3.1-Pro High

K2.6 Thinking

GLM-5.1 Thinking

DS-V4-Pro Max

知識(shí)與推理

MMLU-Pro (EM)

89.1

87.5

91.0

87.1

86.0

87.5

SimpleQA-Verified (Pass@1)

46.2

45.3

75.6

36.9

38.1

57.9

Chinese-SimpleQA (Pass@1)

76.4

76.8

85.9

75.9

75.0

84.4

GPQA Diamond (Pass@1)

91.3

93.0

94.3

90.5

86.2

90.1

HLE (Pass@1)

40.0

39.8

44.4

36.4

34.7

37.7

LiveCodeBench (Pass@1)

88.8

91.7

89.6

93.5

Codeforces (Rating)

3168

3052

3206

HMMT 2026 Feb (Pass@1)

96.2

97.7

94.7

92.7

89.4

95.2

IMOAnswerBench (Pass@1)

75.3

91.4

81.0

86.0

83.8

89.8

Apex (Pass@1)

34.5

54.1

60.9

24.0

11.5

38.3

Apex Shortlist (Pass@1)

85.9

78.1

89.1

75.5

72.4

90.2

長(zhǎng)上下文

MRCR 1M (MMR)

92.9

76.3

83.5

CorpusQA 1M (ACC)

71.7

53.8

62.0

智能體能力

Terminal Bench 2.0 (Acc)

65.4

75.1

68.5

66.7

63.5

67.9

SWE Verified (Resolved)

80.8

80.6

80.2

80.6

SWE Pro (Resolved)

57.3

57.7

54.2

58.6

58.4

55.4

SWE Multilingual (Resolved)

77.5

76.7

73.3

76.2

BrowseComp (Pass@1)

83.7

82.7

85.9

83.2

79.3

83.4

HLE w/ tools (Pass@1)

53.1

52.0

51.6

54.0

50.4

48.2

GDPval-AA (Elo)

1619

1674

1314

1482

1535

1554

MCPAtlas Public (Pass@1)

73.8

67.2

69.2

66.6

71.8

73.6

Toolathlon (Pass@1)

47.2

54.6

48.8

50.0

40.7

51.8

從對(duì)比結(jié)果可以看出，DeepSeek-V4-Pro-Max在多個(gè)維度表現(xiàn)亮眼，核心優(yōu)勢(shì)如下：

1. 知識(shí)與推理：在Chinese-SimpleQA（84.4）、LiveCodeBench（93.5）、Codeforces（3206）、Apex Shortlist（90.2）等指標(biāo)中表現(xiàn)突出，其中LiveCodeBench和Codeforces指標(biāo)超越多數(shù)前沿模型，體現(xiàn)了其在中文知識(shí)和代碼領(lǐng)域的核心優(yōu)勢(shì)；在GPQA Diamond（90.1）、HMMT 2026 Feb（95.2）等指標(biāo)中接近頂尖水平，知識(shí)儲(chǔ)備與推理能力強(qiáng)勁。

2. 長(zhǎng)上下文：在MRCR 1M（83.5）、CorpusQA 1M（62.0）指標(biāo)中表現(xiàn)優(yōu)異，雖然不及Opus-4.6 Max，但遠(yuǎn)超Gemini-3.1-Pro High，充分體現(xiàn)了其百萬token上下文的處理能力，適合長(zhǎng)文檔分析等場(chǎng)景。

3. 智能體能力：在SWE Verified（80.6）、BrowseComp（83.4）、MCPAtlas Public（73.6）等指標(biāo)中表現(xiàn)出色，與領(lǐng)先模型差距較小，能夠較好地適配智能體相關(guān)任務(wù)，具備較強(qiáng)的工具調(diào)用與任務(wù)執(zhí)行能力。

整體而言，DeepSeek-V4-Pro-Max作為開源模型，在多個(gè)核心指標(biāo)上逼近甚至超越部分閉源模型，大幅縮小了開源與閉源模型之間的差距，成為當(dāng)前開源大模型的佼佼者。

4.4 不同推理模式下的性能對(duì)比

為清晰呈現(xiàn)不同推理模式對(duì)模型性能的影響，官方測(cè)試了DeepSeek-V4-Flash與DeepSeek-V4-Pro在三種推理模式下的表現(xiàn)，涵蓋知識(shí)與推理、長(zhǎng)上下文、智能體能力三個(gè)維度，具體結(jié)果如下表所示：

基準(zhǔn)測(cè)試（指標(biāo)）

V4-Flash Non-Think

V4-Flash High

V4-Flash Max

V4-Pro Non-Think

V4-Pro High

V4-Pro Max

知識(shí)與推理

MMLU-Pro (EM)

83.0

86.4

86.2

82.9

87.1

87.5

SimpleQA-Verified (Pass@1)

23.1

28.9

34.1

45.0

模型地址：modelscope.cn/collections/deepseek-ai/DeepSeek-V4

我們相信人工智能為普通人提供了一種“增強(qiáng)工具”，并致力于分享全方位的AI知識(shí)。在這里，您可以找到最新的AI科普文章、工具評(píng)測(cè)、提升效率的秘籍以及行業(yè)洞察。歡迎關(guān)注“福大大架構(gòu)師每日一題”，發(fā)消息可獲得面試資料，讓AI助力您的未來發(fā)展。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.