<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      DeepSeek-V4更新:百萬 token 上下文、1.6T MoE、FP4+FP8 混合精度、Pro-Max 與 Flash-Max 全面解析

      0
      分享至




      2026年4月24日,DeepSeek-AI正式發(fā)布DeepSeek-V4系列預(yù)覽版本,該系列包含兩款強(qiáng)大的混合專家(Mixture-of-Experts, MoE)語言模型——DeepSeek-V4-Pro與DeepSeek-V4-Flash,同時(shí)配套推出DeepSeek-V4-Flash-Base、DeepSeek-V4-Pro-Base兩個(gè)基礎(chǔ)版本,全方位覆蓋不同推理需求場(chǎng)景。作為開源大模型領(lǐng)域的重要更新,DeepSeek-V4系列在架構(gòu)優(yōu)化、推理效率、任務(wù)適配性上實(shí)現(xiàn)多重突破,支持百萬token上下文長(zhǎng)度,在代碼、數(shù)學(xué)、推理、智能體等多類任務(wù)中表現(xiàn)亮眼,甚至在部分基準(zhǔn)測(cè)試中逼近領(lǐng)先閉源模型,成為當(dāng)前開源大模型領(lǐng)域的標(biāo)桿之作。本文將對(duì)DeepSeek-V4全系列模型進(jìn)行全面、詳細(xì)的拆解,涵蓋模型簡(jiǎn)介、架構(gòu)升級(jí)、下載方式、評(píng)測(cè)結(jié)果、使用方法等核心內(nèi)容,助力開發(fā)者快速掌握模型特性、高效上手部署。

      一、DeepSeek-V4系列核心模型整體概述

      DeepSeek-V4系列是DeepSeek-AI推出的新一代MoE架構(gòu)語言模型,核心定位是“高效能、長(zhǎng)上下文、多場(chǎng)景適配”,預(yù)覽版本包含四款核心模型,分別為DeepSeek-V4-Flash、DeepSeek-V4-Flash-Base、DeepSeek-V4-Pro、DeepSeek-V4-Pro-Base,其中DeepSeek-V4-Flash與DeepSeek-V4-Pro為核心功能版本,Base版本則提供基礎(chǔ)模型支持,滿足不同開發(fā)者的輕量化或定制化需求。

      兩款核心功能模型(DeepSeek-V4-Flash與DeepSeek-V4-Pro)均采用混合專家(MoE)架構(gòu),支持百萬token(1M)的上下文長(zhǎng)度,這意味著模型能夠處理超長(zhǎng)文本輸入,適配長(zhǎng)文檔分析、多輪對(duì)話、代碼審計(jì)等復(fù)雜場(chǎng)景。二者的核心差異集中在參數(shù)量與性能定位上:DeepSeek-V4-Pro總參數(shù)量達(dá)1.6T,激活參數(shù)量49B,主打高性能、全場(chǎng)景覆蓋;DeepSeek-V4-Flash總參數(shù)量284B,激活參數(shù)量13B,主打輕量化、高效推理,在控制資源占用的同時(shí)兼顧性能表現(xiàn)。

      值得注意的是,DeepSeek-V4-Pro與DeepSeek-V4-Flash均支持三種推理強(qiáng)度模式,可根據(jù)實(shí)際任務(wù)需求靈活切換,同時(shí)推出Max推理模式(DeepSeek-V4-Pro-Max、DeepSeek-V4-Flash-Max),進(jìn)一步挖掘模型推理潛力,其中DeepSeek-V4-Pro-Max穩(wěn)居當(dāng)前最佳開源模型之列,大幅縮小了與領(lǐng)先閉源模型的差距。

      二、DeepSeek-V4系列核心架構(gòu)與優(yōu)化升級(jí)

      DeepSeek-V4系列在架構(gòu)設(shè)計(jì)與訓(xùn)練優(yōu)化上引入多項(xiàng)關(guān)鍵創(chuàng)新,核心目標(biāo)是提升長(zhǎng)上下文處理效率、訓(xùn)練穩(wěn)定性與模型表達(dá)能力,具體升級(jí)點(diǎn)如下:

      2.1 混合注意力架構(gòu):大幅提升長(zhǎng)上下文處理效率

      為解決長(zhǎng)上下文場(chǎng)景下推理效率低、資源占用高的痛點(diǎn),DeepSeek-V4系列設(shè)計(jì)了混合注意力機(jī)制,創(chuàng)新性地結(jié)合壓縮稀疏注意力(Compressed Sparse Attention, CSA)與重度壓縮注意力(Heavily Compressed Attention, HCA),實(shí)現(xiàn)了長(zhǎng)上下文處理效率的顯著提升。

      該架構(gòu)的核心優(yōu)勢(shì)的在于“精準(zhǔn)壓縮、高效計(jì)算”:通過CSA與HCA的協(xié)同作用,在保留關(guān)鍵信息的前提下,對(duì)注意力權(quán)重進(jìn)行合理壓縮,減少冗余計(jì)算。官方測(cè)試數(shù)據(jù)顯示,在百萬token上下文場(chǎng)景下,DeepSeek-V4-Pro相比上一代模型DeepSeek-V3.2,僅需27%的單token推理FLOPs(浮點(diǎn)運(yùn)算次數(shù))和10%的KV緩存,極大降低了長(zhǎng)上下文推理的資源消耗,讓百萬token級(jí)別的長(zhǎng)文本處理變得更加高效、可行。

      2.2 流形約束超連接(mHC):增強(qiáng)跨層信號(hào)傳播穩(wěn)定性

      在傳統(tǒng)殘差連接的基礎(chǔ)上,DeepSeek-V4系列引入了流形約束超連接(Manifold-Constrained Hyper-Connections, mHC),進(jìn)一步優(yōu)化模型的跨層信號(hào)傳播機(jī)制。傳統(tǒng)殘差連接雖能緩解梯度消失問題,但在深層模型中仍存在信號(hào)衰減、傳播不穩(wěn)定的問題,影響模型的表達(dá)能力與訓(xùn)練效果。

      mHC通過引入流形約束,對(duì)跨層信號(hào)傳播進(jìn)行規(guī)范與增強(qiáng),在保留模型原有表達(dá)能力的同時(shí),顯著提升了跨層信號(hào)傳播的穩(wěn)定性,讓深層模型的訓(xùn)練更加順暢,有效避免了訓(xùn)練過程中出現(xiàn)的梯度爆炸、模型退化等問題,為模型性能的提升奠定了架構(gòu)基礎(chǔ)。

      2.3 Muon優(yōu)化器:實(shí)現(xiàn)更快收斂與更高訓(xùn)練穩(wěn)定性

      訓(xùn)練優(yōu)化器是大模型訓(xùn)練的核心組件,直接影響模型的收斂速度、訓(xùn)練穩(wěn)定性與最終性能。DeepSeek-V4系列采用全新的Muon優(yōu)化器,相比傳統(tǒng)優(yōu)化器(如Adam、SGD),Muon優(yōu)化器在收斂速度與訓(xùn)練穩(wěn)定性上實(shí)現(xiàn)雙重提升。

      通過優(yōu)化學(xué)習(xí)率調(diào)度、梯度更新策略,Muon優(yōu)化器能夠讓模型在訓(xùn)練過程中更快收斂,減少訓(xùn)練迭代次數(shù),同時(shí)有效抑制訓(xùn)練過程中的波動(dòng),提升訓(xùn)練穩(wěn)定性,確保模型能夠充分學(xué)習(xí)訓(xùn)練數(shù)據(jù)中的特征,進(jìn)一步挖掘模型的性能潛力。

      2.4 預(yù)訓(xùn)練與后訓(xùn)練:打造多領(lǐng)域?qū)I(yè)能力

      DeepSeek-V4系列的兩款核心模型(DeepSeek-V4-Flash與DeepSeek-V4-Pro)均在超過32T高質(zhì)量、多樣化token上進(jìn)行了預(yù)訓(xùn)練,涵蓋文本、代碼、數(shù)學(xué)、知識(shí)問答等多個(gè)領(lǐng)域,確保模型具備扎實(shí)的基礎(chǔ)能力。

      在預(yù)訓(xùn)練基礎(chǔ)上,模型經(jīng)過全面的后訓(xùn)練流程,采用兩階段范式,精準(zhǔn)培養(yǎng)模型的領(lǐng)域?qū)<夷芰Γ旱谝浑A段,通過監(jiān)督微調(diào)(SFT)和基于GRPO的強(qiáng)化學(xué)習(xí)(RL),獨(dú)立培養(yǎng)模型在不同領(lǐng)域的專業(yè)能力,讓模型在代碼、數(shù)學(xué)、推理等特定領(lǐng)域形成核心優(yōu)勢(shì);第二階段,通過在線策略蒸餾(on-policy distillation)對(duì)模型進(jìn)行統(tǒng)一整合,將多個(gè)領(lǐng)域的專業(yè)能力融合到單一模型中,實(shí)現(xiàn)“全領(lǐng)域覆蓋、各領(lǐng)域精通”的效果,讓模型能夠適配多樣化的任務(wù)需求。

      2.5 Max推理模式:挖掘模型性能極限

      DeepSeek-V4-Pro-Max是DeepSeek-V4-Pro的最大推理努力模式,經(jīng)過針對(duì)性優(yōu)化,顯著提升了開源模型的知識(shí)能力,穩(wěn)居當(dāng)前最佳開源模型之列。該模式下,模型在代碼基準(zhǔn)測(cè)試中達(dá)到頂尖水平,在推理與智能體任務(wù)上大幅縮小了與領(lǐng)先閉源模型之間的差距,成為開源模型中少有的能夠與閉源模型同臺(tái)競(jìng)技的存在。

      與此同時(shí),DeepSeek-V4-Flash-Max作為DeepSeek-V4-Flash的Max推理模式,在擁有更大推理預(yù)算的情況下,可實(shí)現(xiàn)與Pro版本相當(dāng)?shù)耐评硇阅埽軌驖M足中高端推理需求;但由于其參數(shù)規(guī)模較?。倕?shù)量284B,激活參數(shù)量13B),在純知識(shí)類任務(wù)和最復(fù)雜的智能體工作流上,性能略遜于Pro版本,適合對(duì)資源占用有要求、推理難度適中的場(chǎng)景。

      三、DeepSeek-V4全系列模型下載指南

      DeepSeek-V4系列四款模型均支持通過HuggingFace與ModelScope兩個(gè)平臺(tái)下載,其中DeepSeek-V4-Flash-Base與DeepSeek-V4-Pro-Base還支持通過ModelScope SDK和Git命令下載,具體下載信息與操作步驟如下,開發(fā)者可根據(jù)自身需求選擇合適的下載方式。

      3.1 全系列模型下載信息匯總

      以下是DeepSeek-V4系列四款模型的核心參數(shù)與下載地址匯總,清晰呈現(xiàn)各模型的差異與下載渠道,方便開發(fā)者快速查詢:

      模型名稱

      總參數(shù)量

      激活參數(shù)量

      上下文長(zhǎng)度

      精度

      下載渠道

      DeepSeek-V4-Flash-Base

      284B

      13B

      1M

      FP8 混合

      HuggingFace | ModelScope

      DeepSeek-V4-Flash

      284B

      13B

      1M

      FP4 + FP8 混合*

      HuggingFace | ModelScope

      DeepSeek-V4-Pro-Base

      1.6T

      49B

      1M

      FP8 混合

      HuggingFace | ModelScope

      DeepSeek-V4-Pro

      1.6T

      49B

      1M

      FP4 + FP8 混合*

      HuggingFace | ModelScope

      注:FP4 + FP8 混合精度說明:MoE專家參數(shù)使用FP4精度;其余大部分參數(shù)使用FP8精度,該精度設(shè)置在保證模型性能的前提下,進(jìn)一步降低了模型的存儲(chǔ)與推理資源占用。

      3.2 DeepSeek-V4-Flash-Base下載方法

      當(dāng)前DeepSeek-V4-Flash-Base的貢獻(xiàn)者未提供更詳細(xì)的模型介紹,模型文件和權(quán)重可通過“模型文件”頁面獲取,也可通過以下兩種方式直接下載:

      3.2.1 ModelScope SDK下載

      首先需要安裝ModelScope SDK,然后通過代碼調(diào)用實(shí)現(xiàn)模型下載,具體步驟如下:

      # 安裝ModelScope
      pip install modelscope


      # SDK模型下載
      from modelscope import snapshot_download
      model_dir = snapshot_download('deepseek-ai/DeepSeek-V4-Flash-Base')

      執(zhí)行上述代碼后,模型將自動(dòng)下載到指定目錄(默認(rèn)目錄可通過ModelScope配置調(diào)整),下載完成后即可用于本地部署與推理。

      3.2.2 Git下載

      通過Git命令直接克隆模型倉庫,獲取模型文件與權(quán)重,具體命令如下:

      # Git模型下載
      git clone https://www.modelscope.cn/deepseek-ai/DeepSeek-V4-Flash-Base.git

      克隆完成后,進(jìn)入對(duì)應(yīng)目錄即可獲取模型的全部文件與權(quán)重,適合需要手動(dòng)配置模型參數(shù)的開發(fā)者。

      3.3 DeepSeek-V4-Pro-Base下載方法

      與DeepSeek-V4-Flash-Base類似,DeepSeek-V4-Pro-Base未提供詳細(xì)模型介紹,模型文件和權(quán)重可通過以下兩種方式下載:

      3.3.1 ModelScope SDK下載

      安裝ModelScope SDK后,通過以下代碼下載模型:

      # 安裝ModelScope(若已安裝可跳過)
      pip install modelscope


      # SDK模型下載
      from modelscope import snapshot_download
      model_dir = snapshot_download('deepseek-ai/DeepSeek-V4-Pro-Base')
      3.3.2 Git下載

      使用Git命令克隆模型倉庫,具體命令如下:

      # Git模型下載
      git clone https://www.modelscope.cn/deepseek-ai/DeepSeek-V4-Pro-Base.git
      3.4 核心模型(DeepSeek-V4-Flash/Pro)下載說明

      DeepSeek-V4-Flash與DeepSeek-V4-Pro可直接通過HuggingFace或ModelScope平臺(tái)下載,訪問對(duì)應(yīng)平臺(tái)的模型頁面,按照平臺(tái)提示操作即可完成下載。其中,ModelScope平臺(tái)的模型地址分別為:

      - DeepSeek-V4-Flash:可通過ModelScope搜索“deepseek-ai/DeepSeek-V4-Flash”獲取下載鏈接;

      - DeepSeek-V4-Pro:可通過ModelScope搜索“deepseek-ai/DeepSeek-V4-Pro”獲取下載鏈接。

      下載完成后,模型文件可直接用于本地推理、微調(diào)等任務(wù),無需額外的權(quán)重轉(zhuǎn)換(若有特殊需求,可參考后續(xù)“本地運(yùn)行”部分的說明)。

      四、DeepSeek-V4系列模型詳細(xì)評(píng)測(cè)結(jié)果

      為全面驗(yàn)證DeepSeek-V4系列模型的性能,官方進(jìn)行了多維度的基準(zhǔn)測(cè)試,涵蓋基礎(chǔ)模型評(píng)測(cè)、指令微調(diào)模型評(píng)測(cè)、與前沿模型對(duì)比、不同推理模式對(duì)比四個(gè)維度,測(cè)試數(shù)據(jù)全面、詳實(shí),能夠清晰反映各模型的性能表現(xiàn)與優(yōu)勢(shì)場(chǎng)景。以下是完整的評(píng)測(cè)結(jié)果解析:

      4.1 基礎(chǔ)模型評(píng)測(cè)結(jié)果

      基礎(chǔ)模型評(píng)測(cè)主要針對(duì)DeepSeek-V3.2-Base、DeepSeek-V4-Flash-Base、DeepSeek-V4-Pro-Base三款模型,從架構(gòu)、參數(shù)量、世界知識(shí)、語言與推理、代碼與數(shù)學(xué)、長(zhǎng)上下文六個(gè)維度進(jìn)行測(cè)試,具體結(jié)果如下表所示:

      基準(zhǔn)測(cè)試(指標(biāo))

      樣本數(shù)(Shots)

      DeepSeek-V3.2-Base

      DeepSeek-V4-Flash-Base

      DeepSeek-V4-Pro-Base

      架構(gòu)

      MoE

      MoE

      MoE

      激活參數(shù)量

      37B

      13B

      49B

      總參數(shù)量

      671B

      284B

      1.6T

      世界知識(shí)

      AGIEval (EM)

      0-shot

      80.1

      82.6

      83.1

      MMLU (EM)

      5-shot

      87.8

      88.7

      90.1

      MMLU-Redux (EM)

      5-shot

      87.5

      89.4

      90.8

      MMLU-Pro (EM)

      5-shot

      65.5

      68.3

      73.5

      MMMLU (EM)

      5-shot

      87.9

      88.8

      90.3

      C-Eval (EM)

      5-shot

      90.4

      92.1

      93.1

      CMMLU (EM)

      5-shot

      88.9

      90.4

      90.8

      MultiLoKo (EM)

      5-shot

      38.7

      42.2

      51.1

      Simple-QA verified (EM)

      25-shot

      28.3

      30.1

      55.2

      SuperGPQA (EM)

      5-shot

      45.0

      46.5

      53.9

      FACTS Parametric (EM)

      25-shot

      27.1

      33.9

      62.6

      TriviaQA (EM)

      5-shot

      83.3

      82.8

      85.6

      語言與推理

      BBH (EM)

      3-shot

      87.6

      86.9

      87.5

      DROP (F1)

      1-shot

      88.2

      88.6

      88.7

      HellaSwag (EM)

      0-shot

      86.4

      85.7

      88.0

      WinoGrande (EM)

      0-shot

      78.9

      79.5

      81.5

      CLUEWSC (EM)

      5-shot

      83.5

      82.2

      85.2

      代碼與數(shù)學(xué)

      BigCodeBench (Pass@1)

      3-shot

      63.9

      56.8

      59.2

      HumanEval (Pass@1)

      0-shot

      62.8

      69.5

      76.8

      GSM8K (EM)

      8-shot

      91.1

      90.8

      92.6

      MATH (EM)

      4-shot

      60.5

      57.4

      64.5

      MGSM (EM)

      8-shot

      81.3

      85.7

      84.4

      CMath (EM)

      3-shot

      92.6

      93.6

      90.9

      長(zhǎng)上下文

      LongBench-V2 (EM)

      1-shot

      40.2

      44.7

      51.5

      從基礎(chǔ)模型評(píng)測(cè)結(jié)果可以看出:

      1. 參數(shù)量?jī)?yōu)勢(shì):DeepSeek-V4-Pro-Base總參數(shù)量(1.6T)和激活參數(shù)量(49B)遠(yuǎn)超另外兩款模型,為其性能優(yōu)勢(shì)奠定了基礎(chǔ);DeepSeek-V4-Flash-Base雖然激活參數(shù)量(13B)最小,但整體性能優(yōu)于上一代模型DeepSeek-V3.2-Base,體現(xiàn)了架構(gòu)優(yōu)化的價(jià)值。

      2. 世界知識(shí)表現(xiàn):三款模型中,DeepSeek-V4-Pro-Base在所有世界知識(shí)類基準(zhǔn)測(cè)試中均表現(xiàn)最佳,尤其是Simple-QA verified(55.2)、FACTS Parametric(62.6)等指標(biāo),大幅領(lǐng)先于另外兩款模型;DeepSeek-V4-Flash-Base在C-Eval(92.1)、CMMLU(90.4)等中文知識(shí)測(cè)試中表現(xiàn)突出,適合中文場(chǎng)景應(yīng)用。

      3. 語言與推理表現(xiàn):三款模型整體表現(xiàn)接近,DeepSeek-V4-Pro-Base在HellaSwag(88.0)、WinoGrande(81.5)等推理類指標(biāo)中略勝一籌,DeepSeek-V4-Flash-Base在DROP(88.6)指標(biāo)中表現(xiàn)最佳,體現(xiàn)了輕量化模型的推理優(yōu)勢(shì)。

      4. 代碼與數(shù)學(xué)表現(xiàn):DeepSeek-V4-Pro-Base在HumanEval(76.8)、MATH(64.5)等核心指標(biāo)中表現(xiàn)最佳,適合復(fù)雜代碼與數(shù)學(xué)任務(wù);DeepSeek-V4-Flash-Base在CMath(93.6)指標(biāo)中表現(xiàn)突出,在基礎(chǔ)數(shù)學(xué)任務(wù)中具備優(yōu)勢(shì);DeepSeek-V3.2-Base在BigCodeBench(63.9)指標(biāo)中領(lǐng)先,但其整體代碼能力不及DeepSeek-V4系列模型。

      5. 長(zhǎng)上下文表現(xiàn):DeepSeek-V4-Pro-Base(51.5)> DeepSeek-V4-Flash-Base(44.7)> DeepSeek-V3.2-Base(40.2),充分體現(xiàn)了DeepSeek-V4系列在長(zhǎng)上下文處理上的優(yōu)化效果,尤其是Pro版本,能夠更好地適配超長(zhǎng)文本場(chǎng)景。

      4.2 指令微調(diào)模型:三種推理模式詳解

      DeepSeek-V4-Pro和DeepSeek-V4-Flash均支持三種推理強(qiáng)度模式,不同模式針對(duì)不同的任務(wù)場(chǎng)景設(shè)計(jì),具備不同的特點(diǎn)與回復(fù)格式,開發(fā)者可根據(jù)任務(wù)需求靈活選擇,具體如下表所示:

      推理模式

      特點(diǎn)

      典型應(yīng)用場(chǎng)景

      回復(fù)格式

      Non-think

      快速、直觀的響應(yīng)

      日常例行任務(wù)、低風(fēng)險(xiǎn)決策

      總結(jié)

      Think High

      有意識(shí)的邏輯分析,速度較慢但更準(zhǔn)確

      復(fù)雜問題求解、規(guī)劃

      思考過程 總結(jié)

      Think Max

      將推理能力發(fā)揮到極致

      探索模型推理能力的邊界

      特殊系統(tǒng)提示 + 思考過程 總結(jié)

      三種推理模式的核心差異在于“推理深度”與“響應(yīng)速度”的平衡:Non-think模式追求高效,適合簡(jiǎn)單、高頻的日常任務(wù);Think High模式兼顧速度與準(zhǔn)確性,適合中等復(fù)雜度的推理與規(guī)劃任務(wù);Think Max模式追求極致準(zhǔn)確性,適合復(fù)雜、高風(fēng)險(xiǎn)的任務(wù),能夠充分挖掘模型的推理潛力。

      4.3 DeepSeek-V4-Pro-Max與前沿模型對(duì)比

      為驗(yàn)證DeepSeek-V4-Pro-Max的性能水平,官方將其與當(dāng)前主流前沿模型(Opus-4.6 Max、GPT-5.4 xHigh、Gemini-3.1-Pro High等)進(jìn)行對(duì)比測(cè)試,涵蓋知識(shí)與推理、長(zhǎng)上下文、智能體能力三個(gè)維度,具體結(jié)果如下表所示:

      基準(zhǔn)測(cè)試(指標(biāo))

      Opus-4.6 Max

      GPT-5.4 xHigh

      Gemini-3.1-Pro High

      K2.6 Thinking

      GLM-5.1 Thinking

      DS-V4-Pro Max

      知識(shí)與推理

      MMLU-Pro (EM)

      89.1

      87.5

      91.0

      87.1

      86.0

      87.5

      SimpleQA-Verified (Pass@1)

      46.2

      45.3

      75.6

      36.9

      38.1

      57.9

      Chinese-SimpleQA (Pass@1)

      76.4

      76.8

      85.9

      75.9

      75.0

      84.4

      GPQA Diamond (Pass@1)

      91.3

      93.0

      94.3

      90.5

      86.2

      90.1

      HLE (Pass@1)

      40.0

      39.8

      44.4

      36.4

      34.7

      37.7

      LiveCodeBench (Pass@1)

      88.8

      91.7

      89.6

      93.5

      Codeforces (Rating)

      3168

      3052

      3206

      HMMT 2026 Feb (Pass@1)

      96.2

      97.7

      94.7

      92.7

      89.4

      95.2

      IMOAnswerBench (Pass@1)

      75.3

      91.4

      81.0

      86.0

      83.8

      89.8

      Apex (Pass@1)

      34.5

      54.1

      60.9

      24.0

      11.5

      38.3

      Apex Shortlist (Pass@1)

      85.9

      78.1

      89.1

      75.5

      72.4

      90.2

      長(zhǎng)上下文

      MRCR 1M (MMR)

      92.9

      76.3

      83.5

      CorpusQA 1M (ACC)

      71.7

      53.8

      62.0

      智能體能力

      Terminal Bench 2.0 (Acc)

      65.4

      75.1

      68.5

      66.7

      63.5

      67.9

      SWE Verified (Resolved)

      80.8

      80.6

      80.2

      80.6

      SWE Pro (Resolved)

      57.3

      57.7

      54.2

      58.6

      58.4

      55.4

      SWE Multilingual (Resolved)

      77.5

      76.7

      73.3

      76.2

      BrowseComp (Pass@1)

      83.7

      82.7

      85.9

      83.2

      79.3

      83.4

      HLE w/ tools (Pass@1)

      53.1

      52.0

      51.6

      54.0

      50.4

      48.2

      GDPval-AA (Elo)

      1619

      1674

      1314

      1482

      1535

      1554

      MCPAtlas Public (Pass@1)

      73.8

      67.2

      69.2

      66.6

      71.8

      73.6

      Toolathlon (Pass@1)

      47.2

      54.6

      48.8

      50.0

      40.7

      51.8

      從對(duì)比結(jié)果可以看出,DeepSeek-V4-Pro-Max在多個(gè)維度表現(xiàn)亮眼,核心優(yōu)勢(shì)如下:

      1. 知識(shí)與推理:在Chinese-SimpleQA(84.4)、LiveCodeBench(93.5)、Codeforces(3206)、Apex Shortlist(90.2)等指標(biāo)中表現(xiàn)突出,其中LiveCodeBench和Codeforces指標(biāo)超越多數(shù)前沿模型,體現(xiàn)了其在中文知識(shí)和代碼領(lǐng)域的核心優(yōu)勢(shì);在GPQA Diamond(90.1)、HMMT 2026 Feb(95.2)等指標(biāo)中接近頂尖水平,知識(shí)儲(chǔ)備與推理能力強(qiáng)勁。

      2. 長(zhǎng)上下文:在MRCR 1M(83.5)、CorpusQA 1M(62.0)指標(biāo)中表現(xiàn)優(yōu)異,雖然不及Opus-4.6 Max,但遠(yuǎn)超Gemini-3.1-Pro High,充分體現(xiàn)了其百萬token上下文的處理能力,適合長(zhǎng)文檔分析等場(chǎng)景。

      3. 智能體能力:在SWE Verified(80.6)、BrowseComp(83.4)、MCPAtlas Public(73.6)等指標(biāo)中表現(xiàn)出色,與領(lǐng)先模型差距較小,能夠較好地適配智能體相關(guān)任務(wù),具備較強(qiáng)的工具調(diào)用與任務(wù)執(zhí)行能力。

      整體而言,DeepSeek-V4-Pro-Max作為開源模型,在多個(gè)核心指標(biāo)上逼近甚至超越部分閉源模型,大幅縮小了開源與閉源模型之間的差距,成為當(dāng)前開源大模型的佼佼者。

      4.4 不同推理模式下的性能對(duì)比

      為清晰呈現(xiàn)不同推理模式對(duì)模型性能的影響,官方測(cè)試了DeepSeek-V4-Flash與DeepSeek-V4-Pro在三種推理模式下的表現(xiàn),涵蓋知識(shí)與推理、長(zhǎng)上下文、智能體能力三個(gè)維度,具體結(jié)果如下表所示:

      基準(zhǔn)測(cè)試(指標(biāo))

      V4-Flash Non-Think

      V4-Flash High

      V4-Flash Max

      V4-Pro Non-Think

      V4-Pro High

      V4-Pro Max

      知識(shí)與推理

      MMLU-Pro (EM)

      83.0

      86.4

      86.2

      82.9

      87.1

      87.5

      SimpleQA-Verified (Pass@1)

      23.1

      28.9

      34.1

      45.0

      模型地址:modelscope.cn/collections/deepseek-ai/DeepSeek-V4

      我們相信人工智能為普通人提供了一種“增強(qiáng)工具”,并致力于分享全方位的AI知識(shí)。在這里,您可以找到最新的AI科普文章、工具評(píng)測(cè)、提升效率的秘籍以及行業(yè)洞察。 歡迎關(guān)注“福大大架構(gòu)師每日一題”,發(fā)消息可獲得面試資料,讓AI助力您的未來發(fā)展。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      來了來了!19歲超級(jí)新星!正式打進(jìn)中國男籃

      來了來了!19歲超級(jí)新星!正式打進(jìn)中國男籃

      籃球?qū)崙?zhàn)寶典
      2026-05-15 17:19:02
      馬斯克為啥到哪都帶著小兒子?最喜小兒亡賴:偏愛之外還有大計(jì)劃

      馬斯克為啥到哪都帶著小兒子?最喜小兒亡賴:偏愛之外還有大計(jì)劃

      老方
      2026-05-15 20:49:47
      移民加拿大兩年,我悄悄回國了,說幾句大實(shí)話

      移民加拿大兩年,我悄悄回國了,說幾句大實(shí)話

      老特有話說
      2026-05-15 16:20:03
      法國公布世界杯26人名單:姆巴佩領(lǐng)銜 總價(jià)14.7億歐 皇馬中場(chǎng)落選

      法國公布世界杯26人名單:姆巴佩領(lǐng)銜 總價(jià)14.7億歐 皇馬中場(chǎng)落選

      我愛英超
      2026-05-15 06:38:44
      安徽安凱汽車股份有限公司國內(nèi)營(yíng)銷公司常務(wù)副總經(jīng)理周旭接受紀(jì)律審查和監(jiān)察調(diào)查

      安徽安凱汽車股份有限公司國內(nèi)營(yíng)銷公司常務(wù)副總經(jīng)理周旭接受紀(jì)律審查和監(jiān)察調(diào)查

      界面新聞
      2026-05-15 16:25:41
      鄭州再迎重磅首店,“必勝漢堡”三店同開切入“一人食”賽道

      鄭州再迎重磅首店,“必勝漢堡”三店同開切入“一人食”賽道

      大象新聞
      2026-05-15 16:54:40
      特朗普終于送上第一禮,中國很高興收下了,人民日?qǐng)?bào)點(diǎn)破了新心態(tài)

      特朗普終于送上第一禮,中國很高興收下了,人民日?qǐng)?bào)點(diǎn)破了新心態(tài)

      野渡舟山人
      2026-05-15 19:49:28
      日本公布世界杯26人名單:留洋23將 39歲傳奇入選 三笘薫因傷無緣

      日本公布世界杯26人名單:留洋23將 39歲傳奇入選 三笘薫因傷無緣

      我愛英超
      2026-05-15 13:29:38
      黃金暴跌,潑天富貴來了

      黃金暴跌,潑天富貴來了

      今綸財(cái)經(jīng)
      2026-05-15 18:28:23
      第一次感受到“荔枝核的威力”,泡水里20天,長(zhǎng)成“粉盆栽”

      第一次感受到“荔枝核的威力”,泡水里20天,長(zhǎng)成“粉盆栽”

      美家指南
      2026-05-15 15:27:43
      全球最毒的十大垃圾食品榜單,泡面未上榜,“真兇”很多人喜歡吃

      全球最毒的十大垃圾食品榜單,泡面未上榜,“真兇”很多人喜歡吃

      小談食刻美食
      2026-05-14 08:01:03
      72歲李誠儒:感恩天堂里的結(jié)發(fā)妻子,余生他會(huì)善待兒子李大海

      72歲李誠儒:感恩天堂里的結(jié)發(fā)妻子,余生他會(huì)善待兒子李大海

      老吳教育課堂
      2026-05-14 18:12:54
      為什么老外都愛天壇?

      為什么老外都愛天壇?

      民察秋毫
      2026-05-15 17:32:27
      今日最慘股,10個(gè)一字跌停還有430萬封單,滿倉抄底已虧110萬!

      今日最慘股,10個(gè)一字跌停還有430萬封單,滿倉抄底已虧110萬!

      八斗小先生
      2026-05-15 14:42:25
      停更3年,千萬粉絲網(wǎng)紅改名宣布回歸,4小時(shí)漲粉240萬

      停更3年,千萬粉絲網(wǎng)紅改名宣布回歸,4小時(shí)漲粉240萬

      天津生活通
      2026-05-14 10:34:09
      知名男歌手廣州演唱會(huì),突然取消!將全額退票

      知名男歌手廣州演唱會(huì),突然取消!將全額退票

      陳意小可愛
      2026-05-15 01:12:31
      央視怒批、中紀(jì)委點(diǎn)名,這次中央下狠手了

      央視怒批、中紀(jì)委點(diǎn)名,這次中央下狠手了

      職場(chǎng)資深秘書
      2026-05-15 10:57:46
      日本贈(zèng)予普京的秋田犬因年邁去世,曾在記者會(huì)上兇猛護(hù)主

      日本贈(zèng)予普京的秋田犬因年邁去世,曾在記者會(huì)上兇猛護(hù)主

      紅星新聞
      2026-05-15 15:33:14
      詹姆斯生涯總薪水分布:騎士1.7億、熱火6400萬、湖人3.47億

      詹姆斯生涯總薪水分布:騎士1.7億、熱火6400萬、湖人3.47億

      懂球帝
      2026-05-15 17:34:06
      這一刻我才明白:為什么男人都愛看籃球直播,而不愿看馬拉松直播

      這一刻我才明白:為什么男人都愛看籃球直播,而不愿看馬拉松直播

      馬拉松跑步健身
      2026-05-15 19:59:38
      2026-05-15 21:31:00
      moonfdd incentive-icons
      moonfdd
      福大大架構(gòu)師每日一題
      1227文章數(shù) 68關(guān)注度
      往期回顧 全部

      科技要聞

      直降千元起步!蘋果華為率先開啟618讓利

      頭條要聞

      伊朗外長(zhǎng)警告阿聯(lián)酋 指責(zé)其直接參與對(duì)伊朗的軍事行動(dòng)

      頭條要聞

      伊朗外長(zhǎng)警告阿聯(lián)酋 指責(zé)其直接參與對(duì)伊朗的軍事行動(dòng)

      體育要聞

      德約科維奇買的球隊(duì),從第6級(jí)聯(lián)賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財(cái)經(jīng)要聞

      騰訊掉隊(duì),馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀(jì)錄 ID. Polo GTI迎全球首秀

      態(tài)度原創(chuàng)

      房產(chǎn)
      藝術(shù)
      游戲
      數(shù)碼
      公開課

      房產(chǎn)要聞

      老黃埔熱銷之下,珠江春,為何去化僅3成?

      藝術(shù)要聞

      敦煌挖出王羲之書法!全卷2000字清晰如新!

      LCK第二賽段:小局26連敗,BRO橫掃DNS

      數(shù)碼要聞

      OPPO Enco Air5標(biāo)準(zhǔn)版耳機(jī)5月20日首銷

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 人妻蜜臀久久av不卡| 亚洲精品乱码久久久久久日本| 在线视频网站亚洲欧洲| 91精品国产综合久久久蜜臀678| 国产成熟妇女性视频电影| 成 年 人 黄 色 大 片大 全| 日韩久久精品| 狠狠干狠狠干| 欧美黑人粗暴多交高潮水最多| 国产女人爽的流水毛片| 色wwwww| 亚洲中文字幕无码中文字在线| 亚洲乱亚洲乱妇24p| 人人妻人人狠人人爽| 久久午夜神器| www.yw尤物| 四虎国产精品永久地址49| 麻豆国产人妻欲求不满谁演的| 欧美色欧美亚洲高清在线观看 | 亚洲熟妇乱色一区二区三区| 色色热| 精品国产欧美一区二区最新| 伊人久久精品无码麻豆一区| 欧美日韩国产在线看| 亚洲无码网站| 成人午夜视频免费看欧美| 成人国产一区二区三区| 熟女内射v888av| 亚洲一区自拍| 亚洲欧美国产精品专区久久| 在线中文字幕第一页| 免费人成自慰网站| 亚洲AV永久无码精品主页| 国产成人香蕉久久久久| 亚洲精品美女久久久久9999| 精品国产一区二区三区久久狼黑人| 中文毛片无遮挡播放免费| 国产精品自在线拍国产| 亚洲欧洲精品成人久久曰| 高清视频在线观看一区二区三区 | 污网在线观看|