<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      482天,DeepSeek V4隱藏三件事:開源六個模型,攜手華為芯片提速

      0
      分享至



      靴子落地。

      4月24日消息,距離V3時隔482天,期待已久的DeepSeek V4終于來了!

      今天上午,DeepSeek官網正式上線DeepSeek-V4接口和模型介紹,包括DeepSeek-V4-flash和DeepSeek-V4-pro兩個模型版本。



      DeepSeek-V4擁有百萬字超長上下文,在Agent能力、世界知識和推理性能上均實現國內與開源領域的領先。API服務已同步更新,通過修改model_name為deepseek-v4-pro或deepseek-v4-flash即可調用。其中,在Agentic Coding評測中,V4-Pro已達到當前開源模型最佳水平。

      我也用了一下DeepSeek專家模式,但目測DeepSeek Chat官網還無法識別V4模型。



      我也通過DeepSeek論文和官網,發現三個官方賬號沒有講的事實:

      1、這次DeepSeek不止開源兩個模型,而是六個模型。

      除了Pro、Flash之外,還包括Base系列的DeepSeek-V4-Flash-Base、DeepSeek-V4-Pro-Base;兩個推理最高版本DeepSeek-V4-Pro-Max、DeepSeek-V4-Flash-Max等等。

      2、隨著DeepSeek V4系列發布,V3系列和之前deepseek-chat系列模型API棄用。

      其中,deepseek-chat (將于 2026/07/24 棄用),deepseek-reasoner (將于 2026/07/24 棄用)。當前階段內,這兩個模型名分別指向deepseek-v4-flash 的非思考模式與思考模式。

      3、在推理和訓練算力層面,DeepSeek采用分布式訓練架構,由于強化學習(RL)下需要長尾的小批量數據,在推理層面則研發出細粒度EP(Fine-Grained EP)內核方案,并且進行開源。DeepSeek已經在英偉達GPU和華為昇騰 NPUs平臺上驗證了細粒度EP方案。

      與強大的非融合基線相比,該方案在通用推理工作負載上可實現1.50至1.73倍的加速(173%),在對延遲敏感的場景(如強化學習展開和高速智能體服務)中,加速比甚至可達1.96倍(196%)。DeepSeek已將基于 CUDA 的超大規模內核實現 MegaMoE2 開源,作為 DeepGEMM 的一個組成部分。



      換句話說,DeepSeek現在就一門心思干V4模型,而且已經將國產化AI算力當作可選項之一,形成了英偉達+昇騰兩格局,而且用一系列的技術和方案將國產算力利用率提升。

      理論上看,DeepSeek V4開源大模型很強,但核心還是在于Agent、算力成本、世界理解和推理層面。顯然,DeepSeek不是你想象的成為世界最強模型,而是最好用的模型。



      DeepSeek發六大模型:

      高性能、性價比都有

      DeepSeek首次公布兩個大的模型系列:

      一個是性能比肩頂級閉源模型的DeepSeek-V4-Pro(1.6T參數,已激活 49B);

      另一個是更快捷、高效的經濟之選的DeepSeek-V4-Flash (284B 參數,已激活 13B)。

      兩者均支持一百萬個標記的上下文長度。

      文章指出,DeepSeek-V4 開創了一種全新的注意力機制,在 token 維度進行壓縮,結合 DSA 稀疏注意力(DeepSeek Sparse Attention),實現了全球領先的長上下文能力,并且相比于傳統方法大幅降低了對計算和顯存的需求。從現在開始,1M(一百萬)上下文將是 DeepSeek 所有官方服務的標配。



      這是DeepSeek-V4系列的全新整體架構。

      1、混合注意力架構:DeepSeek設計了一種混合注意力機制,結合了壓縮稀疏注意力(CSA)和高度壓縮注意力(HCA),以顯著提高長上下文效率。在 100 萬個詞元的上下文設置下,與 DeepSeek-V3.2 相比,DeepSeek-V4-Pro 僅需27% 的單詞元推理浮點運算次數和10% 的鍵值緩存。

      2、流形約束超連接(mHC):DeepSeek引入 mHC 來加強傳統的殘差連接,增強跨層信號傳播的穩定性,同時保持模型的表達能力。

      3、Muon優化器:我們采用Muon優化器以實現更快的收斂速度和更高的訓練穩定性。

      其中,DeepSeek-V4-Pro采用1.6相較前代模型實現全面升級,Agent能力顯著提升,Agentic Coding評測位列開源模型頂尖水準,實際使用體驗優于Sonnet 4.5,交付質量接近Opus 4.6非思考模式;同時其世界知識儲備大幅領先同類開源模型,僅略次于頂級閉源模型Gemini-Pro-3.1,在數學、STEM及競賽代碼等場景下推理性能突破開源上限,整體實力可媲美全球頂尖閉源模型。



      而DeepSeek-V4-Flash是一款高效高性價比的選擇,其世界知識略弱于 V4-Pro,但推理能力相近;憑借更小的參數與激活規模,可提供更快速、低成本的API服務,簡單 Agent 任務表現與 V4-Pro 持平,僅在高難度任務上存在差距。



      當然,DeepSeek不止發了兩款模型,其公號隱藏了其他四個模型:基礎系列的DeepSeek-V4-Flash-Base、DeepSeek-V4-Pro-Base;兩個推理最高版本DeepSeek-V4-Pro-Max、DeepSeek-V4-Flash-Max等等。



      我算了一下,這次V4共發布六款模型,這還不包括非推理的三個版本。



      據悉,DeepSeek-V4-Pro-Max是DeepSeek-V4-Pro的最高推理模式,顯著提升了開源模型的知識能力,穩居目前最佳開源模型之列。它在編碼基準測試中取得了頂尖性能,并在推理和智能體任務方面顯著縮小了與領先的閉源模型之間的差距。

      DeepSeek-V4-Flash也有一個Max版本,在擁有更大的推理預算時,其推理性能與 Pro 版本相當,但由于其參數規模較小,在純知識任務和最復雜的智能體工作流程方面自然略遜一籌。

      總體而言,DeepSeek-V4系列保留了Transformer架構和多標記預測(MTP)模塊,同時在DeepSeek-V3的基礎上引入了若干關鍵升級。



      華為+英偉達加持,

      開源1.96倍推理加速的算力內核

      早前很多媒體報道稱,DeepSeek推遲的核心原因,在于國產化算力訓練不足。

      在論文當中,DeepSeek特別提到算力“踩坑”的問題,并且通過梳理大模型算力訓練和推理,研發了多種模塊和方案,形成V4國產化能力。

      DeepSeek提到,在DeepSeek-V4系列中,每個MoE層主要可以分解為四個階段:兩個通信受限階段,分發(Dispatch)和合并(Combine),以及兩個計算受限階段,線性層1(Linear-1)和線性層2(Linear-2)。團隊的分析顯示,在單個MoE層內,通信的總時間少于計算的總時間。因此,在將通信和計算融合為統一管道后,計算仍然是主要的瓶頸,這意味著系統可以在不降低端到端性能的情況下容忍較低的互連帶寬。



      為了進一步降低互連帶寬需求并放大重疊的好處,DeepSeek引入了一種更細粒度的專家分區方案:Fine-Grained EP。

      受到許多相關工作的啟發,DeepSeek將專家拆分并調度成波次。每個波次包含一小部分專家。一旦波次內的所有專家完成通信,計算就可以立即開始,而無需等待其他專家。在穩態下,當前波次的計算、下一個波次的令牌傳輸和已完成專家的結果發送都同時進行,這在專家之間形成了細粒度的流水線,使計算和通信在整個波次中持續進行。基于波次的調度加快了速度。在極端情況下(如強化學習(RL)的 rollout),通常也會遇到長尾小批量。

      因此,DeepSeek表示,其在 NVIDIA GPU 和華為Ascend NPU平臺上驗證了細粒度EP方案。與強大的非融合基線相比,它在通用推理工作負載上實現了 1.50-1.73 倍的加速,在對延遲敏感的場景(如 RL rollout 和高速代理服務)中最高可實現 1.96 倍的加速。

      DeepSeek已經開源了基于CUDA的Mega-Kernel,命名為 MegaMoE2,作為DeepGEMM的一個組件。

      此外,為最大限度地提高 GPU 資源利用率,并支持高優先級任務的快速硬件調配,DeepSeek還將GPU 集群,采用一種全集群范圍的搶占式任務調度器,任何正在運行的任務都可能隨時被搶占。

      而在大規模GPU集群中,硬件故障較為常見。為此,DeepSeek實現了一項可搶占且具備容錯能力的大型語言模型生成服務,以支持強化學習/OPD 的部署。 具體而言,DeepSeek為每項生成請求實施了一種基于標記粒度的預寫日志(WAL)。每當為某項請求生成新標記時,我們會立即將其追加到該請求的 WAL 中。在搶占過程中,DeepSeek會暫停推理引擎,并保存KV 緩存。

      總結,DeepSeek V4在大模型算力計算、通訊互聯、內存等方向都做了很多的工作,這確實是V4推遲發布的原因,也是V4依然能夠實現成本低廉下實現性能提升的關鍵原因。



      如今,DeepSeek-V4-Flash版本價格低至2元輸出1M tokens上下文。



      DeepSeek過去一年重要時刻點梳理如下

      2024年12月28日:發布DeepSeek V3大模型,訓練周期2個月、成本低于600萬美元,推理性能對標OpenAI o1,代碼與邏輯推理能力接近GPT-4 Turbo。

      2025年1月20日:推出R1推理優化模型(表現優于OpenAI o1)并開源多模態模型Janus-Pro。

      當日DeepSeek遭遇峰值3.2 Tbps的DDoS攻擊導致部分區域服務中斷;1月27日,DeepSeek App登頂,引發美股科技股震蕩、英偉達股價暴跌16%。

      2025年5月28日:推出DeepSeek R1-0528升級版本,參數量685B,代碼與推理能力直逼OpenAI o3、超越Claude 4,支持128K上下文長度,部署成本更低。

      2025年8月-9月:8月18日在Hugging Face開源V3.1-Base版本(128K上下文、約685B參數);8月20日-21日發布DeepSeek V3.1并完成升級,定位為“邁向Agent時代的第一步”。

      9月6日,DeepSeek調整API價格表、取消夜間優惠。

      2025年12月1日:DeepSeek發布V3.2系列模型(含標準版與高性能版),性能逼近甚至超越同類閉源模型,128K上下文場景中預填充成本降低51%、解碼速度提升62.5%,推理總成本僅為同類閉源模型1/3,其中V3.2-Speciale在數學證明賽事中獲金牌,達到人類選手第二水平。

      2026年1月20日:恰逢DeepSeek-R1開源一周年,開發者在GitHub的FlashMLA代碼庫中意外發現神秘標識符“MODEL-1”,其橫跨114個文件、出現28次,與現有V3.2模型并列引用且未沿用舊版命名規則,暗示DeepSeek將推出架構重構的新版本模型而非簡單迭代。

      2026年2月10日:野村證券發布報告,預計2月中旬推出的DeepSeek V4模型不會重現去年V3發布時引發的全球AI算力需求恐慌,指出V4核心價值在于通過底層架構創新推動AI應用商業化落地。

      2026年2月11日:DeepSeek App推送1.7.4版本更新,開啟新模型灰度測試,該版本疑似V4正式亮相前的終極灰度版。

      3月:DeepSeek更新了專家模型,并且發布了多份研究論文。

      發布稿的結尾,DeepSeek 自己引了一句話。

      「不誘于譽,不恐于誹,率道而行,端然正己。」

      這是荀子《非十二子》里的一句。字面意思是,不被贊譽誘惑,不被誹謗嚇到,按自己認定的道往前走,端正自己。放在今天這個場景里,有點意思。

      過去半年,關于V4什么時候發、是不是跳票、是不是已經被別家超越、是不是已經被 Claude 蒸餾數據搞定了之類的傳言在中文和英文AI圈來來回回跑了好幾輪。

      年初甚至還有人信誓旦旦說V4會在春節前發,結果等到了四月底。他們沒回應過一次。然后在某個周五的上午,把V4放出來,同步開源,同步上線官網和App,同步更新API,順便把內部員工已經棄用Claude的事實寫進發布稿。

      沒有路線圖,沒有直播,沒有訪談。

      率道而行這四個字,聽著像是一句口號。但如果你把過去半年 V3.2 那次「沒什么亮點」的 Exp 版本、DSA那套為V4鋪了半年的稀疏注意力、1M 上下文從王牌變成標配的這條路徑放在一起看。DeepSeek已經做到了。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中午11時,中美磋商準時開始,特朗普發現:中國比他想象中更厲害

      中午11時,中美磋商準時開始,特朗普發現:中國比他想象中更厲害

      流史歲月
      2026-05-14 19:30:07
      馬斯克:真正的狠人,都是從地獄里爬出來的

      馬斯克:真正的狠人,都是從地獄里爬出來的

      阿胖讀書
      2025-08-24 00:39:48
      廣東一小孩玩耍鉆進服裝廠貨箱,被衣物掩埋,大人未察覺按壓后拖走箱子…

      廣東一小孩玩耍鉆進服裝廠貨箱,被衣物掩埋,大人未察覺按壓后拖走箱子…

      廣東活動
      2026-05-15 12:08:16
      雷軍開打價格戰,小米廉價車型要來了

      雷軍開打價格戰,小米廉價車型要來了

      科技頭版Pro
      2026-05-14 14:36:27
      黃仁勛算不算中國人?血統追根溯源一目了然,下一代截然不同

      黃仁勛算不算中國人?血統追根溯源一目了然,下一代截然不同

      奇思妙想生活家
      2026-05-14 00:17:49
      一個人最大的本事,就是解決問題的能力?。ㄉ疃群梦模?>
    </a>
        <h3>
      <a href=一個人最大的本事,就是解決問題的能力?。ㄉ疃群梦模?/a> 辛東方
      2026-02-12 08:00:03
      姆總為何賽后開火?“只能通過媒體了解隊友的想法”

      姆總為何賽后開火?“只能通過媒體了解隊友的想法”

      體壇周報
      2026-05-15 11:58:17
      “工資表”被查了,罰款632.88萬元!5月起,這25個發薪危險點,企業抓緊自查

      “工資表”被查了,罰款632.88萬元!5月起,這25個發薪危險點,企業抓緊自查

      祥順財稅俱樂部
      2026-05-15 09:09:03
      英超收官大戲懸念拉滿!阿森納2分領跑爭冠,熱刺深陷保級泥潭!

      英超收官大戲懸念拉滿!阿森納2分領跑爭冠,熱刺深陷保級泥潭!

      田先生籃球
      2026-05-14 13:13:04
      重磅!720萬!那老詹就不留在湖人了...

      重磅!720萬!那老詹就不留在湖人了...

      左右為籃
      2026-05-15 12:34:54
      79歲老佛爺與皇馬死忠看臺激烈爭吵!遭球迷2次舉標語+要求他辭職

      79歲老佛爺與皇馬死忠看臺激烈爭吵!遭球迷2次舉標語+要求他辭職

      我愛英超
      2026-05-15 07:21:10
      曝央視已發邀請函!被批冤大頭 1.1億美元太貴?比4年前還便宜了

      曝央視已發邀請函!被批冤大頭 1.1億美元太貴?比4年前還便宜了

      風過鄉
      2026-05-15 13:13:30
      方媛搶占單人間惹眾怒,凌晨發文硬剛網友:我善良但不委屈自己!

      方媛搶占單人間惹眾怒,凌晨發文硬剛網友:我善良但不委屈自己!

      涵豆說娛
      2026-05-15 10:52:05
      特朗普很開心,不僅致辭祝酒,還多次“暢飲”

      特朗普很開心,不僅致辭祝酒,還多次“暢飲”

      三叔的裝備空間
      2026-05-14 22:35:18
      浙江一中學5名學生懷孕?官方回應

      浙江一中學5名學生懷孕?官方回應

      觀察者網
      2026-05-14 17:39:03
      “莫奈紫”變“摸奶子”,OPPO呼吸都是錯的

      “莫奈紫”變“摸奶子”,OPPO呼吸都是錯的

      梳子姐
      2026-05-13 19:46:10
      NBA第一硬漢!4次斷腿+患癌,也帶不走他的籃球生涯

      NBA第一硬漢!4次斷腿+患癌,也帶不走他的籃球生涯

      體壇熱評
      2026-05-15 14:22:49
      乾隆為容妃擦洗身子察覺她腰窩凸起,當晚其近身太監全發配寧古塔

      乾隆為容妃擦洗身子察覺她腰窩凸起,當晚其近身太監全發配寧古塔

      銘記歷史呀
      2026-05-14 15:17:18
      國防部長董軍最新現身,兩次露面,釋放出什么信號?

      國防部長董軍最新現身,兩次露面,釋放出什么信號?

      李昕言溫度空間
      2026-05-15 07:44:56
      大瓜!馬克龍被妻子打耳光,是跟42歲美女演員互發曖昧短信,被抓包了?!

      大瓜!馬克龍被妻子打耳光,是跟42歲美女演員互發曖昧短信,被抓包了?!

      英國那些事兒
      2026-05-14 23:29:50
      2026-05-15 15:00:49
      智能紀元AGI
      智能紀元AGI
      專注科技、科學、商業產業報道
      2317文章數 10609關注度
      往期回顧 全部

      科技要聞

      兩年聯姻一地雞毛,傳蘋果OpenAI瀕臨決裂

      頭條要聞

      牛彈琴:中美元首歷史性會晤 向世界釋放五個信號

      頭條要聞

      牛彈琴:中美元首歷史性會晤 向世界釋放五個信號

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      特朗普的北京時刻

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      家居
      本地
      數碼
      時尚
      公開課

      家居要聞

      110㎡淡而有致的生活表達

      本地新聞

      用蘇繡的方式,打開江西婺源

      數碼要聞

      經典風格重現:華碩ROG CROSSHAIR 2026復刻版主板實物現身

      冰涼一夏 | 比沒穿還舒服,這些貼身衣物我囤了5件

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 蜜桃av亚洲精品一区二区| 男人天堂手机在线| 精品無碼一區在線觀看 | 蜜乳av久久久久久久久久久| 精品人妻潮喷久久久又裸又黄| 9l国产精品久久久久尤物| 久久精品私人影院免费看| 99精品视频在线观看免费专区| 中文字幕日本最新乱码视频| 亚洲专区综合红桃av| 国产乱子伦农村叉叉叉| 久久精品国产亚洲综合av | 亚洲激情中文| 99精品伊人久久久大香线蕉| 国产女人叫床高潮视频在线观看 | 亚洲无码不卡| 欧美日韩一二三区高在线 | 久久久久蜜桃精品成人片| 一本色道无码道| 国产女人爽到高潮的免费视频| 午夜成人性爽爽免费视频| 午夜激情福利| 亚洲成人免费电影| 南通市| 国产99视频精品免视看9| 欧美大色| 色噜噜人妻丝袜AⅤ资源| 亚洲人成网站7亚洲国国产自偷自偷免费一区| 91久久精品日日躁夜夜躁欧美| 麻豆乱码国产一区二区三区| 午夜AV色网| 亚洲三级高清免费| 亚洲欧美日韩综合久久久| 91岛国| 香蕉国产人午夜视频在线观看| 凌云县| 国产日本一区二区三区久久| 免费专区——色哟哟| 国产精品毛片av999999| 久久久久久久久888| 88国产精品欧美一区二区三区|