<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek V4登頂了!梁文鋒把四大技術秘方公開

      0
      分享至


      智東西
      作者 楊京麗
      編輯 李水青

      智東西4月24日報道,今天,DeepSeek-V4剛開源就迅速登頂了Hugging Face開源模型榜,相關技術報告也大方披露,覆蓋華為昇騰與英偉達芯片適配、模型架構升級、預訓練和后訓練環節優化等豐富的技術細節,非常值得仔細品讀。


      DeepSeek-V4最顯著的提升,除了在推理、知識、代碼能力上全線抬升,整體表現比肩GPT-5.4、Claude Opus 4.6等頂級閉源模型;還在于該模型首次將“百萬上下文”作為默認能力開放,在此設置下單token推理FLOPs相比DeepSeek-V3.2暴降73%,KV cache僅為其10%,大幅降低使用成本。

      基礎設施方面,DeepSeek-V4從訓練到推理的全鏈路,已經完整適配了華為昇騰NPU,其自研的細粒度專家并行方案“MegaMoE”,能夠在NVIDIA GPU和華為昇騰NPU上實現1.50-1.73倍的加速。

      DeepSeek-V4的訓練過程相比前代模型有一些差異化。預訓練中,DeepSeek-V4引入了“樣本級注意力掩碼”機制,語料總規模超過32萬億tokens,涵蓋數學內容、代碼、網頁文本、長文檔等多種高質量類別。后訓練中,DeepSeek-V4則將原先的混合強化學習階段替換為“基于策略的蒸餾”,確保訓練更為可控。


      開源地址:

      https://huggingface.co/collections/deepseek-ai/deepseek-v4

      報告地址:

      https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

      一、基礎設施再創新,全鏈路高效適配華為昇騰

      DeepSeek-V4在基礎設施方面提升較為明顯,采用專家混合(MoE)技術,可通過專家并行化(EP)實現加速

      然而,EP需要復雜的節點間通信機制,并對互連帶寬和延遲提出較高要求。為緩解EP中的通信瓶頸,并在降低互連帶寬需求的同時,提升端到端性能,DeepSeek提出了一種細粒度EP方案“MegaMoE”:將通信與計算功能整合為單一流水線內,實現通信與計算的重疊執行。

      DeepSeek-V4在英偉達GPU和華為昇騰NPU平臺上驗證了細粒度專家并行(EP)方案。與性能較強的非融合基線相比,該方案在通用推理任務中實現了約1.50-1.73倍的加速,在延遲敏感的場景中最高可達1.96倍。相關CUDA實現已開源,名為MegaMoE2,作為DeepGEMM的一個組件提供。


      將專家調度(Dispatch)與Linear-1重疊,將Linear-2與Combine重疊。EP方案通過將專家拆分并按波次調,實現了更細粒度的重疊。

      在實際應用中,復雜的模型架構原本會生成數百個細粒度的Torch ATen運算符。為此,DeepSeek采用TileLang開發了一組融合內核,用以替代其中絕大多數運算符,把碎片化的小kernel融成大塊,調用開銷從百微秒壓到1微秒以內,還引入Z3形式化求解器做優化驗證。做到比特級可復現,同一token不管在batch哪里都得到同樣結果,同一模型每次運行完全一致,這對大模型調試是保命設計。

      DeepSeek將FP4(MXFP4)量化應用于兩個關鍵部分:第一是MoE專家權重,這部分是GPU顯存占用的主要來源之一;第二是CSA中索引器的Query-Key(QK)路徑,在該路徑中,QK激活值的緩存、加載以及乘法計算全部在FP4精度下完成,從而在長上下文場景中加速注意力分數的計算。

      訓練框架建立在為DeepSeek-V3開發的可擴展且高效的基礎設施之上。在訓練DeepSeek-V4時,DeepSeek繼承了這一基礎,同時引入了多項關鍵創新,適配其新的架構組件——包括Muon優化器、mHC,以及混合注意力機制,并在此過程中保持高效的訓練效率與穩定性。


      二、架構升級,突破長文本計算效率瓶頸

      推理模型興起后,業內建立了一種新的“測試時擴展”范式,顯著推動了大型語言模型的性能提升。然而,這種擴展范式從根本上受限于傳統注意力機制,難以處理超長上下文和復雜推理過程。

      同時,從復雜智能體工作流到大規模跨文檔分析,長時序任務的出現,也使得高效支持超長上下文成為未來發展的關鍵需求。盡管近年來一些開源工作(如DeepSeek、MiniMax、Qwen等)已經推動了模型能力的整體提升,但在處理超長序列方面的核心架構低效問題仍然存在。

      DeepSeek-V4為解決這個瓶頸,它通過一系列架構創新,讓模型在處理超長上下文時的計算效率大幅提升,從而真正把上下文長度推進到“百萬token”這個量級。

      總體而言,DeepSeek-V4系列沿用了Transformer架構和多Token預測模塊,并在DeepSeek-V3基礎上引入了項關鍵改進:

      (1)采用混合注意力架構,將壓縮稀疏注意力(CSA)與高壓縮注意力(HCA)結合,以提升長上下文處理效率;

      (2)引入流形約束超連接(mHC),增強傳統殘差連接;

      (3)使用Muon優化器,實現更快的收斂速度和更高的訓練穩定性。


      具體做法上,DeepSeek-V4保留了MoE結構和多token預測策略,重點改造了注意力機制:提出一種“混合注意力”,即把兩種不同的壓縮方式結合起來,一種是先壓縮再做稀疏注意力,另一種是更激進地壓縮但仍保持稠密計算,這樣在保證信息利用的同時大幅減少計算和存儲開銷。此外,它還改進了殘差連接,增強模型表達能力,并引入新的優化器Muon,讓訓練更快更穩定。

      除了模型結構本身,DeepSeek對整個訓練和推理系統做了大量工程優化,比如把MoE的計算、通信和內存訪問融合在一起執行,用專門的語言優化內核,實現可復現的計算過程,以及通過低精度(FP4)來減少資源消耗。在推理階段,還設計了更復雜的KV cache存儲方式,甚至可以部分放到磁盤上,從而支持極長上下文而不爆內存。

      三、預訓練:基礎模型提升明顯,Flash模型就已超V3.2

      預訓練過程主要基于DeepSeek-V3的數據,同時為構建一個更多樣化、高質量且有效上下文更長的訓練語料庫,DeepSeek持續優化數據構建流程。與DeepSeek-V3不同的是,V4在預訓練過程中引入了“樣本級注意力掩碼”(sample-level attention masking)機制。

      對于來自網頁的數據,DeepSeek-V4采用過濾策略,去除批量自動生成和模板化內容,從而降低模型崩潰的風險。數學和編程語料仍然是訓練數據的核心組成部分,同時DeepSeek在中期訓練階段引入了智能體數據,進一步提升DeepSeek-V4系列的代碼能力。

      在多語言數據方面,DeepSeek-V4構建了更大規模的語料庫,從而增強模型對不同文化中“長尾知識”的理解能力。此外,DeepSeek-V4特別強調長文檔數據的構建,優先收集科學論文、技術報告等材料。

      綜合上述各類數據,預訓練語料總規模超過32萬億tokens,涵蓋數學內容、代碼、網頁文本、長文檔等多種高質量類別。

      對于基礎模型的評估,DeepSeek-V4覆蓋四個關鍵維度的基準測試,包括世界知識、語言理解與推理、代碼與數學,以及長上下文處理。

      DeepSeek-V3.2、DeepSeek-V4-Flash和DeepSeek-V4-Pro的基礎模型在統一的內部框架下進行了評測,獲得以下結果。


      盡管DeepSeek-V4-Flash-Base的激活參數量和總參數量都明顯更小,但它在大量基準測試中超過了DeepSeek-V3.2-Base,該優勢在世界知識任務和長上下文場景中尤其明顯。結果表明,DeepSeek-V4-Flash-Base在更緊湊的參數預算下,也能取得更強性能,在大多數評測中有效超過規模更大的DeepSeek-V3.2-Base。

      此外,DeepSeek-V4-Pro-Base能力躍升更為明顯,幾乎全面領先DeepSeek-V3.2-Base和DeepSeek-V4-Flash-Base,在基準測試上刷新了DeepSeek基礎模型的性能上限。它在知識密集型評測和長上下文理解能力取得了顯著提升。在大多數推理和代碼基準上,DeepSeek-V4-Pro-Base也超過了前兩個模型??梢哉f,DeepSeek-V4-Pro-Base在知識、推理、代碼和長上下文能力等多個方面全面超越了前代模型。

      四、后訓練:基于策略蒸餾,跨輪次保留推理歷史

      在完成預訓練之后,DeepSeek還進行了后訓練,最終得到DeepSeek-V4系列模型。雖然整體訓練流程在很大程度上沿用了DeepSeek-V3.2的方案,但在方法上做出了一項關鍵替換:原先的混合強化學習(RL)階段被完全替換為“基于策略的蒸餾”(On-Policy Distillation,OPD)。

      具體做法是,先對每個目標領域各自訓練一個獨立的專家模型。每位專家都經歷相同的流程:先用高質量領域數據做監督微調打底,再用GRPO算法做領域強化學習,這一步會得到十多位各有所長的“偏科高手”。

      真正的合并動作發生在第二階段。DeepSeek-V3.2的做法是把各類數據混在一起做RL,容易互相影響,而V4則換成讓統一的學生模型自己采樣答題,過程中由這十多位專家老師在完整詞表的logit層面打分對齊,用reverse KL損失把學生拉向老師。這種方式保證模型在每個領域的專長都能被完整保留。另外一個關鍵改動是DeepSeek-V4堅持做全詞表蒸餾,進而梯度更穩,訓練曲線更可控,但工程難度更高。

      依托DeepSeek-V4系列的一百萬 token上下文窗口,DeepSeek進一步優化機制,以最大化智能體環境中交錯思考的效果。


      工具調用場景中,所有推理內容都會在整個對話過程中被完整保留。不同于DeepSeek-V3.2會在每一輪新用戶輸入到來時丟棄思考軌跡,DeepSeek-V4系列會跨越所有輪次保留完整的推理歷史,讓模型能夠在長周期智能體任務中維持連貫、持續累積的思考鏈條。

      一般對話場景中,DeepSeek-V4仍然保留原有策略:當新的用戶消息到來時,會丟棄上一輪的推理內容,從而保持上下文簡潔。

      與DeepSeek-V3.2一樣,那些通過用戶消息來模擬工具交互的智能體框架(例如 Terminus)可能不會觸發工具調用上下文路徑,因此也可能無法受益于增強后的推理持久化機制。對于這類架構,DeepSeek仍然建議使用非思考模型。

      五、知識、推理、代碼三線抬升,開源模型逼近閉源上限

      評測結果上看,DeepSeek-V4-Pro-Max相比其他開源模型也略有領先,部分能力逼近閉源模型。

      知識能力和推理能力上,DeepSeek-V4-Pro-Max相比其他開源模型略有領先,但仍遜于閉源模型Gemini 3.1-Pro。推理能力上,DeepSeek-V4-Pro-Max優于GPT-5.2和Gemini-3.0-Pro,落后于GPT-5.4和Gemini-3.1-Pro;DeepSeek-V4-Flash-Max與GPT-5.2和Gemini-3.0-Pro能力近似,在復雜推理任務中展現出很高的性價比。

      Agent能力方面,DeepSeek-V4-Pro-Max與Kimi-K2.6和GLM-5.1等領先開源模型表現相當,但略遜于最前沿的閉源模型。長上下文能力方面,DeepSeek-V4-Pro-Max在合成任務和真實應用場景中均表現強勁,在學術基準測試中甚至超過了Gemini-3.1-Pro。


      在DeepSeek-V4-Pro與DeepSeek-V4-Flash的對比中,由于參數規模較小,DeepSeek-V4-Flash-Max在知識類評測中的表現略低。但在給予更多推理token時,在推理任務中的表現可以接近DeepSeek-V4-Pro-Max。在智能體評測中DeepSeek-V4-Flash-Max在部分基準上可以達到與DeepSeek-V4-Pro-Max相當的水平,但在更復雜、高難度任務中仍略遜一籌。

      結語:高效支持百萬級token上下文,后續需簡化架構

      DeepSeek-V4系列預覽版突破了超長上下文處理中的效率瓶頸,其通過融合CSA與HCA的混合注意力架構,并結合系統級基礎設施優化,使模型能夠更高效地支持百萬token級上下文,為測試時擴展、長時序任務和在線學習等方向提供了基礎。

      從評測結果看,DeepSeek-V4-Pro-Max在開源模型中表現突出,在知識、推理和智能體任務上均取得較強結果,部分能力接近前沿閉源模型。DeepSeek-V4-Flash-Max則在較低成本下實現了較強推理能力,體現出較高性價比。

      不過,DeepSeek-V4的架構也較為復雜,部分穩定性方法如Anticipatory Routing和SwiGLU Clamping的機理仍有待進一步理解。后續工作預計將集中在簡化架構、提升訓練穩定性、探索更多稀疏化方向、降低長上下文推理延遲、增強多輪智能體與多模態能力,以及持續改進數據構建與合成策略等方面。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      湯杯戰報:連爆大冷世界第2第6都輸了,梁王力助國羽大分2-0

      湯杯戰報:連爆大冷世界第2第6都輸了,梁王力助國羽大分2-0

      求球不落諦
      2026-05-01 18:07:27
      陳燁和宋佳拎著塑料桶,80年代出其不意的審美

      陳燁和宋佳拎著塑料桶,80年代出其不意的審美

      我來我看見
      2026-05-02 00:15:01
      人到中年才發現一個飯局定律:酒桌上,那個不喝酒、不說話、只埋頭吃菜的人,往往是這兩種

      人到中年才發現一個飯局定律:酒桌上,那個不喝酒、不說話、只埋頭吃菜的人,往往是這兩種

      心理觀察局
      2026-04-29 15:46:18
      印度虧慘了!花80 億買全套中國設備,運回國內后直接落灰開不了

      印度虧慘了!花80 億買全套中國設備,運回國內后直接落灰開不了

      杰絲聊古今
      2026-04-18 11:39:25
      斯諾克世錦賽爆出雙劇本:50歲老將強行絕平,吳宜澤6-2橫掃全場

      斯諾克世錦賽爆出雙劇本:50歲老將強行絕平,吳宜澤6-2橫掃全場

      林子說事
      2026-05-01 10:35:40
      廣州地鐵一男子向乘客噴辣椒水,地鐵派出所工作人員:人已抓到,正調查

      廣州地鐵一男子向乘客噴辣椒水,地鐵派出所工作人員:人已抓到,正調查

      半島官網
      2026-05-01 21:40:34
      “我女兒敢這樣,腿給砸斷”,寶媽曬2個女兒出門,裝束讓人怒了

      “我女兒敢這樣,腿給砸斷”,寶媽曬2個女兒出門,裝束讓人怒了

      蝴蝶花雨話教育
      2026-04-10 13:01:09
      跟男友吵架,她半夜往他臥室扔了根炸藥?!他下意識撿起來扔掉,結果...砰!

      跟男友吵架,她半夜往他臥室扔了根炸藥?!他下意識撿起來扔掉,結果...砰!

      英國那些事兒
      2026-04-30 23:29:00
      香港頂級富二代共進早餐,何超瓊李澤楷坐中間,霍啟剛鄭志雯也在

      香港頂級富二代共進早餐,何超瓊李澤楷坐中間,霍啟剛鄭志雯也在

      漫婷侃娛樂
      2026-03-29 19:37:50
      保姆偷拿了家里2瓶茅臺去賣,我沒揭穿只辭退了她,臨走時她指了指舊皮鞋,我一看瞬間癱坐在地

      保姆偷拿了家里2瓶茅臺去賣,我沒揭穿只辭退了她,臨走時她指了指舊皮鞋,我一看瞬間癱坐在地

      今夜有個好故事
      2026-03-11 17:26:56
      為什么現金受賄還是會被查到?監委的3個手段你根本想不到

      為什么現金受賄還是會被查到?監委的3個手段你根本想不到

      細說職場
      2026-04-29 19:07:44
      美股存儲板塊四大龍頭盤中均創記錄新高

      美股存儲板塊四大龍頭盤中均創記錄新高

      財聯社
      2026-05-01 22:21:12
      新款奔馳S級 93.8萬起,大佬專屬旗艦,發光立標+大V8封神

      新款奔馳S級 93.8萬起,大佬專屬旗艦,發光立標+大V8封神

      聊聊車生活
      2026-05-01 22:44:24
      藍營內訌全面升級,季麟連事件獲新進展,朱立倫方面連忙改口!

      藍營內訌全面升級,季麟連事件獲新進展,朱立倫方面連忙改口!

      青梅侃史啊
      2026-05-01 22:02:17
      亞洲第一賭場新東泰覆滅記:性交易泛濫,富商瘋狂砸錢,揮金如土

      亞洲第一賭場新東泰覆滅記:性交易泛濫,富商瘋狂砸錢,揮金如土

      談史論天地
      2026-04-04 17:30:03
      錯位的相遇,別困在里面為難自己

      錯位的相遇,別困在里面為難自己

      青蘋果sht
      2026-04-13 05:49:07
      沙漠的奇跡:土庫曼斯坦如何通過中國81億美元貸款實現經濟復興?

      沙漠的奇跡:土庫曼斯坦如何通過中國81億美元貸款實現經濟復興?

      七分瘦三分肥
      2026-04-23 11:13:56
      “骨盆前傾成這樣,還不去醫院?”家長曬一年級女兒體態,被群嘲

      “骨盆前傾成這樣,還不去醫院?”家長曬一年級女兒體態,被群嘲

      妍妍教育日記
      2026-04-24 11:15:25
      拜托外賣小哥喂狗,回家卻沒看到用餐痕跡,監控畫面讓人破防

      拜托外賣小哥喂狗,回家卻沒看到用餐痕跡,監控畫面讓人破防

      Magic寵物社
      2026-04-30 21:35:06
      扎哈羅娃:俄羅斯與基輔政權不同 不會將戰士投入到毫無意義的強攻中

      扎哈羅娃:俄羅斯與基輔政權不同 不會將戰士投入到毫無意義的強攻中

      俄羅斯衛星通訊社
      2026-05-01 15:20:54
      2026-05-02 00:48:49
      智東西 incentive-icons
      智東西
      智東西,AI產業新媒體,專注報道人工智能的前沿技術發展,和技術應用帶來的千行百業產業變革。
      11742文章數 117060關注度
      往期回顧 全部

      科技要聞

      DeepSeek發布多模態論文又連夜刪除

      頭條要聞

      美國也搞起"人肉代購" "去墨西哥買中國車"教程瘋傳

      頭條要聞

      美國也搞起"人肉代購" "去墨西哥買中國車"教程瘋傳

      體育要聞

      無奈!約基奇:這要在塞爾維亞 全隊早被炒了

      娛樂要聞

      馬筱梅產后身材恢復超好 現身戶外直播

      財經要聞

      GPU神話松動,AI真正的戰場變了

      汽車要聞

      限時9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

      態度原創

      游戲
      本地
      家居
      時尚
      公開課

      索尼新作又搞同性戀被噴!玩家盤點“女同角色”吐槽

      本地新聞

      用青花瓷的方式,打開西溪濕地

      家居要聞

      靈動實用 生活藝術場

      這個夏天,彩色褲子又火了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 疯狂做受xxxx高潮视频免费| 亚洲成av人片色午夜乱码| 欧美在线a| 亚洲无码avav| 田阳县| 性欧美VIDEOFREE高清大喷水| 一群老熟女69| 亚洲国产精品无码久久久| 亚洲人成网线在线播放va| 99re视频热这里只有精品38| 另类国产ts人妖高潮系列视频| 三上悠亚ssⅰn939无码播放| 免费无遮挡毛片中文字幕| 在线视频精品一区| 另类重口特殊av无码| 99久久国产露脸国语对白| 精品一区二区三区在线视频| 精品久久久爽爽久久久av| 亚洲码和欧洲码一二三四| JIZZJIZZJIZZ亚洲日本| 亚洲人成网站在线小说| 欧美性一区| 曰韩三级无码久久探| 国产内射白浆| 亚洲国产欧美在线人成app| 午夜丁香婷婷| 日本高清一二三不卡区| 欧美疯狂做受xxxx高潮小说| 精品欧洲AV无码一区二区男男| 秋霞av一区二区三区| 国产在线精品一区二区在线看| 国产熟女AAV久久| 亚洲我射av| 性久久久久久| 人妻忍着娇喘被中进中出视频| 久久天天躁夜夜躁狠狠| 国产成人精品久久综合| 国产麻豆一精品一AV一免费软件| 漂亮少妇高潮在线观看| 无码国产精品久久一区免费| 粉嫩一区二区三区四区|