<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek V4:架構極度聰明,黃仁勛擔心的事也許就此開始

      0
      分享至


      作者:王兆洋 + DeepSeek V4 專家模式

      V4 終于終于終于終于是來了。

      而且它不在假期,不在深夜,而是突然就發了。模型,開源權重,技術報告和官方的文章同時發給所有人。

      官方給出的亮點是“百萬上下文的普惠”。但顯然,這個模型里DeepSeek做的創新工作還是非常的多。


      一如既往的,它的技術報告是今天比讀任何新聞都過癮的存在。

      這一次V4最讓人欣喜的是,它的架構依然在進化,且依然極度聰明。它告訴整個 AI 圈一件事:不用堆參數,不用買更多卡,僅靠對注意力機制和訓練方式的重新發明,就能把百萬 token 長文本的門檻踩到地板上。

      而且,外界一直在關注的用“華為芯片”訓練的問題,也終于有所揭曉:這次華為昇騰的名字,是和 NVIDIA 并列寫在驗證平臺里的。雖然從技術報告來看,訓練部分依然大概率用的英偉達芯片,但在與昇騰的適配上,它顯然達到了前所未有的“原生”水平。這后面的意味,比跑分更有意思。

      而在官方文檔里,API價格的地方有一行小字:

      受限于高端算力,目前Pro的服務吞吐十分有限,預計下半年昇騰950超節點批量上市后,Pro的價格會大幅下調。


      這同樣讓人浮想聯翩,且讓人對未來更加期待。

      1

      27% 和 10%,這兩個數字定義了什么叫“效率革命”

      看看技術報告里的硬數據。基準是 DeepSeek-V3.2——本身已經是一個效率很高的模型。

      在 100 萬 token 上下文下(大約能裝三部《三體》),DeepSeek-V4-Pro——1.6 萬億參數,激活 49B——處理一個新 token 需要的算力只有 V3.2 的 27%,KV 緩存只占 10%

      而小杯 DeepSeek-V4-Flash:284B 參數,激活僅 13B,算力只要 10%,緩存只要 7%。

      一個容易被忽略的細節:報告明確標注,單 token 推理算力的單位是等效 FP8 FLOPs。這不是拿低精度取巧,而是已經換算到和 V3.2 相同的精度標準去比。而且,V4 系列的路由專家權重還用了 FP4 精度,報告特別指出,現有硬件上 FP4 和 FP8 的峰值算力相同,但未來硬件上 FP4 可以再高出三分之一的效率。換句話說,現在的數字還不是天花板,等昇騰 950 這類新硬件到位,還有一波可挖的潛力。

      長上下文,正在從奢侈品變成日用品。


      1

      憑什么能做到?兩大壓縮注意力,從根源上做手術

      傳統 Transformer 處理長文本的死穴:序列長度加 N 倍,注意力計算量平方級爆炸,KV 緩存線性膨脹。這個瓶頸不破,百萬 token 就只是論文里的數字。

      DeepSeek V4 的辦法不是湊合,而是直接改造注意力機制本身。總體架構上,注意力層采用 CSA 和 HCA 交錯配置,前饋層沿用 DeepSeekMoE,殘差連接用 mHC 加強。核心是兩種新注意力。

      CSA——壓縮稀疏注意力

      CSA 的數據流分三路并行。KV token 的隱藏狀態同時進入三個模塊:一個 Token-Level Compressor 負責把每 4 個 token 的 KV 緩存壓縮成一個條目;一個 Lightning Indexer 生成“索引鍵”,用于后續的匹配打分;同一個索引器還生成“索引分數”。查詢 token 的隱藏狀態則單獨進入 Lightning Indexer,生成查詢側的索引分數。兩邊一合,送入 Top-k 選擇器,從所有壓縮塊中只挑出最相關的 512 個(Pro 版是 1024 個)。最后,這些選中的壓縮塊和滑動窗口里保留的 128 個原始 token 拼在一起,送進核心的多查詢注意力計算。


      索引器的實現細節:查詢端先降維到 dc=1024,減少參數量,再升維到多頭索引查詢,配合 ReLU 激活后與壓縮索引鍵計算分數。這一整套不是簡單的“截斷”,是學出來的動態篩選——哪些信息重要、哪些可以忽略,由模型自己在訓練中決定。

      HCA——重度壓縮注意力

      和 CSA 不同,HCA 去掉了整個稀疏選擇鏈路——沒有 Lightning Indexer,沒有 Top-k Selector。數據流非常直接:KV token 隱藏狀態經過 Token-Level Compressor 壓縮(壓縮比 m'=128,遠大于 CSA 的 4),得到的壓縮條目直接與滑動窗口 KV 拼在一起,送進 MQA。因為每條目覆蓋 128 個 token,條目總量已經很少,全量算也不貴,省掉了篩選環節。這是為了抓全局結構,避免模型“只見樹木不見森林”。

      兩種注意力都額外配了一個滑動窗口,保留最近 128 個 token 的原始 KV 不壓縮,確保局部依賴沒有精度損失。同時還用了注意力沉降技術——給每個頭一個可學習的 sink logit,加到注意力的分母里,讓每個頭可以選擇“什么都不關注”。


      另外,報告透露了一個重要的工程決定:CSA 和 HCA 在 Query 和 KV 上只對最后 64 個維度施加 RoPE 位置編碼,其他維度不編碼。同時 KV 緩存采用混合精度存儲——RoPE 維度用 BF16,其余維度用 FP8——又把緩存砍掉近一半。

      而這套注意力架構要真正落地,緩存管理也必須重新設計。V4 的 KV 緩存被拆成兩大塊:一塊是“狀態緩存”,每個請求分一個固定大小的區域,存滑動窗口最近 128 個 token 的 KV,以及 CSA/HCA 中還沒攢夠 4 個或 128 個 token、暫時無法壓縮的“尾料”。


      另一塊是“經典緩存”,存已經壓縮好的條目。經典緩存里,每個塊覆蓋的原始 token 數是兩種壓縮比(4 和 128)的最小公倍數,這樣同一塊里 CSA 和 HCA 的壓縮結果都能對齊——CSA 產 32 個壓縮條目,HCA 產 1 個——不會因為兩種壓縮率不一致導致碎片化管理。這套緩存布局,是百萬上下文能從實驗室走進生產環境的關鍵工程基礎設施。


      所以這套方案是壓縮、稀疏化、混合精度、滑動窗口、注意力沉降、精細緩存管理多管齊下。局部細節、中段關聯、全局脈絡,全抓住了,算力開銷斷崖式下降。

      也就是說, 傳統注意力機制要求每個 token 和歷史上所有 token 都做一次交互,歷史多長,活兒就多沉。DeepSeek V4 做的,是把“記憶”本身先整理成層次化的摘要——有些是每一小段的凝練,有些是每一章的概括,再加上眼前幾句話的原文。需要調用哪一層、哪一段,由模型自己根據當前要解決的問題即場判斷。內存里不再存一座山,算力不用翻整座山,百萬上下文的成本自然下來了。

      1

      Muon 和 mHC:訓練上的降本增效

      架構的聰明不止在推理側。報告用專門章節講了兩項訓練優化。

      一個是此前已經被放出來過的 Muon 優化器。

      大多數優化器拿到梯度,一個參數一個參數地調。Muon 不這么干。它把整個梯度矩陣做一步“捋正”運算,讓各行更新方向相互獨立、不打架。效果就是每次更新都踩在最干凈的方向上,同樣步數學到更多,變相省算力。為了配合 Muon,分布式策略也改了:稠密參數限制切分,每個 GPU 最多管五個完整矩陣;MoE 參數直接拼成大向量等分,不切單個矩陣。梯度通信還做了 BF16 量化,砍掉一半通信量。

      另一個是 mHC——流形約束超連接。

      深層網絡的老大難是信號穿幾十層,要么逐層放大到溢出,要么衰減到消失。mHC 的解法是給殘差連接加個數學籠子——強制每層的混合矩陣滿足“每行每列和為 1,元素非負”。這保證了無論怎么傳,幅度不發散。

      實現上,DeepSeek V4 拿到參數后,做 20 次交替的行歸一化和列歸一化,硬把矩陣拉回約束集合。報告承認萬億參數訓練遇到了損失尖峰,但用兩招解決了:“預判路由”打破路由和主網絡的同步更新循環,“SwiGLU 截斷”把激活值鉗在 [-10,10]。

      一如既往的,數學上很干凈,工程上訓練不崩。

      1

      后訓練更絕:分頭訓專才,再無損蒸餾

      DeepSeek V4 的后訓練流程也很有想法,報告用第五章詳述了這套“先分后合”的工藝。

      第一步,分別對代碼、數學、智能體、指令遵循等方向獨立訓練專家模型。每個專家都先做 SFT 打底,再用 GRPO 強化學習,配合領域專屬的獎勵模型。連獎勵模型本身也是生成式的——讓模型同時學會“判卷”和“答卷”,減少對人類標注的依賴。

      報告中很有意思的一點是為不同推理模式設了三種檔位:Non-think(無思考標簽,快速回答)、Think High(顯式思維鏈但受控長度)、Think Max(極限思維模式,給特殊系統提示同時放寬長度懲罰)。三種模式在 RL 訓練時分別用不同的上下文窗口和懲罰系數,讓同一套權重能根據場景切推理深度。

      第二步,用在策略蒸餾把所有專才的知識融合到一個統一模型里。關鍵是,他們做的不是 token 級近似,而是全詞表級別的反向 KL 散度——保持教師完整的 logit 分布。這帶來了巨大的計算壓力:詞表 128K,十多個老師,每個都是萬億參數級別。報告給出的解決路徑是:教師權重從中心化存儲按需加載;不存完整 logits,只緩最后一層隱藏狀態,訓練時即時重算;按教師索引排序樣本,保證同一時刻 GPU 上只有一個教師頭。這些都是生產環境才會碰到的硬問題。

      效果直接反映在基準上。Pro Max 在知識基準 SimpleQA 拿下 57.9,比開源最佳高出 20 個點;數學 Putnam 2025 做到 120/120 滿分;Codeforces 評分在人類選手中排第 23。這三個分屬不同類型的任務同時沖頂,背后的路線選擇是被驗證了的。


      1

      “細粒度通信-計算重疊”和昇騰“原生”

      報告里另一個讓所有人都非常關注的事情,就是:它和華為昇騰到底是什么關系。

      報告 3.1 節原文是:“我們在 NVIDIA GPU 和華為昇騰 NPU 兩個平臺上驗證了這個細粒度的專家并行方案。”兩個平臺并列,寫在驗證結論里。


      這套方案的核心是把 MoE 的通信和計算切成更細的顆粒,按“波”調度。每個波只含一小部分專家,這個波的通信一完成立刻開始計算,同一時刻,下一個波的通信和上一個波的結果回傳同步進行。報告里的加速比數據是:通用推理 1.50–1.73 倍,RL 長尾小批次最高 1.96 倍。


      報告還給了硬件設計公式:每 GBps 通信帶寬對應 6.1 TFLOP/s 算力,通信就能被完全隱藏。這意味著 DeepSeek 在用架構告訴硬件廠商:不用卷帶寬,按這個比例配算力就行。這比適配某個具體型號高一個維度——是定義需求。昇騰 950 如果按這個配比來設計,跑 V4 就能把利用率拉到滿。

      你可以這樣理解,MoE 每次計算都要在不同 GPU 之間搬運中間結果,以前是搬完才算,搬運時長全在等。現在是把搬運拆碎,搬一小批就算一小批,算的同時繼續搬下一批。結果就是搬運時間被計算時間吃掉了,用戶感覺不到等。這套機制不挑硬件,只要算力和帶寬的比例到位,NVIDIA 還是昇騰都能跑出高利用率。

      報告也提到了用 TileLang 做算子開發,配合 Z3 SMT 求解器自動驗證和優化;同時要求訓練推理“批次不變”和“確定性”——同一個 token 無論和誰一批、在什么硬件上,輸出比特級一致。這對昇騰這種新硬件的調試和部署是基礎設施級的支持。

      雖然開源 MegaMoE 內核還是 CUDA 版,主力訓練集群大概率仍是 NVIDIA,但架構上已經把適配昇騰的土壤翻松了、路鋪平了。

      加上報告公開說 FP4 在未來硬件上還能再提效三分之一,以及官方文檔里那句“預計下半年昇騰 950 超節點批量上市后 Pro 價格大幅下調”,信號已經不能更明確了。

      看完V4的報告,感觸它想得夠清楚。

      過去兩年,行業解決長文本問題的主流思路本質上是在堆資源。要么堆顯存,把KV緩存硬塞進去;要么堆算力,讓芯片更快一點。這條路走到現在,邊際效益已經很明顯了。

      DeepSeek V4換了一個完全不同的方向——不再追著“怎么能扛住”不放,而是問“這東西真的需要全記住嗎”。CSA和HCA本質上是讓模型在記憶的時候就有了層次感,細顆粒的、粗顆粒的、最近的原文,各存各的。這不再是工程上的妥協,而是架構層面對“什么值得記住”這個問題的重新回答。思路一旦轉過來了,效率的提升就是數量級的。

      而這套東西還有一個容易被低估的價值,就是它讓硬件的選擇權回到了算法這邊。

      過去芯片決定模型能跑多長的上下文,帶寬不夠就不行。V4這套壓縮加波浪調度的方案出來后,算和搬的比例被一個公式定義清楚了。這意味著不是算法去適配硬件,而是算法在告訴硬件應該怎么設計。昇騰被寫進驗證平臺、FP4留出三分之一效率冗余,這些細節放在一起看,就知道它從一開始就沒打算綁定某一家。這種獨立性,在現在這個時間點,比性能本身更有分量。

      V4的神就在這里。

      它再次給大家提供了一個更聰明的選擇。

      而這正是前不久黃仁勛在播客里有些失去耐心時表達的擔心:當所有人都在去CUDA,都在擺脫硬件主導的限制,當DeepSeek這類開源模型有一天可以原生長在華為等其他芯片生態里。今天AI格局的根基會迅速動搖。

      現在看,他的擔心不無道理。

      「不誘于譽,不恐于誹,率道而行,端然正己。」這是DeepSeek官方公告里的一句與其他內容都不同的話,這句話也幾乎是V4的特質,它讓人繼續對DeepSeek接下來的目標充滿期待。


      點個愛心,再走 吧

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “花28.5億建高標準農田,查出446個問題”,江西鄱陽通報

      “花28.5億建高標準農田,查出446個問題”,江西鄱陽通報

      觀察者網
      2026-05-07 06:28:04
      “四大小生”重新洗牌:張若昀下桌,朱一龍啞火,榜首實至名歸

      “四大小生”重新洗牌:張若昀下桌,朱一龍啞火,榜首實至名歸

      老黯談娛
      2026-05-05 10:31:16
      讓人寒心!比亞迪“興旗系”爆雷,誰在為車企的獻祭式擴張買單?

      讓人寒心!比亞迪“興旗系”爆雷,誰在為車企的獻祭式擴張買單?

      藍色海邊
      2026-05-07 02:01:09
      做藝人沒有藝德!在上海被抓捕的 4 位明星,你們知道都有誰嗎?

      做藝人沒有藝德!在上海被抓捕的 4 位明星,你們知道都有誰嗎?

      她時尚丫
      2026-02-17 21:56:13
      女子在高速上開車化妝、吃東西、雙手隨音樂舞動,被查后稱“作為女司機,我覺得它比我開得好”……

      女子在高速上開車化妝、吃東西、雙手隨音樂舞動,被查后稱“作為女司機,我覺得它比我開得好”……

      金融界
      2026-05-06 16:47:15
      世界冠軍又怎樣!吳宜澤奪得世錦賽冠軍,回家照樣被姐姐揪耳朵

      世界冠軍又怎樣!吳宜澤奪得世錦賽冠軍,回家照樣被姐姐揪耳朵

      童叔不飆車
      2026-05-06 19:42:57
      中國移動原董事長楊杰迎來新任命

      中國移動原董事長楊杰迎來新任命

      最通信
      2026-05-06 20:22:52
      虧損超1.5億!《寒戰1994》票房崩塌,我感慨:這塊金字招牌砸了

      虧損超1.5億!《寒戰1994》票房崩塌,我感慨:這塊金字招牌砸了

      靠譜電影君
      2026-05-05 10:40:44
      三星獨家供貨!iPhone 20首發極窄四曲面屏:直屏退場

      三星獨家供貨!iPhone 20首發極窄四曲面屏:直屏退場

      快科技
      2026-05-05 21:03:35
      不肝不氪不聯網,人到中年,終于懂了為什么只愛玩單機老游戲

      不肝不氪不聯網,人到中年,終于懂了為什么只愛玩單機老游戲

      單機時代
      2026-05-06 16:11:31
      轉移余廢藥物、加固受損房屋 瀏陽煙花廠爆炸事故相關處置工作正在進行

      轉移余廢藥物、加固受損房屋 瀏陽煙花廠爆炸事故相關處置工作正在進行

      新京報
      2026-05-07 07:23:15
      可怕!開放性脫臼!比我們想象的還要嚴重啊!

      可怕!開放性脫臼!比我們想象的還要嚴重啊!

      柚子說球
      2026-05-06 23:15:23
      我今年72了,用一生的經驗告訴你:永遠不要跟任何人,透露這3個底牌,哪怕是最親的人

      我今年72了,用一生的經驗告訴你:永遠不要跟任何人,透露這3個底牌,哪怕是最親的人

      東林夕亭
      2026-05-07 09:32:41
      生前喊沒綁緊!16歲女粉舉應援旗墜亡懸崖秋千!宋亞軒發文回應

      生前喊沒綁緊!16歲女粉舉應援旗墜亡懸崖秋千!宋亞軒發文回應

      草莓解說體育
      2026-05-07 00:13:37
      烏國總理訪華,要趕在俄羅斯前,游說中國軌距問題上不要輕易點頭

      烏國總理訪華,要趕在俄羅斯前,游說中國軌距問題上不要輕易點頭

      愛下廚的阿釃
      2026-05-07 10:27:09
      第一個幫助中國的日本企業,不留余力提供技術!如今怎么樣了?

      第一個幫助中國的日本企業,不留余力提供技術!如今怎么樣了?

      博覽歷史
      2025-10-07 17:13:05
      弘歷登基時還有10位叔叔在,有兩位比乾隆年幼,他們的結局如何

      弘歷登基時還有10位叔叔在,有兩位比乾隆年幼,他們的結局如何

      老范談史
      2026-05-06 15:46:59
      33歲的皇后嫁給了7歲的“曾孫”,生下了8個孩子,至今被百姓崇拜

      33歲的皇后嫁給了7歲的“曾孫”,生下了8個孩子,至今被百姓崇拜

      芳芳歷史燴
      2026-05-06 22:04:17
      突發!中國男女籃國家隊增補球員進隊,徐昕留洋沒開始就結束了?

      突發!中國男女籃國家隊增補球員進隊,徐昕留洋沒開始就結束了?

      格斗聯盟王大錘
      2026-05-07 11:37:13
      特朗普“自由計劃”36小時即告失敗,沙特王儲憤怒回應!

      特朗普“自由計劃”36小時即告失敗,沙特王儲憤怒回應!

      菁菁子衿
      2026-05-07 09:48:41
      2026-05-07 12:11:00
      硅星人 incentive-icons
      硅星人
      硅(Si)是創造未來的基礎,歡迎來到這個星球。
      3061文章數 10495關注度
      往期回顧 全部

      科技要聞

      凌晨突發!馬斯克租22萬塊GPU給“死敵”

      頭條要聞

      北京三位女大學生青海自駕游2死1傷 傷者一審獲刑4年

      頭條要聞

      北京三位女大學生青海自駕游2死1傷 傷者一審獲刑4年

      體育要聞

      阿森納巴黎會師歐冠決賽!5月31日開戰

      娛樂要聞

      小S阿雅重返大S母校,翻看大S畢業照

      財經要聞

      特朗普:美伊“很有可能”達成協議

      汽車要聞

      理想為什么不做轎車,有了解釋……

      態度原創

      藝術
      房產
      親子
      時尚
      家居

      藝術要聞

      這位老教授筆下的青年,活力滿滿

      房產要聞

      五一海南樓市,太淡了!

      親子要聞

      女星堅持母乳喂養引熱議!研究顯示,寶寶25%腸菌來自媽媽,乳汁可塑造天然免疫力

      “白色闊腿褲”今年夏天又火了!這樣穿時髦又高級

      家居要聞

      破繭成蝶 土味精裝房爆改

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲国产精品日韩AV专区| 亚洲国产色一区二区三区| 草久视频| 开江县| 久久综合国产精品一区二区| 不卡视频一区二区三区| 激情丝袜欧美专区在线观看| 日本熟妇人妻xxxxx-欢迎您 | 出租屋勾搭老熟妇啪啪| 国产自在自线午夜精品| 越猛烈欧美xx00动态图| 中文字幕精品亚洲四区| 欧美亚洲色大成网站| 午夜福利在线永久视频| 天天看av| 97亚洲熟妇自偷自拍另类图片| 五月花婷婷| 67194熟妇在线观看线路1| 欧美人与动牲交片免费| 久久久久久毛片免费播放 | 91精品国产自产在线蜜臀| 狠狠色狠狠色综合日日不卡| 亚洲精品成人网站在线观看| 欧美成人看片一区二区三区| 三p免费视频| 国产成人精彩在线视频| 亚洲线精品一区二区三区影音先锋 | 午夜男女爽爽影院免费视频| 98精品国产综合久久| 狠狠躁天天躁无码中文字幕| 亚洲va欧美va天堂v国产综合| av在线亚洲一区| 成人1区2区| 中文字幕日本一区久久| 亚洲a∨国产av综合av下载| 中文字幕久久久人妻无码| 加勒比一本heyzo高清视频| 狠狠色AV一区二区| 亚洲成人精品| 国产精品久久人人做人人爽| 手游|