<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek V4 傳下周發布,核心架構組件曝光,這次可能是真的

      0
      分享至

      DeepSeek V4 要來了?這次可能是真的

      4 月 19 日,普林斯頓 AI 實驗室研究員Yifan Zhang在 X 上發了一條極其簡短的帖子——"V4, next week."

      隨后在跟帖里列出了三項架構組件


      Yifan Zhang 發布的 V4 預告推文 消息源可信度分析

      先說說這個爆料人的背景,判斷一下可信度:

      Yifan Zhang,本科北大元培、碩士清華姚班,現為普林斯頓大學 AI Lab Fellow

      研究方向是大語言模型推理與強化學習,曾在字節跳動 Seed 基礎模型團隊做過研究實習。

      ? 個人主頁:yfz.ai

      需要注意的是,他目前并不在 DeepSeek 任職,DeepSeek 官方截至目前也沒有回應任何媒體關于發布時間的問詢

      但結合以下信號,"下周發布"的可信度相當高:

      1. 梁文鋒在內部溝通中確認了 4 月下旬發布——這是路透社、創知集等多家媒體獨立報道的

      2. Polymarket 預測市場給出 75% 概率在 4 月底前發布,90% 概率在 5 月中旬前

      3. DeepSeek 網頁端已經上線"快速模式"和"專家模式",產品層面的預熱動作很明顯

      4. DeepSeek 正在烏蘭察布規劃建設大型數據中心,為后續算力需求做準備

      5. DeepGEMM 在 4 月 16 日推送了重大更新——新增 Mega MoE(融合 MoE 大核)、FP8xFP4 GEMM、FP4 Indexer 等核心組件,而這些正是 V4 傳聞架構里的關鍵原語,開源動作和發布節奏高度吻合

      所以雖然 Yifan Zhang 的推文帶有"非官方"性質,但綜合各方信息來看,這基本就是最后的預熱了

      三項架構組件解讀

      Yifan Zhang 在跟帖中提到了 V4 的三項核心架構組件,每一項都對應 LLM 優化里的一條重要方向:

      1. 稀疏 MQA(Sparse Multi-Query Attention)

      在多查詢注意力(MQA)的基礎上引入稀疏性。簡單說就是:不是每個 token 都去看所有的上下文,只看最相關的部分

      這對百萬級上下文窗口來說至關重要。傳統注意力機制在處理超長上下文時,算力和顯存開銷會呈二次方增長。稀疏 MQA 把這個復雜度壓到了接近線性(O(N) 到 O(N log N)),使得百萬 token 的上下文處理在實際工程中變得可行。

      據傳 V4 還搭配了一個叫Lightning Indexer的組件,可以在幾百頁的長文檔中實現 20ms 以內的檢索速度,且不損失連貫性

      2. 融合 MoE 大核(Fused MoE Mega Kernel)

      MoE(Mixture-of-Experts)架構本身 DeepSeek 從 V2 就開始用了,V3 進一步打磨。但 MoE 有個工程痛點:路由判斷和專家矩陣乘法是兩步操作,中間有大量 kernel 啟動和顯存搬運的開銷

      Fused MoE Mega Kernel 把這兩步融合進同一個 GPU kernel,直接砍掉了中間的開銷。這對推理延遲的優化是非常直接的——從架構層面減少了大量不必要的數據搬運

      這也是 DeepSeek 一貫的風格:在工程層面把每一個 cycle 都榨干

      3. Hyper-Connections(流形約束超連接)

      這是三個里面最有學術含量的一項。傳統 Transformer 用的是殘差連接(Residual Connection),就是簡單地把輸入加到輸出上。Hyper-Connections 是對殘差連接的泛化,用多條可學習的加權通路替代單一的殘差加法。

      但早期版本的 Hyper-Connections 有一個致命問題:信號放大會失控,在超大模型中放大倍數可以達到 3000 倍以上,導致訓練直接崩潰

      DeepSeek 的解決方案叫mHC(Manifold-Constrained Hyper-Connections):用Sinkhorn-Knopp 算法把連接矩陣投影到一個特定的數學流形上,讓信號放大嚴格控制在 2 倍以內

      ? 論文:arXiv:2512.24880

      這項技術的代價只有約 6.7% 的額外計算開銷,但換來的是:萬億參數級別的超深超寬模型可以穩定訓練

      這是 V4 能做到萬億參數的關鍵基礎設施

      DeepSeek V4 已知信息匯總

      綜合各方報道,V4 目前已知的信息:

      特性

      參數規模

      約 1 萬億(萬億級 MoE),每個 token 激活約 32-37B 參數

      上下文窗口

      百萬級(約 100 萬 token)

      訓練芯片

      首次深度適配華為昇騰 950PR 等國產芯片,全棧國產算力

      開源協議

      Apache 2.0,可商用

      API 定價

      傳聞每百萬 token 約 $0.30,是 GPT 旗艦模型的 1/10

      產品版本

      V4 旗艦版、V4 Lite(輕量版)、V4 Vision(多模態版)

      核心架構

      Sparse MQA + Fused MoE Mega Kernel + mHC


      幾個值得關注的點

      1. 全棧國產算力,這是最大的信號

      V4 如果真的完全跑在華為昇騰芯片上,那意味著 DeepSeek 從 CUDA 遷移到了 CANN 框架,實現全鏈路國產化

      這對整個中國 AI 產業的意義遠超一個模型發布本身 —— 它證明了在芯片封鎖的條件下,國產算力生態是跑得通的

      2. 定價繼續卷

      每百萬 token $0.30,延續了 DeepSeek 一貫的"價格屠夫"風格

      V3 時期就已經是業內最便宜的了,V4 在萬億參數的情況下還能維持這個價位,MoE 的稀疏激活功不可沒

      3. 算力基建正式入場

      DeepSeek 之前一直是"輕資產"打法,主要靠算法效率取勝

      但 3 月底那次長達 12 小時的宕機暴露了算力瓶頸。這次在烏蘭察布規劃數據中心、首次啟動外部融資(路透社 4 月 17 日報道,估值約 100 億美元),說明 DeepSeek 已經意識到:光有好算法不夠,算力基礎設施也得自己掌握

      4. 之前"狼來了"過兩次

      實話實說,V4 之前已經有過兩輪"即將發布"的傳聞(2 月和 3 月),結果都跳票了

      但綜合 Yifan Zhang 的爆料、梁文鋒的內部確認、產品端的預熱動作、以及預測市場的賠率,這次的信號密度確實是最高的

      總結

      如果 V4 真的在下周發布,它將是:

      • 國產 AI 模型首個萬億參數級開源模型

      • 首個全面適配國產算力的旗艦大模型

      • 百萬級上下文窗口 + 極致性價比的組合

      DeepSeek 從 V2 開始就一直在給行業制造驚喜,V3 更是直接把開源大模型的天花板拉到了跟閉源模型掰手腕的水平。V4 如果能兌現這些技術承諾,那真的可以說是"2026 年國產 AI 的破局之作"

      拭目以待,下周分曉

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      出貨量暴跌35%,小米手機9年來首次跌出前五

      出貨量暴跌35%,小米手機9年來首次跌出前五

      ZAKER新聞
      2026-05-08 16:26:28
      帶10余名球員大鬧基地,隊報:奧巴梅揚拿滅火器噴高層被停賽

      帶10余名球員大鬧基地,隊報:奧巴梅揚拿滅火器噴高層被停賽

      懂球帝
      2026-05-09 08:16:59
      美國總統竟無權接觸最高機密,在情報官僚眼中,總統只是臨時雇員

      美國總統竟無權接觸最高機密,在情報官僚眼中,總統只是臨時雇員

      知識圈
      2026-05-09 09:45:52
      她陪主席走到最后,終身未婚,41年后同日離世,一生守密不言語

      她陪主席走到最后,終身未婚,41年后同日離世,一生守密不言語

      南宗歷史
      2026-05-08 20:47:51
      香港18歲男子弒父傷母,稱“父母是外星奸細必須鏟除”,被判終身監禁

      香港18歲男子弒父傷母,稱“父母是外星奸細必須鏟除”,被判終身監禁

      南方都市報
      2026-05-08 23:18:01
      特朗普對世界杯高昂票價感到驚訝:老實說,我不會花1000美元(約人民幣6800元)去看美國對巴拉圭的首場比賽

      特朗普對世界杯高昂票價感到驚訝:老實說,我不會花1000美元(約人民幣6800元)去看美國對巴拉圭的首場比賽

      每日經濟新聞
      2026-05-08 16:57:31
      國乒男隊復仇成功3-0韓國,半決賽直播時間變更了,請注意

      國乒男隊復仇成功3-0韓國,半決賽直播時間變更了,請注意

      開成運動會
      2026-05-08 23:36:11
      延壽11%、多器官回春!中科院:這味常見中藥改善全身機能!

      延壽11%、多器官回春!中科院:這味常見中藥改善全身機能!

      時光派長壽觀察
      2026-05-08 17:08:02
      國家免費電視已開通!不用繳費,動手調好就能看

      國家免費電視已開通!不用繳費,動手調好就能看

      小柱解說游戲
      2026-05-08 16:59:21
      凌晨咳到吐!全國多地中招“干咳毒株”,患者猜疑新冠病毒新變種

      凌晨咳到吐!全國多地中招“干咳毒株”,患者猜疑新冠病毒新變種

      譚談社會
      2026-05-08 23:19:21
      李一桐擇偶標準:多次采訪稱喜歡直球、霸道、犬系男生

      李一桐擇偶標準:多次采訪稱喜歡直球、霸道、犬系男生

      所見所聞哈
      2026-05-09 09:25:26
      特朗普“密友”,訪華了

      特朗普“密友”,訪華了

      中國新聞周刊
      2026-05-09 07:29:04
      賴清德返臺后稱臺灣是國家,下令拆除蔣介石像,大陸六字預言結局

      賴清德返臺后稱臺灣是國家,下令拆除蔣介石像,大陸六字預言結局

      涼了時光人
      2026-05-08 09:46:12
      “4只皮皮蝦1035元”當事人否認想吃白食,刪除評論;隔壁海鮮店發聲

      “4只皮皮蝦1035元”當事人否認想吃白食,刪除評論;隔壁海鮮店發聲

      上觀新聞
      2026-05-09 09:58:08
      日本將派豪華陣容訪俄,俄羅斯同意接待,但留下一句噎死高市的話

      日本將派豪華陣容訪俄,俄羅斯同意接待,但留下一句噎死高市的話

      健身狂人
      2026-05-09 01:17:13
      世乒賽男團:隨著巴西0-3完敗,中國隊半決賽對手隨之浮出水面

      世乒賽男團:隨著巴西0-3完敗,中國隊半決賽對手隨之浮出水面

      側身凌空斬
      2026-05-09 05:05:31
      猝不及防!三胎僅6個月,方媛又官宣喜訊,郭富城也倍感意外

      猝不及防!三胎僅6個月,方媛又官宣喜訊,郭富城也倍感意外

      小娛樂悠悠
      2026-05-09 09:43:15
      26年奇跡!羅馬尼亞女隊5人站球臺上狂歡 工作人員花10分鐘才修好

      26年奇跡!羅馬尼亞女隊5人站球臺上狂歡 工作人員花10分鐘才修好

      風過鄉
      2026-05-09 06:35:53
      剛剛,一個賣掃地機的,把整個汽車圈整不會了

      剛剛,一個賣掃地機的,把整個汽車圈整不會了

      道哥說車
      2026-05-08 10:10:00
      特朗普即將訪華,啟程前提了個要求,向中方點名要這個人

      特朗普即將訪華,啟程前提了個要求,向中方點名要這個人

      帶你領略世界風采
      2026-05-08 18:05:23
      2026-05-09 10:48:49
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3383文章數 11148關注度
      往期回顧 全部

      科技要聞

      美國政府強力下場 蘋果英特爾達成代工協議

      頭條要聞

      "4只皮皮蝦1035元"當事人注銷賬號 隔壁海鮮店發聲

      頭條要聞

      "4只皮皮蝦1035元"當事人注銷賬號 隔壁海鮮店發聲

      體育要聞

      他把首勝讓給隊友,然后用一年時間還清賬單

      娛樂要聞

      張藝謀《印象劉三姐》全裸鏡頭引爭議

      財經要聞

      白宮:特朗普計劃5月14日至15日訪問中國

      汽車要聞

      全系智能泊車 鉑智3X年款升級限時權益價9.48萬起

      態度原創

      時尚
      游戲
      家居
      旅游
      手機

      盧昱曉真的要被審判到這種程度嗎?

      5月底或6月?爆料人回應GTA6網傳預告日期:竟胡扯

      家居要聞

      流動的尺度 打破家的形式主義

      旅游要聞

      五月呂梁美出圈!沿黃盛景入畫來 全域風光醉游人

      手機要聞

      追覓Aurora Lux系列手機展示:29種奢華設計

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品久久无码一区二区三区网| 全部孕妇毛片| 精品久久久久久久久久久| 午夜三级网站| 亚洲乱码国产乱码精品精大量| 久久国产欧美日韩精品| 呦男呦女视频精品八区| 懂色av,蜜臀AV粉嫩av| 亚洲色一区二区| 玩两个丰满老熟女久久网| 91人妻论坛| 安阳县| 亚洲伊人久久精品影院| 亚洲免费v片| 四虎成人精品国产永久免费无码 | 精品一区二区三区视频免费观看| 欧美三级中文字幕在线观看| 欧美日韩视频在线第一区二区三区| 中文字幕一区二区久久人妻| 99精品国产福利一区二区| 天堂网www在线资源网| 久久亚洲AV无码专区成人| 手机AV中文| 日韩久久久久久中文人妻| 色偷偷888欧美精品久久久| 97久久国产精品无码| 国产无遮挡裸露视频免费| 97在线视频人妻无码| 国产午夜A理论毛片| 天天婬欲婬香婬色婬视频播放| 国产成人精品a视频| www.亚洲成年人网站| 精品国产高清自在线一区二区| 成在线人午夜剧场免费无码| 成人国产乱对白在线观看| 久久国产精品一国产精品| 久艹av| 日本少妇高潮喷水xxxxxxx| 国产精品久久久久久久久久久久久吹| 久久综合亚洲鲁鲁九月天| 子洲县|