<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      終等到DeepSeek V4:1.6萬億參數、百萬上下文,牽手華為,價格依然"屠夫級"

      0
      分享至



      作者 | 袁寧

      DeepSeek-V4,終于來了。

      這段時間,行業節奏已經快到有些失真。新模型一波接一波,參數、榜單、價格、長上下文、Agent、推理強度,幾乎每隔幾天就要重排一次座次。越是在這種密集更新里,DeepSeek 的沉默就越容易被放大。再疊加融資、擴張、下一階段戰略這些外圍討論,市場對它的期待,早就不只是“再發一個新模型”這么簡單。

      所以,V4 這次上線,大家真正想知道的其實是兩件事:

      第一,DeepSeek 還在不在第一梯隊里。

      第二,它這次到底拿出了什么新東西。

      4 月 24 日,DeepSeek-V4 預覽版官宣上線,同步開源。

      先說結論:V4 不是一代靠“能力全面躍升”來定義自己的模型。官方表示,相比前代模型,DeepSeek-V4-Pro 的 Agent 能力顯著增強。在 Agentic Coding 評測中,V4-Pro 已達到當前開源模型最佳水平,并在其他 Agent 相關評測中同樣表現優異。目前 DeepSeek-V4 已成為公司內部員工使用的 Agentic Coding 模型,據評測反饋使用體驗優于 Sonnet 4.5,交付質量接近 Opus 4.6 非思考模式,但仍與 Opus 4.6 思考模式存在一定差距。

      DeepSeek-V4-Pro 在世界知識測評中,大幅領先其他開源模型,僅稍遜于頂尖閉源模型 Gemini-Pro-3.1。

      在數學、STEM、競賽型代碼的測評中,DeepSeek-V4-Pro 超越當前所有已公開評測的開源模型,取得了比肩世界頂級閉源模型的優異成績。



      那 V4 在做什么?一句話:它把長上下文的成本結構徹底重寫了一遍。100 萬 token 上下文成為標配,但單 token 的算力消耗反而大幅下降。這是一次基礎設施級別的發布,為下一階段的 test-time scaling 和長程 Agent 任務鋪路。

      01

      兩個版本、百萬上下文、三檔推理,DeepSeek這次最狠的還是價

      這次 V4 一共兩個版本。

      V4-Pro 是旗艦版,總參數 1.6T,激活參數 49B;V4-Flash 是輕量版,總參數 284B,激活參數 13B。兩者都原生支持 1M 上下文,同時支持非思考模式和思考模式。


      更進一步,每個模型又分成三檔推理強度:Non-think、Think High、Think Max。也就是說,這次 DeepSeek 給出的不只是兩個模型,而是一整套可以按場景分層調用的能力結構。


      從產品上看,這個思路已經很明確了:Pro 負責沖能力上限,Flash 負責鋪性價比;非思考負責效率,Max 負責榨干推理能力。

      官方也直接說了,“從現在開始,一百萬上下文將是 DeepSeek 所有官方服務的標配。”這句話表面上是在強調上下文長度,實際上更重要的是它背后的意思:DeepSeek 不是想把 1M 當成一個展示參數,而是想把它做成標準配置。

      而標準配置能不能成立,關鍵從來都不是“寫沒寫支持 1M”,而是成本。

      這次 V4 最值得注意的地方,也正是在成本曲線。按照官方披露的數據,在 1M 上下文設置下,V4-Pro 的單 token 推理 FLOPs 只有 V3.2 的 27%,KV Cache 只有 10%;V4-Flash 更激進,分別壓到 10% 和 7%。換句話說,雖然上下文從 128K 拉到了 1M,理論上放大接近 8 倍,但單 token 的推理成本并沒有跟著爆炸,反而被打了下來。


      這一點其實比“百萬上下文”本身更關鍵。因為過去很長一段時間,長上下文一直都更像一種能力展示:窗口越寫越長,但真到實際調用時,價格、延遲、顯存壓力都很難看。V4 這次真正想證明的是,長上下文不一定只能做成貴族配置,它可以被改造成可供大規模調用的基礎能力。

      這一點在價格上體現得非常直接。

      V4-Pro 每百萬 token 輸入價格是 1 元,輸出是 12 元;V4-Flash 每百萬 token 輸入 0.2 元,輸出 2 元。這個價格一出來,基本上還是那個熟悉的 DeepSeek 風格。


      也難怪不少用戶第一反應還是那句老話:便宜,而且強。


      02

      技術上動了三刀:

      注意力、殘差、后訓練

      V4 最核心的技術改動在注意力層。傳統 Transformer 的注意力機制里,每個 token 要和前面所有 token 算一遍相似度。上下文從 10 萬拉到 100 萬,計算量增長的不是 10 倍,是 100 倍。

      V4 的做法是把注意力拆成兩種,交替疊用。一種叫 CSA(壓縮稀疏注意力),先把每 4 個 token 的 KV 緩存合并成一條摘要,再讓每個 query 只在這些摘要里挑出最相關的 top-k 條去算。既壓縮了"要看的內容",又只挑"值得看的"去算。另一種叫 HCA(重壓縮注意力),壓縮率更激進,把每 128 個 token 合并成一條,但對剩下的摘要做稠密注意力,不做稀疏挑選。兩種交替疊起來,再加一個滑動窗口分支處理近距離 token 之間的細節依賴。這是一套"粗粒度 + 細粒度、稀疏 + 稠密"的組合拳。


      把這套方案放進 DeepSeek 過去兩年的技術脈絡里,變化就很清晰。V2、V3 走的是參數稀疏化,總參數很大,但每 token 只激活一小部分專家。V4 在此之外又開了一條上下文稀疏化的路,KV 壓縮、top-k 選擇、分層壓縮率。這是 DeepSeek 第一次把"稀疏化"的刀動到 Transformer 的核心結構里。

      除了注意力層,V4 還改了兩處之前沒動過的地方。一是把傳統殘差連接升級為 mHC(流形約束超連接),通過數學約束讓深層網絡的前向和反向傳播更穩定;二是用 Muon 優化器替代大部分模塊原本用的 AdamW,收斂更快,訓練更穩。同時動注意力、殘差、優化器三處核心結構,在 DeepSeek 的歷史上是第一次。

      比架構改動更值得注意的是后訓練方法的切換。V3.2 用的是"混合 RL",一次性用強化學習優化多個目標。V4 換成了"分化再統一"的兩步走。第一步,針對數學、代碼、Agent、指令跟隨等不同領域,每個領域單獨訓練一個專家模型——先用該領域高質量數據做監督微調,再用 GRPO 算法做強化學習,在各自的細分賽道上跑到最優。第二步,用 On-Policy Distillation(OPD,在策略蒸餾)把十多個領域專家"合成"回一個統一的學生模型。學生自己生成回答,然后對每個回答,去匹配"最懂這個問題"的專家的輸出分布,通過 logit 級對齊把能力吸收進來。通俗地講,就是把一堆尖子生的本事蒸餾進同一個人腦袋里。


      這套流程的工程難度極高:同時加載十多個萬億參數級的教師模型做在線推理不現實。DeepSeek 的做法是把所有教師權重統一卸載到分布式存儲,只緩存每個教師最后一層的 hidden state,訓練時按教師索引排序樣本,保證任意時刻 GPU 顯存里只駐留一個 teacher head。V4 的能力不再靠一個模型從頭學到底,而是先讓不同專家在各自賽道跑到頂,再把它們收編進同一套權重。這種思路繞開了傳統混合 RL 容易導致的能力互相干擾問題。

      在 Agent 方向,V4 做了幾處專項優化:后訓練階段把 Agent 作為與數學、代碼并列的獨立專家方向單獨訓練;工具調用格式從 JSON 換成帶特殊 token 的 XML 結構,降低轉義錯誤;跨輪次推理痕跡在工具調用場景下完整保留,不再像 V3.2 那樣每輪清空。DeepSeek 還自建了一套名為 DSec 的沙箱平臺,單集群可并發管理數十萬個沙箱實例,專門支撐 Agent 強化學習訓練和評測。V4 針對 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 產品進行了適配優化,在代碼任務和文檔生成任務上均有提升。

      03

      融資、算力、昇騰,

      V4背后還有DeepSeek的下一道現實題

      V4 這次發布,另一個繞不開的話題,是算力。

      DeepSeek 在說明里提到,受限于高端算力,當前 Pro 的服務吞吐仍然有限,預計下半年昇騰 950 超節點批量上市之后,Pro 的價格還會進一步大幅下調。它基本等于確認了兩件事。

      第一,DeepSeek 這次確實已經把國產算力協同放進正式路線里了。

      第二,V4 當前的能力釋放,還沒有完全到位,背后依然受制于算力供給。

      昇騰表示,其一直同步支持DeepSeek系列模型,本次通過雙方芯模技術緊密協同,實現昇騰超節點全系列產品支持DeepSeek V4系列模型。基于DeepSeek V4-Pro模型,在8K輸入場景,昇騰950超節點可實現TPOT約20ms時單卡Decode 吞吐4700TPS。DeepSeek V4-Flash模型,8K長序列輸入場景下可實現TPOT約10ms時單卡Decode 吞吐1600TPS。


      今天下午,16點,華為昇騰還將在B站直播DeepSeek V4在其平臺的首發。


      此前有消息稱,DeepSeek 正以超過 100 億美元估值尋求外部融資,計劃募集不少于 3 億美元資金。對一家過去長期強調獨立性、相對克制資本敘事的公司來說,這種變化本身就很值得玩味。因為當模型行業進入更高密度的競爭之后,技術路線再強,也很難脫離算力、人才和現金流去單獨討論。

      從這個角度看,V4 其實也暴露出 DeepSeek 當前所處的位置:它在模型能力上仍然保持強競爭力,尤其在開源和高性價比這條線上依然非常突出;但與此同時,它也已經進入一個必須更現實地處理算力和資源配置的問題階段。

      這點在多模態上體現得尤其明顯。

      這次 V4 沒有推出多模態版本,而多模態已經越來越成為頭部模型廠商的“標配動作”。如果說 V4 展現的是 DeepSeek 仍然有能力在文本模型和 Agent 能力上繼續往前推,那么它暫時沒有補上的那一塊,也同樣說明公司還得在資源約束下做取舍。

      所以,怎么理解這次 V4?如果說過去外界對 DeepSeek 的期待,是它還能不能再做出一個“便宜又強”的模型;那么 V4 給出的回答是:它不僅還在這么做,而且正在試圖把“便宜又強”這件事,進一步做成一種結構性的能力。

      至于再往后,DeepSeek 能不能補上多模態、能不能借融資解決算力瓶頸、能不能把 V4 這套 preview 架構真正打磨成熟,那就是下一階段的問題了。

      >End

      本文轉載自“網易科技”,原標題《終等到DeepSeek V4:1.6萬億參數、百萬上下文,牽手華為,價格依然"屠夫級"》。

      為分享前沿資訊及有價值的觀點,太空與網絡微信公眾號轉載此文,并經過編輯。

      未按照規范轉載及引用者,我們保留追究相應責任的權利

      部分圖片難以找到原始出處,故文中未加以標注,如若侵犯了您的權益,請第一時間聯系我們。

      HISTORY/往期推薦

      充滿激情的新時代,

      充滿挑戰的新疆域,

      與踔厲奮發的引領者,

      卓爾不群的企業家,

      一起開拓,

      一起體驗,

      一起感悟,

      共同打造更真品質,

      共同實現更高價值,

      共同見證商業航天更大的跨越!

      ——《太空與網絡》,觀察,記錄,傳播,引領。

      ·《衛星與網絡》創始人:劉雨菲

      ·《衛星與網絡》副社長:王俊峰

      ·微信公眾號(ID:satnetdy)團隊

      編輯:艷玲、哈玫,周泳、邱莉、黃榕、娜娜

      主筆記者:李剛、魏興、張雪松、霍劍、樂瑜、稻子、趙棟

      策劃部:楊艷、若?、李真子

      視覺總監:董濘

      專業攝影:馮小京、宋偉

      設計部:顧錳、潘希峎、楊小明

      行政部:姜河、林紫

      業務部:王錦熙、瑾怡

      原創文章轉載授權、轉載文章侵權、投稿等事宜,請加微信:15910858067

      商務合作;展覽展廳設計、企業VI/CI及室內設計、企業文化建設及品牌推廣;企業口碑傳播及整體營銷傳播等,請加微信:13811260603

      雜志訂閱,請加微信:wangxiaoyu9960

      ·衛星與網絡各分部:

      成都分部負責人:沈淮

      長沙分部負責人:賓鴻浦

      西安分部負責人:郭朝暉

      青島分部負責人:江偉

      ·衛星與網絡總部負責人:農燕

      ·會議活動部負責人喬顥益、許克新、董今福

      · 投融資及戰略層面合作:劉雨菲

      ·本平臺簽約設計公司:一畫開天(北京)文化創意設計有限公司

      · 航天加(深圳)股權投資基金管理負責人:楊艷

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      退市邊緣的聞泰科技,還有什么牌打?

      退市邊緣的聞泰科技,還有什么牌打?

      新浪財經
      2026-05-07 15:14:22
      曹云金與神秘女子車內親昵被拍,還在路邊草叢小便,邊解手邊吐痰

      曹云金與神秘女子車內親昵被拍,還在路邊草叢小便,邊解手邊吐痰

      娛慧
      2026-05-07 18:19:18
      29+22+29+24!這就是尼克斯給他2.13億美金大合同的原因

      29+22+29+24!這就是尼克斯給他2.13億美金大合同的原因

      世界體育圈
      2026-05-07 18:06:56
      沃爾沃上線先租后買方案:24.99萬的XC70月租僅2999元 一年后可退可買

      沃爾沃上線先租后買方案:24.99萬的XC70月租僅2999元 一年后可退可買

      快科技
      2026-05-07 10:23:09
      多項研究顯示:性生活頻率過低,男女容易早衰且患癌風險增高!

      多項研究顯示:性生活頻率過低,男女容易早衰且患癌風險增高!

      燈錦年
      2026-05-05 21:55:51
      世界會獎勵多問一嘴的人!網友:任何人都是可以商量的

      世界會獎勵多問一嘴的人!網友:任何人都是可以商量的

      另子維愛讀史
      2026-05-07 21:51:38
      白人女性與黑人女性的體味差異,網友真實分享引發熱議

      白人女性與黑人女性的體味差異,網友真實分享引發熱議

      特約前排觀眾
      2025-12-22 00:20:06
      再見了CBA?徐昕已被美國球隊高薪挖墻腳:年薪有望超過2000萬?

      再見了CBA?徐昕已被美國球隊高薪挖墻腳:年薪有望超過2000萬?

      籃球快餐車
      2026-05-08 00:46:53
      李道豫同志逝世

      李道豫同志逝世

      新京報政事兒
      2026-05-07 17:12:03
      國際足聯要瘋了,沒有軟肋的中國足球已經天下無敵

      國際足聯要瘋了,沒有軟肋的中國足球已經天下無敵

      楓冷慕詩
      2026-05-07 11:32:38
      不少人還在天天拔插頭!供電局點明:這三種家電不拔更省電

      不少人還在天天拔插頭!供電局點明:這三種家電不拔更省電

      小兔子發現大事情
      2026-05-07 09:35:32
      估值255億的豐巢,上市失敗對賭翻車,創始人含淚離場

      估值255億的豐巢,上市失敗對賭翻車,創始人含淚離場

      李砍柴
      2026-05-06 17:17:07
      魔怔了?被罰5萬還不服,再次怒噴亞歷山大,年薪5300萬不怕罰款

      魔怔了?被罰5萬還不服,再次怒噴亞歷山大,年薪5300萬不怕罰款

      你的籃球頻道
      2026-05-07 10:51:57
      心理學研究發現:對伴侶越來越沒耐心,一開口就想懟回去,不是感情變淡了,而是你心里有兩道“暗傷”從未被看見

      心理學研究發現:對伴侶越來越沒耐心,一開口就想懟回去,不是感情變淡了,而是你心里有兩道“暗傷”從未被看見

      心理觀察局
      2026-05-07 09:10:14
      SK海力士工裝成相親頂級穿搭!

      SK海力士工裝成相親頂級穿搭!

      中國半導體論壇
      2026-05-07 19:50:24
      美高層:美國一旦盡全力對付伊朗,中國那邊就“看不住”了!

      美高層:美國一旦盡全力對付伊朗,中國那邊就“看不住”了!

      阿七說史
      2026-05-05 15:54:56
      一紙訃告,字字泣血!瀏陽煙花廠爆炸事故中一女子的悼詞,引熱議

      一紙訃告,字字泣血!瀏陽煙花廠爆炸事故中一女子的悼詞,引熱議

      火山詩話
      2026-05-07 12:42:44
      馬龍倫敦世乒觀賽從VIP沙發挪到看臺,閆安曝真相:被外協投訴了

      馬龍倫敦世乒觀賽從VIP沙發挪到看臺,閆安曝真相:被外協投訴了

      觀魚聽雨
      2026-05-07 18:43:11
      世乒賽爆大冷!世界冠軍遭淘汰,張本美和大勝,早田希娜11-0鞠躬致歉引熱議

      世乒賽爆大冷!世界冠軍遭淘汰,張本美和大勝,早田希娜11-0鞠躬致歉引熱議

      好乒乓
      2026-05-07 18:30:05
      中國商務部首動阻斷禁令,114國拒絕簽字,魯比奧氣急放狠話

      中國商務部首動阻斷禁令,114國拒絕簽字,魯比奧氣急放狠話

      瀲滟晴方DAY
      2026-05-08 00:19:42
      2026-05-08 01:47:00
      太空與網絡 incentive-icons
      太空與網絡
      衛星應用領域全媒體平臺
      6441文章數 8176關注度
      往期回顧 全部

      數碼要聞

      AMD計劃擴展EPYC產品線 根據特定工作負載優化

      頭條要聞

      日媒詢問中國是否希望恢復中日之間人員往來 中方回應

      頭條要聞

      日媒詢問中國是否希望恢復中日之間人員往來 中方回應

      體育要聞

      巴黎再進歐冠決賽,最尷尬的情況還是發生了

      娛樂要聞

      Lisa主持!寧藝卓觀看脫衣秀風波升級

      財經要聞

      人均年薪406萬,這家ST公司驚呆市場!

      科技要聞

      月之暗面完成20億美元融資,估值突破200億

      汽車要聞

      雷克薩斯全新純電三排SUV 全新TZ全球首發

      態度原創

      手機
      教育
      旅游
      公開課
      軍事航空

      手機要聞

      麒麟9050+雙潛望+超聲波指紋,華為Mate90 Pro Max迎重磅升級!

      教育要聞

      二模很重要!2026臨沂二模、青島二模語文、數學試題及答案!

      旅游要聞

      在上圖文字奇旅中尋找她的筆跡(邊玩邊贏獎,互動體驗開啟預約!)

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普:美伊"很可能"達成協議

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 鹤岗到萝北公交车29路时刻表| 人妻人人做人做人人爱| 欧美精品人妻| 姝姝窝人体色WWW在线观看| 最新国产乱人伦偷精品免费网站 | 亚洲天堂日韩av电影| av天堂午夜精品一区| 波多野在线影院| 天堂网av一区二区三区四区| 亚洲综合色区在线播放2019| 伊人久久大香线蕉综合5g| 女主播扒开屁股给粉丝看尿口| 亚洲VA无码VA在线VA天堂| 国产人妻高清国产拍精品| 精品国产大片中文字幕| 巨大黑人极品videos精品| 精品久久久久久中文字幕网| 亚洲欧洲日产国码无码AV一| 少妇|91最新-91PORNY|九色| 日本久久免费精品观看| 奇米影视一区二区三区| 国内精品久久久久久久小说| 性少妇xx| 精品久久久久久久久久久国产字幕| 亚洲欧美日韩国产美色| 波多野结衣一区二区三区高清| 人妻夜夜爽天天爽三区麻豆av网站| 91久久国产成人免费观看| 天堂av在线免费观看| 成人性无码专区免费视频| 2019国产精品青青草原| 中国在线看xxxx| 亚洲AV专区无码观看精品天堂| 亚洲成在人网站av天堂| 四虎精品视频永久免费| 国产精品综合| 亚洲AV无码一区二区三区东京热| 亚洲欧美日韩中文字幕一区二区三区 | 又色又爽又黄的视频网站| 久艹在线| 少妇放荡的呻吟干柴烈火动漫|