<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易科技 > 網易科技 > 正文

      終等到DeepSeek V4:1.6萬億參數、百萬上下文,牽手華為,價格依然"屠夫級"

      0
      分享至

      出品 | 《態度》欄目

      作者 | 袁寧

      編輯 | 丁廣勝

      DeepSeek-V4,終于來了。

      這段時間,行業節奏已經快到有些失真。新模型一波接一波,參數、榜單、價格、長上下文、Agent、推理強度,幾乎每隔幾天就要重排一次座次。越是在這種密集更新里,DeepSeek的沉默就越容易被放大。再疊加融資、擴張、下一階段戰略這些外圍討論,市場對它的期待,早就不只是“再發一個新模型”這么簡單。

      所以,V4這次上線,大家真正想知道的其實是兩件事:

      第一,DeepSeek還在不在第一梯隊里。

      第二,它這次到底拿出了什么新東西。

      4月24日,DeepSeek-V4預覽版官宣上線,同步開源。

      先說結論:V4不是一代靠“能力全面躍升”來定義自己的模型。官方表示,相比前代模型,DeepSeek-V4-Pro的Agent能力顯著增強。在Agentic Coding評測中,V4-Pro已達到當前開源模型最佳水平,并在其他Agent 相關評測中同樣表現優異。目前DeepSeek-V4已成為公司內部員工使用的Agentic Coding 模型,據評測反饋使用體驗優于Sonnet 4.5,交付質量接近 Opus 4.6非思考模式,但仍與 Opus 4.6思考模式存在一定差距。

      DeepSeek-V4-Pro 在世界知識測評中,大幅領先其他開源模型,僅稍遜于頂尖閉源模型 Gemini-Pro-3.1。

      在數學、STEM、競賽型代碼的測評中,DeepSeek-V4-Pro 超越當前所有已公開評測的開源模型,取得了比肩世界頂級閉源模型的優異成績。

      那 V4在做什么?一句話:它把長上下文的成本結構徹底重寫了一遍。100萬 token 上下文成為標配,但單 token 的算力消耗反而大幅下降。這是一次基礎設施級別的發布,為下一階段的 test-time scaling 和長程 Agent 任務鋪路。

      兩個版本、百萬上下文、三檔推理,DeepSeek這次最狠的還是價格

      這次 V4一共兩個版本。

      V4-Pro 是旗艦版,總參數1.6T,激活參數49B;V4-Flash 是輕量版,總參數284B,激活參數13B。兩者都原生支持1M 上下文,同時支持非思考模式和思考模式。

      更進一步,每個模型又分成三檔推理強度:Non-think、Think High、Think Max。也就是說,這次 DeepSeek 給出的不只是兩個模型,而是一整套可以按場景分層調用的能力結構。

      從產品上看,這個思路已經很明確了:Pro 負責沖能力上限,Flash 負責鋪性價比;非思考負責效率,Max 負責榨干推理能力。

      官方也直接說了,“從現在開始,一百萬上下文將是 DeepSeek 所有官方服務的標配。”這句話表面上是在強調上下文長度,實際上更重要的是它背后的意思:DeepSeek 不是想把1M 當成一個展示參數,而是想把它做成標準配置。

      而標準配置能不能成立,關鍵從來都不是“寫沒寫支持1M”,而是成本。

      這次 V4最值得注意的地方,也正是在成本曲線。按照官方披露的數據,在1M 上下文設置下,V4-Pro 的單 token 推理 FLOPs 只有 V3.2的27%,KV Cache 只有10%;V4-Flash 更激進,分別壓到10% 和7%。換句話說,雖然上下文從128K 拉到了1M,理論上放大接近8倍,但單 token 的推理成本并沒有跟著爆炸,反而被打了下來。

      這一點其實比“百萬上下文”本身更關鍵。因為過去很長一段時間,長上下文一直都更像一種能力展示:窗口越寫越長,但真到實際調用時,價格、延遲、顯存壓力都很難看。V4這次真正想證明的是,長上下文不一定只能做成貴族配置,它可以被改造成可供大規模調用的基礎能力。

      這一點在價格上體現得非常直接。

      V4-Pro 每百萬 token 輸入價格是1元,輸出是12元;V4-Flash 每百萬 token 輸入0.2元,輸出2元。這個價格一出來,基本上還是那個熟悉的 DeepSeek 風格。

      也難怪不少用戶第一反應還是那句老話:便宜,而且強。

      技術上動了三刀:注意力、殘差、后訓練

      V4最核心的技術改動在注意力層。傳統 Transformer 的注意力機制里,每個 token 要和前面所有 token 算一遍相似度。上下文從10萬拉到100萬,計算量增長的不是10倍,是100倍。

      V4的做法是把注意力拆成兩種,交替疊用。一種叫 CSA(壓縮稀疏注意力),先把每4個 token 的 KV 緩存合并成一條摘要,再讓每個 query 只在這些摘要里挑出最相關的 top-k 條去算。既壓縮了"要看的內容",又只挑"值得看的"去算。另一種叫 HCA(重壓縮注意力),壓縮率更激進,把每128個 token 合并成一條,但對剩下的摘要做稠密注意力,不做稀疏挑選。兩種交替疊起來,再加一個滑動窗口分支處理近距離 token 之間的細節依賴。這是一套"粗粒度 + 細粒度、稀疏 + 稠密"的組合拳。

      把這套方案放進 DeepSeek 過去兩年的技術脈絡里,變化就很清晰。V2、V3走的是參數稀疏化,總參數很大,但每 token 只激活一小部分專家。V4在此之外又開了一條上下文稀疏化的路,KV 壓縮、top-k 選擇、分層壓縮率。這是 DeepSeek 第一次把"稀疏化"的刀動到 Transformer 的核心結構里。

      除了注意力層,V4還改了兩處之前沒動過的地方。一是把傳統殘差連接升級為 mHC(流形約束超連接),通過數學約束讓深層網絡的前向和反向傳播更穩定;二是用 Muon 優化器替代大部分模塊原本用的 AdamW,收斂更快,訓練更穩。同時動注意力、殘差、優化器三處核心結構,在 DeepSeek 的歷史上是第一次。

      比架構改動更值得注意的是后訓練方法的切換。V3.2用的是"混合 RL",一次性用強化學習優化多個目標。V4換成了"分化再統一"的兩步走。第一步,針對數學、代碼、Agent、指令跟隨等不同領域,每個領域單獨訓練一個專家模型——先用該領域高質量數據做監督微調,再用 GRPO 算法做強化學習,在各自的細分賽道上跑到最優。第二步,用 On-Policy Distillation(OPD,在策略蒸餾)把十多個領域專家"合成"回一個統一的學生模型。學生自己生成回答,然后對每個回答,去匹配"最懂這個問題"的專家的輸出分布,通過 logit 級對齊把能力吸收進來。通俗地講,就是把一堆尖子生的本事蒸餾進同一個人腦袋里。

      這套流程的工程難度極高:同時加載十多個萬億參數級的教師模型做在線推理不現實。DeepSeek 的做法是把所有教師權重統一卸載到分布式存儲,只緩存每個教師最后一層的 hidden state,訓練時按教師索引排序樣本,保證任意時刻 GPU 顯存里只駐留一個 teacher head。V4的能力不再靠一個模型從頭學到底,而是先讓不同專家在各自賽道跑到頂,再把它們收編進同一套權重。這種思路繞開了傳統混合 RL 容易導致的能力互相干擾問題。

      在 Agent 方向,V4做了幾處專項優化:后訓練階段把 Agent 作為與數學、代碼并列的獨立專家方向單獨訓練;工具調用格式從 JSON 換成帶特殊 token 的 XML 結構,降低轉義錯誤;跨輪次推理痕跡在工具調用場景下完整保留,不再像 V3.2那樣每輪清空。DeepSeek 還自建了一套名為 DSec 的沙箱平臺,單集群可并發管理數十萬個沙箱實例,專門支撐 Agent 強化學習訓練和評測。V4針對 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 產品進行了適配優化,在代碼任務和文檔生成任務上均有提升。

      融資、算力、昇騰,V4背后還有DeepSeek的下一道現實題

      V4這次發布,另一個繞不開的話題,是算力。

      DeepSeek 在說明里提到,受限于高端算力,當前 Pro 的服務吞吐仍然有限,預計下半年昇騰950超節點批量上市之后,Pro 的價格還會進一步大幅下調。它基本等于確認了兩件事。

      第一,DeepSeek 這次確實已經把國產算力協同放進正式路線里了。

      第二,V4當前的能力釋放,還沒有完全到位,背后依然受制于算力供給。

      昇騰表示,其一直同步支持DeepSeek系列模型,本次通過雙方芯模技術緊密協同,實現昇騰超節點全系列產品支持DeepSeek V4系列模型。基于DeepSeek V4-Pro模型,在8K輸入場景,昇騰950超節點可實現TPOT約20ms時單卡Decode 吞吐4700TPS。DeepSeek V4-Flash模型,8K長序列輸入場景下可實現TPOT約10ms時單卡Decode 吞吐1600TPS。

      今天下午,16點,華為昇騰還將在B站直播DeepSeek V4在其平臺的首發。

      此前有消息稱,DeepSeek 正以超過100億美元估值尋求外部融資,計劃募集不少于3億美元資金。對一家過去長期強調獨立性、相對克制資本敘事的公司來說,這種變化本身就很值得玩味。因為當模型行業進入更高密度的競爭之后,技術路線再強,也很難脫離算力、人才和現金流去單獨討論。

      從這個角度看,V4其實也暴露出 DeepSeek 當前所處的位置:它在模型能力上仍然保持強競爭力,尤其在開源和高性價比這條線上依然非常突出;但與此同時,它也已經進入一個必須更現實地處理算力和資源配置的問題階段。

      這點在多模態上體現得尤其明顯。

      這次 V4沒有推出多模態版本,而多模態已經越來越成為頭部模型廠商的“標配動作”。如果說 V4展現的是 DeepSeek 仍然有能力在文本模型和 Agent 能力上繼續往前推,那么它暫時沒有補上的那一塊,也同樣說明公司還得在資源約束下做取舍。

      所以,怎么理解這次 V4?如果說過去外界對 DeepSeek 的期待,是它還能不能再做出一個“便宜又強”的模型;那么 V4給出的回答是:它不僅還在這么做,而且正在試圖把“便宜又強”這件事,進一步做成一種結構性的能力。

      至于再往后,DeepSeek 能不能補上多模態、能不能借融資解決算力瓶頸、能不能把 V4這套 preview 架構真正打磨成熟,那就是下一階段的問題了。

      延伸閱讀
      相關推薦
      熱點推薦
      兩性關系:男性過了77歲,還能輕松完成十件事,證明你還很年輕

      兩性關系:男性過了77歲,還能輕松完成十件事,證明你還很年輕

      娛樂洞察點點
      2026-04-30 17:43:29
      不訪華了?特朗普聯合27國對華施壓,話音剛落,秒被中方制裁打臉

      不訪華了?特朗普聯合27國對華施壓,話音剛落,秒被中方制裁打臉

      鐵錘簡科
      2026-04-29 14:32:40
      切爾西隊長突然退役:12年20冠后,她說"我已傾盡所有"

      切爾西隊長突然退役:12年20冠后,她說"我已傾盡所有"

      綠茵狂熱者
      2026-04-29 17:41:29
      哈登23+9+5拿下天王山!騎士觸發必勝鐵律 小黑末節11分拯救米球

      哈登23+9+5拿下天王山!騎士觸發必勝鐵律 小黑末節11分拯救米球

      鍋子籃球
      2026-04-30 11:26:06
      “上午立夏,穿單衣;夜晚立夏,五月寒”,今年立夏在幾點?

      “上午立夏,穿單衣;夜晚立夏,五月寒”,今年立夏在幾點?

      阿龍美食記
      2026-04-26 17:10:17
      悲催!武漢全女酒吧倒閉,店老板哭訴損失100多萬,身體垮沒錢治

      悲催!武漢全女酒吧倒閉,店老板哭訴損失100多萬,身體垮沒錢治

      火山詩話
      2026-04-30 09:00:59
      湘潭大學大二女生賣棗救母:已收到善款40余萬,父母都已住院治療,第一次睡了個好覺

      湘潭大學大二女生賣棗救母:已收到善款40余萬,父母都已住院治療,第一次睡了個好覺

      瀟湘晨報
      2026-04-30 09:36:22
      朝鮮展示在俄烏戰場繳獲的德國坦克

      朝鮮展示在俄烏戰場繳獲的德國坦克

      參考消息
      2026-04-30 16:32:21
      日本現在后悔也來不及了?堅持核污水排海的日本,終于自食惡果

      日本現在后悔也來不及了?堅持核污水排海的日本,終于自食惡果

      西樓知趣雜談
      2026-04-30 07:30:03
      貴州安順公布一起混凝土泵車傾倒事故調查報告:建議對多人調查處理

      貴州安順公布一起混凝土泵車傾倒事故調查報告:建議對多人調查處理

      澎湃新聞
      2026-04-30 10:00:29
      湖人93-99!輸球不可怕 可怕的是賽后雷迪克這番話 臉都不要了!

      湖人93-99!輸球不可怕 可怕的是賽后雷迪克這番話 臉都不要了!

      劉哥談體育
      2026-04-30 15:28:57
      國乒抵達倫敦僅2天,反常一幕出現,換帥風波發酵,劉國梁沒說錯

      國乒抵達倫敦僅2天,反常一幕出現,換帥風波發酵,劉國梁沒說錯

      霽寒飄雪
      2026-04-30 14:35:21
      美媒早已承認:中國正將美國技術淘汰,美國芯片制造業的末日開始

      美媒早已承認:中國正將美國技術淘汰,美國芯片制造業的末日開始

      混沌錄
      2026-04-29 19:36:12
      淚目!丈夫連熬五宿搶收,倒在亡父墳頭大睡,妻子看見:眼紅了!

      淚目!丈夫連熬五宿搶收,倒在亡父墳頭大睡,妻子看見:眼紅了!

      川渝視覺
      2026-04-20 16:51:52
      看到小三和老公的甜蜜照后,我轉發給了她父母,第二天小三崩潰了

      看到小三和老公的甜蜜照后,我轉發給了她父母,第二天小三崩潰了

      千秋文化
      2026-04-29 19:17:50
      林徽因落選的國徽方案,網友看后感嘆:審美確實厲害,但真不合適

      林徽因落選的國徽方案,網友看后感嘆:審美確實厲害,但真不合適

      浩渺青史
      2026-04-17 13:55:15
      生死戰山東客戰遼寧!賽前有3好2壞消息,邱彪拒絕被橫掃出局!

      生死戰山東客戰遼寧!賽前有3好2壞消息,邱彪拒絕被橫掃出局!

      林子說事
      2026-04-30 15:41:49
      山西澤州警方:重大刑案嫌犯已被抓獲

      山西澤州警方:重大刑案嫌犯已被抓獲

      界面新聞
      2026-04-30 13:14:49
      上海有錢人家女傭條件曝光:月薪2萬,藏著太多羞于說出口的秘密

      上海有錢人家女傭條件曝光:月薪2萬,藏著太多羞于說出口的秘密

      奇思妙想生活家
      2026-04-30 12:51:28
      巴勒斯坦選舉結果出爐,哈馬斯被排除,加沙18年統治落幕

      巴勒斯坦選舉結果出爐,哈馬斯被排除,加沙18年統治落幕

      飄逸語人
      2026-04-30 11:59:41
      2026-04-30 18:55:00

      科技要聞

      9000億美元估值,Anthropic即將反超OpenAI

      頭條要聞

      伊朗最高領袖"最詳細傷情":面部燒傷嚴重 可能要整形

      頭條要聞

      伊朗最高領袖"最詳細傷情":面部燒傷嚴重 可能要整形

      體育要聞

      季后賽場均5.4分,他憑啥在騎士打首發?

      娛樂要聞

      孫楊博士學歷有問題?官方含糊其辭

      財經要聞

      易會滿被“雙開”!

      汽車要聞

      專訪捷途汪如生:捷途雙線作戰 全球化全面落地

      態度原創

      健康
      親子
      家居
      房產
      公開課

      干細胞治燒燙傷能用了么?

      親子要聞

      4月30日是國際不打小孩日,今天不許打小孩哦

      家居要聞

      靈動實用 生活藝術場

      房產要聞

      熬了6年,漲了2億,三亞核心區這塊地再次上架

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版
      ×
      主站蜘蛛池模板: 国产成人精品一区二区app| 久久精品不卡一区二区| 欧美a在线免费观看| 亚洲成在人线av| 国产亚洲精品线观看动态图| 亚洲国产精品丝袜国产自在线| 久久久国产乱子伦精品| 国产精品久久久久久久| 国产香蕉AV| 四虎精品一区二区三区| 99999久久久久久亚洲| 在线观看热码亚洲av每日更新| 国产亚洲色欲色一色www| 亚洲欧美日韩精品久久| 人妻少妇精品久久久久久0000 | 国内精品伊人久久久久av影院| 亚洲人成网线在线播放VA| 国产免费人成视频在线观看| 伊人九九网香蕉精品| 精品人妻中文无码| 蝴蝶伊人久久中文娱乐网| 国产AV丝袜一区二区三区 | 无码国产精品久久一区免费| 精品人妻一区二区免费蜜桃| 亚洲免费av一区二区| 99在线精品视频在线观看| 国产免费看网站v片不遮挡| 国产亚洲精久久久久久无码苍井空| 中文AV电影网| AV色色色| 东京热人妻系列无码专区| 亚洲熟女WWW一区二区三区| 7878成人国产在线观看| 久久婷婷综合色丁香五月| 日本熟妇色一本在线视频| 日韩一区二区av| 日本黄页网站免费大全| 天天综合视频| 麻豆亚洲AV成人无码久久精品| 无码人中文字幕| 国产欧美VA天堂在线观看视频 |