<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      剛剛!DeepSeek更新V4論文,3000億獨角獸公開算力真相

      0
      分享至



      就在剛剛,五一休假剛結束,DeepSeek團隊悄悄更新了V4模型論文。

      盡管這份論文依舊是58頁,但增加了大量13天前V4預覽版論文中沒披露的信息。

      我看完之后發現,這份“完整版”DeepSeek V4論文當中,梁文鋒藏了半年的算力底牌一次性全曝光。

      以下是我總結的完整版論文的更新內容:

      1、相比預覽版,這次完整版V4論文中,大量增加FP4量化訓練過程的細節,以及首次公布獨有訓練穩定方案:預路由+SwiGLU clamping。

      2、新增生成式獎勵模型GRM、百萬級上下文加速細節,新增更多MegaMoE內核、DeepGEMM開源等信息,以及修正了包括Host Codegen、SMT 整數分析、位精度可復現性,以及KV Cache 異構結構、磁盤緩存策略,預訓練/微調的精確超參、學習率、batch size等信息。

      3、另外,這次完整版論文,DeepSeek修改了部分真實場景的測評結果,包括中文寫作、搜索、白領任務、代碼 Agent等。

      其中提到,中文寫作當中,DeepSeek V4系列模型勝率高達77.5%;白領專業任務下的30項高級任務中,DeepSeek V4完全不輸Claude Opus 4.6。



      整體來說,新的DeepSeek V4論文更加完整,很多數據更加嚴謹。

      實際上,過去兩周,圍繞DeepSeek V4的話題不斷,一方面新的V4模型接入華為昇騰的算力平臺,而導致推遲發布;另一方面,V4兩度大幅降價,使得全系列API服務的輸入緩存命中價格進一步降至原有價格的1/10,但模型性能比肩GPT-5.5、GLM的水平,引發廣泛關注。

      就在剛剛,DeepSeek再度被曝出融資消息。

      領投方包括半導體大基金(國家集成電路產業投資基金)等,其他入股投資方包括騰訊、阿里等,梁文鋒也可能會參與投資,但最終的投資者陣容尚未確定。

      最新的DeepSeek的估值達到約450億美元(約合人民幣3000億元),比兩周前曝光的200億美元估值,翻了一倍。



      V4算力秘訣:

      如何訓的穩、模型跑得快、顯存更省

      4月24日,DeepSeek-V4的預覽版本正式上線并同步開源。

      新的DeepSeek-V4擁有百萬字超長上下文,在Agent能力、世界知識和推理性能上均實現領先水平,其最大的優勢在于同時實現英偉達和華為昇騰算力訓練。

      此次完整版V4論文,DeepSeek團隊進行了大量修正和增加內容。

      1、新增最多的一部分就是:FP4量化感知訓練信息。

      DeepSeek提到,V4在后期訓練里直接用上了FP4量化感知訓練,目的就是讓模型跑起來更快、更省顯存。

      其中,把最占顯存的MoE 專家權重和長文本注意力的QK 計算都壓成 FP4 精度,轉成FP8計算時完全不損失精度,還能直接兼容現有框架,速度直接快 2 倍,關鍵信息找回率還能保持 99.7%,而推理時直接用FP4權重運行,又快又省顯存,效果還不掉。

      具體來說,為了實現推理加速并減少部署時的內存流量,團隊將FP4(MXFP4)量化應用于兩個組件:(1)、MoE專家權重,這是GPU內存占用的主要來源;(2)、CSA索引器中的查詢-鍵(QK)路徑,其中QK激活值以FP4格式進行緩存、加載和乘法運算,從而加速長上下文場景中的注意力分數計算。

      此外,在此QAT過程中,團隊進一步將索引分數從FP32量化至BF16。這一優化使QK選擇器實現了2倍加速,同時保持了KV計算99.7%的召回率。



      論文指出,通過采用混合CSA與HCA,并對計算和存儲進行精度優化,DeepSeek-V4系列與DeepSeek-V3.2相比,推理FLOPs顯著降低,KV緩存大小大幅縮減,在長上下文場景下優勢尤為明顯。

      在1M tokens上下文場景中,即使是激活參數量更大的DeepSeek-V4-Pro,其單FLOPs(以等效FP8 FLOPs計算)僅為DeepSeek-V3.2的27%,KV緩存大小僅為后者的10%。

      此外,激活參數量更小的DeepSeek-V4-Flash進一步提升了效率:在1M令牌上下文設置下,它的單FLOPs僅為DeepSeek-V3.2的10%,KV緩存大小僅為后者的7%。

      另外,DeepSeek-V4系列的路由專家參數采用FP4精度。目前現有硬件上FP4×FP8運算的峰值FLOPs與FP8×FP8持平,但從理論上來說,未來硬件可以讓該運算的效率提升三分之一,這將進一步提高DeepSeek-V4系列的效率。

      2、DeepSeek首次公布獨有訓練穩定方案:預路由+SwiGLU clamping。

      DeepSeek提到,訓練萬億參數這種超大模型,本身就特別容易出問題 ——訓練崩、損失暴漲、訓著訓著就不穩定,DeepSeek-V4 也沒躲開這個行業難題。簡單的回滾操作只能臨時救場,沒法從根上解決反復炸損的問題。

      研究人員發現,不穩的根源主要在 MoE 層的異常數值,而且路由機制還會讓這種異常越來越嚴重,形成惡性循環。為了把訓練徹底穩住,他們從兩個方向下手,最終拿出兩套非常實用、能直接落地的穩定方案:

      第一個叫預判路由(Anticipatory Routing)

      簡單說就是不讓主模型和路由模塊同步更新,故意 “錯開”:當前步用最新參數算特征,但路由分配卻用之前的舊參數來算,提前算好、緩存起來,從邏輯上切斷惡性循環。這套做法還做了大量工程優化,只會增加大概 20% 的耗時,并且系統會自動監測,只有炸損失時才開啟,穩住之后自動切回普通模式,既解決崩潰問題,又幾乎不影響訓練效率和最終效果。

      第二個叫SwiGLU Clamping。直接在激活函數上做限制,把 SwiGLU 的線性部分強行約束在-10到10之間,門控部分上限也設為 10。這么一做,模型里的極端異常值直接被 “按住”,訓練瞬間穩了很多,而且不會損傷模型的能力。

      靠著一系列關鍵技術,DeepSeek-V4成功搞定了萬億MoE模型最頭疼的訓練穩定性難題,讓超大模型能穩穩訓完。



      新增生成式獎勵模型GRM能力,

      多項顯示V4比肩Opus 4.5

      過去做模型優化,簡單任務用規則檢查就行,難驗證的復雜任務只能靠RLHF 人類反饋,但這種方法需要大量人工標注,成本高、效率低。

      而論文首次提到,DeepSeek-V4直接拋棄了傳統的單值獎勵模型,改用了一套生成式獎勵模型(GRM)

      簡單說,就是不用額外訓練單獨的打分模型,而是讓模型自己當裁判:用同一個模型一邊生成答案、一邊評估答案,把“生成能力”和“評判能力”一起訓練、一起變強。

      訓練時,用帶評分標準的數據做引導,讓模型自己學會判斷回答好不好、對不對、邏輯嚴不嚴謹。好處非常明顯:

      1、只需要很少量的人工標注,模型就能靠自己的推理能力泛化到復雜任務;

      2、評判過程自帶邏輯思考,打分更穩、更準;

      3、生成和評判一體,效果比傳統獎勵模型強得多。

      這套GRM機制,讓DeepSeek-V4在沒有大量人工標注的情況下,依然把復雜任務的對齊能力拉到了很高水平。



      這是DeepSeek-V4系列的工具調用 schema,最終效果層面非常穩定和準確,整個過程也有了更多的思考能力。

      同時,完整版DeepSeek-V4論文,還增加了百萬級上下文加速等內容:

      1、全新工具調用格式與交互機制。完整版公開了 <|DSML|> 格式的 XML 工具調用規范,同時新增交錯思考(Interleaved Thinking) 機制,在工具交互場景下全程保留推理鏈內容,不再因用戶新消息清空歷史思考;還新增了 Quick Instruction 專用指令體系,通過特殊 token 讓模型直接復用 KV 緩存并行完成搜索、分類、標題生成等輔助任務,顯著降低首 token 延遲。

      2、百萬上下文推理工程全套實現。完整版大幅擴充了推理框架與 KV 緩存管理內容,首次公開百萬上下文工程化落地的完整方案:包括異構 KV 緩存結構、狀態緩存(State Cache)、磁盤緩存(On-disk KV Cache)以及共享前綴復用機制,并提供三種滑動窗口緩存策略用于工程部署。同時補充了上下文并行(Contextual Parallelism)的兩階段通信方案,解決超長序列跨卡壓縮與計算問題。 3、真實場景大規模人類評估。完整版新增大量真實業務場景的系統性測評,包括中文寫作、搜索增強問答、白領專業任務、代碼智能體等大規模人工對比數據,公開了在各類實用場景下 DeepSeek-V4-Pro 對比 Gemini、Claude 的勝率與得分,完整展現模型在真實使用中的落地效果,這些數據在精簡版中完全缺失。 4、完整基礎設施、作者與附錄。完整版將基礎設施章節拆分為專家并行、TileLang 內核、批不變與確定性算子、訓練框架、推理框架等精細小節,補充大量工程優化細節與加速數據;同時新增完整作者列表、致謝與評估細節附錄,是一份可復現、可核查、完全開放的正式技術報告。

      此外,完整版DeepSeek V4論文增加了基準測試的最新結果。

      其中,在附錄提到的搜索增強問答測試中,在DeepSeek網頁端和應用端,“非思考”模式采用檢索增強搜索(RAG),而“思考”模式則使用智能體搜索。



      對于檢索增強搜索,在客觀和主觀問答兩個類別中的評估中,DeepSeek-V4-Pro的表現大幅優于DeepSeek-V3.2,在兩個類別中均展現出穩定優勢,提升最顯著的是單值搜索以及規劃與策略任務。不過,DeepSeek-V3.2在對比和推薦任務中仍保有相當的競爭力,說明DeepSeek-V4-Pro在需要對搜索結果進行均衡、多視角推理的場景中仍有改進空間。

      而智能體搜索上,V4智能體搜索的表現始終優于RAG,在復雜任務上的優勢尤為明顯。此外,智能體搜索的成本效率依然很高,僅比標準RAG高出微不足道的成本。





      在中文寫作中,結果顯示,DeepSeek-V4-Pro以62.7%對34.1%的整體勝率,優于基準模型Gemini-3.1-Pro,這主要是因為Gemini在中文寫作場景中偶爾會因其固有的風格偏好而覆蓋用戶的明確要求。

      創意寫作方面,與Gemini-3.1-Pro相比,DeepSeek-V4-Pro在指令遵循方面取得了60.0%的勝率,在寫作質量方面取得了77.5%的勝率,表明其在指令遵循上略有提升,而在寫作質量上則有顯著進步。



      盡管DeepSeek-V4-Pro在整體用戶案例分析中表現更優,但針對最具挑戰性的提示詞(特別是涉及高復雜度約束或多輪場景)的評估顯示,Claude Opus 4.5以52.0%對45.9%的勝率領先。



      白領任務層,DeepSeek構建了一套包含30項高級中文專業任務的綜合評測套件,覆蓋13個關鍵行業如金融、教育、法律與科技等。

      結果顯示,DeepSeek-V4-Pro-Max在各類中文任務上的表現優于Opus-4.6-Max,取得了63%的出色不敗率,且在分析、生成與編輯類任務中均展現出穩定優勢。



      最后,DeepSeek還修改了編碼智能體測試結果。

      結果顯示,DeepSeek-V4-Pro編碼智能體能力顯著優于Claude Sonnet 4.5,并接近Claude Opus 4.5的水平。

      當被問及與其他前沿模型相比,DeepSeek-V4-Pro是否已準備好作為他們的默認首選編碼模型時,52%的人表示肯定,39%的人傾向于肯定,而表示否定的人數不足9%。

      受訪者認為DeepSeek-V4-Pro在大多數任務中能提供令人滿意的結果,但也指出其存在細微錯誤、對模糊提示的誤解以及偶爾過度思考的問題。

      總結就是,DeepSeek-V4-Pro的性能和能力不輸給Claude和GPT能力,甚至中文寫作能力要高于谷歌Gemini-3.1,但距離Opus 4.5還略有一些差距。



      總結

      照例我還是要總結一下這篇文章。

      五一之前,DeepSeek多模態模型論文突然刪了,引發廣泛關注,也讓我們等待DeepSeek帶來新的moment。

      DeepSeek連夜刪新論文,梁文鋒到底怕什么|深度

      然而,五一之后,我們終于等來了DeepSeek-V4的論文更新:藏了半年的算力底牌一次性全曝光,核心技術全公開。

      我看完 DeepSeek-V4 完整版論文才真正明白,如今大模型的競爭早已不只是參數和效果,更是效率、穩定性、工程化的全面較量。

      從FP4量化到百萬上下文加速,從訓練防崩機制到生成式獎勵模型,每一處細節都在把“不可能”變成“可落地”,讓人真切感受到DeepSeek-V4大模型正在從追趕走向引領。

      然而,從我們感知上來說,DeepSeek-V4雖然沒引發去年R1時候的“DeepSeek時刻”,但V4再度鞏固了國產AI大模型在高性價比層面的重要優勢,令AI和投資行業印象深刻。

      這波,DeepSeek直接把開源大模型的效率天花板捅破了!

      據報道,一位考慮投資DeepSeek的人士透露,DeepSeek的編碼能力名列前茅,其同行公司如智譜、MiniMax預計營收將持續飆升,市值超過3000億。

      因此,鑒于 DeepSeek 的估值已大幅上漲,梁文鋒可能會考慮籌集更多資金,以增加未來投資計算能力的資金儲備。

      顯然,DeepSeek有望成為國內另一家AI大模型“巨龍”。

      我們有理由相信,隨著資源、人才、技術的進一步聚集和迭代,梁文鋒的下一代更輕、更快、更強的DeepSeek大模型,已經近在眼前。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      至今無解的3大災難:一次在印度,一次在俄國,中國的最“詭異”

      至今無解的3大災難:一次在印度,一次在俄國,中國的最“詭異”

      歷史龍元閣
      2026-05-14 09:30:33
      怎么拒絕親戚要長期住到家里的請求?網友:看好了,我只教一遍!

      怎么拒絕親戚要長期住到家里的請求?網友:看好了,我只教一遍!

      夜深愛雜談
      2026-05-15 07:17:28
      貝弗利:詹姆斯很難離開湖人,因為他去哪里布朗尼就要去哪里

      貝弗利:詹姆斯很難離開湖人,因為他去哪里布朗尼就要去哪里

      懂球帝
      2026-05-15 00:09:05
      殘疾哥哥養大妹妹,妹妹考上博士后就沒回過家,哥哥去看望傻眼了

      殘疾哥哥養大妹妹,妹妹考上博士后就沒回過家,哥哥去看望傻眼了

      磊子講史
      2025-07-14 14:53:33
      中國外長缺席金磚會議,西方沒給印度面子,莫迪政府無法挑起大梁

      中國外長缺席金磚會議,西方沒給印度面子,莫迪政府無法挑起大梁

      云上烏托邦
      2026-05-14 20:30:14
      這事還沒完?姆巴佩接受采訪再掀波瀾,稱受到排擠自己錯在沒冠軍

      這事還沒完?姆巴佩接受采訪再掀波瀾,稱受到排擠自己錯在沒冠軍

      里芃芃體育
      2026-05-15 10:00:29
      你知道最積德的3件事嗎?但凡你做過一件,后代子孫皆有大福報

      你知道最積德的3件事嗎?但凡你做過一件,后代子孫皆有大福報

      金沛的國學筆記
      2026-03-22 11:27:12
      65.3公里!北京將擁有世界首條“不斷線絢麗花環”!

      65.3公里!北京將擁有世界首條“不斷線絢麗花環”!

      家住朝陽
      2026-05-14 19:10:23
      朱元璋為什么將藍玉剝皮?看看藍玉怎么對北元王妃:換你你也殺!

      朱元璋為什么將藍玉剝皮?看看藍玉怎么對北元王妃:換你你也殺!

      銘記歷史呀
      2026-05-14 15:16:12
      “那家伙在空軍1號前居然一動不動”!美媒注意到一名中國儀仗兵

      “那家伙在空軍1號前居然一動不動”!美媒注意到一名中國儀仗兵

      阿龍聊軍事
      2026-05-14 11:02:15
      不出意外的話,中國未來有5%城市房價還會創新高,大概率是這25個

      不出意外的話,中國未來有5%城市房價還會創新高,大概率是這25個

      專業聊房君
      2026-05-15 09:21:20
      2007年,一臺灣商人來到沈陽大帥府,對售票員說:我就不買票了吧

      2007年,一臺灣商人來到沈陽大帥府,對售票員說:我就不買票了吧

      浩渺青史
      2026-05-15 02:58:03
      CBA最新消息!廣東隊拒絕買斷王少杰,北控男籃要價逼退朱芳雨!

      CBA最新消息!廣東隊拒絕買斷王少杰,北控男籃要價逼退朱芳雨!

      緋雨兒
      2026-05-15 08:28:40
      破防了!王曼昱贏球后第一個抱馬琳,一向冷靜的她這次失態了!

      破防了!王曼昱贏球后第一個抱馬琳,一向冷靜的她這次失態了!

      小娛樂悠悠
      2026-05-15 09:00:02
      波音跌幅擴大至3.75%

      波音跌幅擴大至3.75%

      每日經濟新聞
      2026-05-14 22:40:52
      臺當局惹眾怒,大陸發布統一后安排,島內鄭氏宗親:團結才有力量

      臺當局惹眾怒,大陸發布統一后安排,島內鄭氏宗親:團結才有力量

      流史歲月
      2026-05-14 20:00:04
      槍聲響起!小馬科斯大勢已去,菲軍方緊急切割,中菲關系或迎轉機

      槍聲響起!小馬科斯大勢已去,菲軍方緊急切割,中菲關系或迎轉機

      影孖看世界
      2026-05-14 23:06:05
      南方三年游擊戰,項英有何作為?陳毅直言:紅軍的命運全寄托于他

      南方三年游擊戰,項英有何作為?陳毅直言:紅軍的命運全寄托于他

      浩渺青史
      2026-05-15 00:40:30
      中美關系,有了新定位

      中美關系,有了新定位

      中國新聞周刊
      2026-05-14 16:01:38
      清華系團隊出手!一張 4090 即可「爆改」,1.3B小鋼炮震撼開源

      清華系團隊出手!一張 4090 即可「爆改」,1.3B小鋼炮震撼開源

      新智元
      2026-05-13 12:11:23
      2026-05-15 10:39:00
      智能紀元AGI
      智能紀元AGI
      專注科技、科學、商業產業報道
      2316文章數 10609關注度
      往期回顧 全部

      科技要聞

      兩年聯姻一地雞毛,傳蘋果OpenAI瀕臨決裂

      頭條要聞

      媒體:特朗普訪華舉世矚目 又一次使用“最高級用語”

      頭條要聞

      媒體:特朗普訪華舉世矚目 又一次使用“最高級用語”

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛回應住男生單人間:女孩的配得感

      財經要聞

      特朗普的北京時刻

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      本地
      游戲
      健康
      房產
      時尚

      本地新聞

      用蘇繡的方式,打開江西婺源

      《極限競速:地平線6》評測9分:英國人遞上的日本汽車文化名片

      專家揭秘干細胞回輸的安全風險

      房產要聞

      海南樓市新政要出!擬調公積金貸款額度,最高可貸168萬!

      看《給阿嬤的情書》,帶紙巾,別帶懂王

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 妖精视频亚州无吗高清版| 国产不卡在线拍揄自揄| 午夜色无码大片在线观看免费| 中文字幕av无码免费一区| 欧美精品在线观看| 丁香五月天亚洲综合4438网| 最新国语自产精品视频在| 亚洲一区二区美女| 蜜桃av蜜臀av色欲av麻| 久国产精品久久精品国产四虎 | 波多野结衣系列18部无码观看A| 亚洲伊人久久综合网站| 精品人妻少妇一区二区三区在线| 婷婷色av| 亚洲精品一区二区三区四区五区| 亚洲裤袜@熟女HD| 激情六月丁香婷婷四房播| 男人边做边吃奶头视频| 超碰AV在线| 国产制服丝袜亚洲日本在线| yjizz视频网站在线观看| 国产三级a| 久久人妻av一区二区软件| 麻豆国产| 人妻体内射精一区二区三四| 亚洲色www成人永久网址| 中文字幕无码传媒| 97人妻熟女成人免费视频色戒| 久艹在线| 欧美视频二区欧美影视| 精品乱码一区二区三四五区| 永久黄网站色视频免费| 波多野结衣美乳人妻hd电影欧美 | 国产短视频精品区第一页| 亚洲自拍偷拍一区| 国产大学生粉嫩无套流白浆| 先锋影音最新色资源站| 四虎国产精品成人影院| 亚洲欧洲成人av每日更新| 福利小导航| 特级欧美成人性a片|