<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      DeepSeek-V4:華為昇騰適配、性價(jià)比王者、最新底層技術(shù)

      0
      分享至


      交付質(zhì)量接近 Opus 4.6 非思考模式,與思考模式存在一定差距。

      作者丨梁丙鑒

      編輯丨馬曉寧

      越過數(shù)個(gè)發(fā)布窗口,4 月 24 日,DeepSeek 最新一代旗艦?zāi)P?DeepSeek-V4 終于正式發(fā)布。

      此次發(fā)布的 DeepSeek-V4 主打百萬字超長上下文,在 Agent 能力、世界知識(shí)和推理性能上均表現(xiàn)亮眼。有意思的是,4 月 8 日凌晨 DeepSeek 悄然上線了專家模式和快速模式,外界一度猜測是 V4 的不同版本。這一猜測得到了官方確認(rèn),按參數(shù)量大小,V4 此次同步推出了 pro 及 flash 兩個(gè)版本。


      相較于前代模型,V4 的 Agent 能力有了大幅提高。DeepSeek-V4-Pro 在 Agentic Coding 評(píng)測中,已達(dá)到當(dāng)前開源模型最佳水平,且在其它 Agent 相關(guān)評(píng)測中同樣表現(xiàn)優(yōu)異。DeepSeek 內(nèi)部評(píng)測反饋顯示,DeepSeek-V4-Pro 使用體驗(yàn)優(yōu)于 Sonnet 4.5,交付質(zhì)量接近 Opus 4.6 非思考模式,但仍與 Opus 4.6 思考模式存在一定差距。

      此外在 SimpleQA Verified、HLE 等知識(shí)推理類基準(zhǔn)測試中,DeepSeek V4 的表現(xiàn)均居于前列,特別是在ApexShortlist、Codeforces 兩項(xiàng)測試中分別以 90.2 和 3206 的成績登頂,表現(xiàn)出了頂級(jí)的推理性能和世界知識(shí)儲(chǔ)備。


      價(jià)格方面,pro 版本和 flash 版本采取了階梯定價(jià)。更小更快的 flash 版本繼承了前代模型便宜大碗路線的,同時(shí) pro 版本的降價(jià)也被官方排上日程,預(yù)計(jì)會(huì)隨著今年下半年昇騰 950 超節(jié)點(diǎn)的批量上市實(shí)現(xiàn)大幅下調(diào)。


      值得注意的是,DeepSeek-V4 針對(duì)昇騰等國產(chǎn)芯片進(jìn)行了深度適配,實(shí)現(xiàn)推理環(huán)節(jié)全面兼容,有傳聞稱利用率可達(dá) 85% 以上。而據(jù)路透社報(bào)道,此前 DeepSeek 也拒絕向包括英偉達(dá)在內(nèi)的美國芯片制造商提供 V4 模型的早期訪問權(quán)限。

      在美國對(duì)華出臺(tái)高端 GPU 禁令、限制技術(shù)交流的背景下,DeepSeek 選擇以技術(shù)對(duì)等的姿態(tài)回應(yīng),和美方的脫鉤構(gòu)成了一種有趣的鏡像關(guān)系。而回到國內(nèi),DeepSeek-V4 的背書證明了國產(chǎn)芯片足以支持第一梯隊(duì)大模型的推理部署,開始完成從“可用”到“好用”的跨越。同時(shí)被國產(chǎn)算力托住的 V4,也或可視為一個(gè)備戰(zhàn)“全華班模型生態(tài)”的起點(diǎn)。

      01


      架構(gòu)創(chuàng)新,破解模型推理“不可能三角”

      DeepSeek-V4 的上下文窗口跨越式地來到了 100 萬 Token 大關(guān),并宣稱這此后將是 DeepSeek 所有官方服務(wù)的標(biāo)配。

      據(jù)官方技術(shù)文檔介紹,這種長文本能力的成熟源于 DeepSeek 開創(chuàng)的一種全新注意力機(jī)制,在 token 維度進(jìn)行壓縮,結(jié)合 DSA 稀疏注意力(DeepSeek Sparse Attention),此舉不僅實(shí)現(xiàn)了全球領(lǐng)先的長上下文能力,并且相比于傳統(tǒng)方法大幅降低了對(duì)計(jì)算和顯存的需求。


      DeepSeek 對(duì)長文本能力的探索早有跡象。在 V4 遲遲沒有問世的時(shí)間里,DeepSeek 低調(diào)發(fā)布的兩篇論文《mHC: Manifold-Constrained Hyper-Connections》,和兩周以后緊隨其后的《Engram: Conditional Memory via Scalable Lookup》,被外界視為其在長文本方面的有力技術(shù)儲(chǔ)備。

      在長文本推理任務(wù)中,大模型長期存在著成本、速度、精度的不可能三角,但 Engram 架構(gòu)提供了一種破局思路。該架構(gòu)包含一個(gè)靜態(tài)知識(shí)檢索模塊,和一個(gè)動(dòng)態(tài)推理協(xié)同模塊,前者通過哈希查找機(jī)制,將事實(shí)性知識(shí)存儲(chǔ)在廉價(jià)的 CPU 內(nèi)存中,節(jié)省了對(duì)推理尤其寶貴的 GPU 顯存,后者負(fù)責(zé)判斷檢索到的記憶是否應(yīng)該調(diào)用,并在必要時(shí)將其無縫融入推理過程。

      這種設(shè)計(jì)的本質(zhì)是將模型的記憶和計(jì)算分離,通過對(duì)信息存儲(chǔ)進(jìn)行更精細(xì)的分層管理,使大模型能用上廉價(jià)、大容量的 CPU 內(nèi)容,并確保 GPU 顯存“好鋼用在刀刃上”,在其擅長的動(dòng)態(tài)并行計(jì)算中發(fā)揮出更大價(jià)值,最終在降低計(jì)算成本的同時(shí)保證關(guān)鍵信息不會(huì)丟失。其結(jié)果是當(dāng) MoE 的“專家”們?cè)龠M(jìn)行推理時(shí),會(huì)像是配備了一位專門的助理,確保他們得到的信息及時(shí)、相關(guān)且準(zhǔn)確。

      DeepSeek-V4 的另一項(xiàng)底層創(chuàng)新,是其在訓(xùn)練中使用 的 mHC(流形約束超連接)技術(shù)。

      V4 的參數(shù)總量達(dá)到了 1.6T,這種超大規(guī)模的神經(jīng)網(wǎng)絡(luò)訓(xùn)練,本身就是一個(gè)富于挑戰(zhàn)的問題。傳統(tǒng)的 Transformer 架構(gòu)中,信息會(huì)在層層傳遞中呈指數(shù)級(jí)放大,模型參數(shù)量越大、層數(shù)越深,這種“信號(hào)爆炸”越嚴(yán)重,最終可能導(dǎo)致梯度爆炸,訓(xùn)練崩潰。

      mHC 技術(shù)正是為解決“信號(hào)爆炸”現(xiàn)象提出,其核心思想是用嚴(yán)格的幾何約束來控制信息流動(dòng),而不是放任自由連接。

      這個(gè)防爆設(shè)計(jì)由三個(gè)環(huán)節(jié)組成。流形約束會(huì)把層間連接矩陣投影到雙隨機(jī)矩陣流形,強(qiáng)制規(guī)定每個(gè)節(jié)點(diǎn)的"輸入總和"和"輸出總和"必須守恒,具體的投影過程通過 Sinkhorn-Knopp 算法執(zhí)行,兩者共同把信號(hào)增益嚴(yán)格限制在合理倍數(shù)。最后的多流殘差設(shè)計(jì)在擴(kuò)展殘差流寬度的同時(shí),通過非負(fù)約束避免信號(hào)相互抵消,既能增強(qiáng)模型表達(dá)能力,又兼顧了復(fù)雜度和穩(wěn)定性。

      想象信息是一條奔騰的大河,多流殘差拓寬了河道,流形約束和 Sinkhorn-Knopp 算法就是一道道閘門,三者的配合保證了大規(guī)模訓(xùn)練時(shí)的信息洪流不會(huì)引發(fā)梯度爆炸。

      而 mHC 技術(shù)更深刻的意義在于,它和 MoE 架構(gòu)、Engram 架構(gòu)等技術(shù)共同為后 Scaling Law 時(shí)代的大模型擴(kuò)展提供了一種可能的范式,也就是在參數(shù)規(guī)模、數(shù)據(jù)量的傳統(tǒng)維度之外,轉(zhuǎn)向追求更高的連接、參數(shù)和記憶效率。區(qū)別于前者的暴力美學(xué),DeepSeek-V4 呈現(xiàn)了精致工程的魔力。

      02


      模型之爭的工程轉(zhuǎn)向

      用流形約束防止信號(hào)爆炸的架構(gòu)理論創(chuàng)新得以落地,離不開算子融合、選擇性重計(jì)算、通信重疊等工程手段。參數(shù)量和穩(wěn)定性之間的沖突曾經(jīng)是制約大模型繼續(xù)擴(kuò)展的根本矛盾,而 mHC 技術(shù)對(duì)此的突破,建立在頂級(jí)的工程優(yōu)化之上。

      Engram 架構(gòu)也有著類似的啟示。內(nèi)存訪問如何精準(zhǔn)配合 GPU 的計(jì)算過程,多級(jí)緩存需要什么樣的精細(xì)管理……Engram 架構(gòu)在 V4 上落地伴隨的種種工程挑戰(zhàn),才是底層技術(shù)創(chuàng)新能否轉(zhuǎn)化為模型能力關(guān)鍵。

      智能的使用應(yīng)有其邊界,記憶管理的精細(xì)程度直接影響模型性能,這一范式重新詮釋了對(duì)智能上限的追求。未來最聰明的模型,或許是最經(jīng)濟(jì)地界定了智能使用邊界的模型。

      DeepSeek-V4 問世之后,我們和應(yīng)用爆發(fā)之間的距離或許又近了一大步。

      原生多模態(tài)架構(gòu)、百萬 Token 上下文窗口紛紛走向成熟,背后是代碼、法律和金融等場景的巨大想象空間。而 V4 所展現(xiàn)的頂級(jí)工程能力,和模型智能迭代逐漸放緩的背景合流,更便宜、可得的智能產(chǎn)品也會(huì)不斷涌現(xiàn)。

      未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

      公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      白雨露創(chuàng)紀(jì)錄!轟世錦賽個(gè)人最高分,提前1輪獲小組第1,晉級(jí)32強(qiáng)

      白雨露創(chuàng)紀(jì)錄!轟世錦賽個(gè)人最高分,提前1輪獲小組第1,晉級(jí)32強(qiáng)

      劉姚堯的文字城堡
      2026-05-15 07:28:53
      怒懟迪士尼優(yōu)速通的男子,最大問題是沒有認(rèn)清自己的社會(huì)底層身份

      怒懟迪士尼優(yōu)速通的男子,最大問題是沒有認(rèn)清自己的社會(huì)底層身份

      北歐模式
      2026-05-15 19:40:51
      韋東奕換了個(gè)發(fā)型和手袋,網(wǎng)友就吵翻了,張益唐9個(gè)月前就說準(zhǔn)了

      韋東奕換了個(gè)發(fā)型和手袋,網(wǎng)友就吵翻了,張益唐9個(gè)月前就說準(zhǔn)了

      草莓解說體育
      2026-05-16 01:18:20
      昨晚,世界聽到“第一聲槍響”金融風(fēng)暴已悄然蓄力

      昨晚,世界聽到“第一聲槍響”金融風(fēng)暴已悄然蓄力

      魏家東
      2026-05-15 14:14:14
      【舊事】鄧麗君真正死因:控制不了自己,到時(shí)候就會(huì)“欲罷不能”

      【舊事】鄧麗君真正死因:控制不了自己,到時(shí)候就會(huì)“欲罷不能”

      年之父
      2026-05-09 04:05:03
      邵佳一親眼目睹成都蓉城9連勝:3名球員成今晚最大驚喜!

      邵佳一親眼目睹成都蓉城9連勝:3名球員成今晚最大驚喜!

      邱澤云
      2026-05-15 23:07:20
      沙媒:大阪鋼巴似乎不適應(yīng)沙特的干旱天氣,這也許對(duì)勝利是利好

      沙媒:大阪鋼巴似乎不適應(yīng)沙特的干旱天氣,這也許對(duì)勝利是利好

      懂球帝
      2026-05-16 00:45:08
      民進(jìn)黨,極有可能在下一屆臺(tái)灣地區(qū)選舉后,成為長期一家獨(dú)大政黨

      民進(jìn)黨,極有可能在下一屆臺(tái)灣地區(qū)選舉后,成為長期一家獨(dú)大政黨

      李橑在北漂
      2026-04-02 10:22:26
      Anthropic推出終端AI編程工具:能讀整個(gè)代碼庫

      Anthropic推出終端AI編程工具:能讀整個(gè)代碼庫

      算力游俠
      2026-05-15 01:12:40
      勇士被曝放棄巴特勒 4隊(duì)交易換兩屆FMVP

      勇士被曝放棄巴特勒 4隊(duì)交易換兩屆FMVP

      元?dú)鉂M分吖
      2026-05-16 01:20:48
      表決結(jié)果出爐,53:39!傅崐萁反制后,卻做出讓步!鄭麗文出手了

      表決結(jié)果出爐,53:39!傅崐萁反制后,卻做出讓步!鄭麗文出手了

      娛樂的宅急便
      2026-05-15 18:31:54
      陪玩陪睡根本不夠!認(rèn)干爹、舔手指,背地里的陰暗面完全藏不住了

      陪玩陪睡根本不夠!認(rèn)干爹、舔手指,背地里的陰暗面完全藏不住了

      杰絲聊古今
      2026-05-03 13:35:27
      馬斯克幼子穿新中式炸屏!跨性別女兒破防了

      馬斯克幼子穿新中式炸屏!跨性別女兒破防了

      廣告案例精選
      2026-05-15 09:15:36
      今夜,美股大跌500點(diǎn),歐洲集體跳水,白銀暴跌9%!利率風(fēng)暴,席卷全球

      今夜,美股大跌500點(diǎn),歐洲集體跳水,白銀暴跌9%!利率風(fēng)暴,席卷全球

      中國基金報(bào)
      2026-05-16 00:19:39
      這就是張作霖年輕時(shí)的真實(shí)長相,比兒子張學(xué)良帥多了,罕見老照片

      這就是張作霖年輕時(shí)的真實(shí)長相,比兒子張學(xué)良帥多了,罕見老照片

      春秋硯
      2026-05-15 20:00:05
      女人等你泡她,會(huì)露出這三個(gè)行為,尤其有老公的女人 越明顯越真實(shí)

      女人等你泡她,會(huì)露出這三個(gè)行為,尤其有老公的女人 越明顯越真實(shí)

      風(fēng)起見你
      2026-05-16 00:24:33
      新款奔馳CLE上市 售價(jià)45.76-59.98萬元

      新款奔馳CLE上市 售價(jià)45.76-59.98萬元

      車質(zhì)網(wǎng)
      2026-05-15 12:51:58
      澤連斯基警告:俄軍一旦恢復(fù)大規(guī)模空襲,烏軍遠(yuǎn)程打擊將立刻重啟

      澤連斯基警告:俄軍一旦恢復(fù)大規(guī)模空襲,烏軍遠(yuǎn)程打擊將立刻重啟

      桂系007
      2026-05-11 04:50:35
      白人女性與黑人女性的體味差異,網(wǎng)友真實(shí)分享引發(fā)熱議

      白人女性與黑人女性的體味差異,網(wǎng)友真實(shí)分享引發(fā)熱議

      特約前排觀眾
      2025-12-22 00:20:06
      離婚時(shí)女兒選前妻,兒子選我,15年后女兒忽然聯(lián)系我,約我吃飯!

      離婚時(shí)女兒選前妻,兒子選我,15年后女兒忽然聯(lián)系我,約我吃飯!

      千秋文化
      2026-05-15 19:59:30
      2026-05-16 03:28:49
      AI科技評(píng)論 incentive-icons
      AI科技評(píng)論
      點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
      7280文章數(shù) 20751關(guān)注度
      往期回顧 全部

      科技要聞

      直降千元起步!蘋果華為率先開啟618讓利

      頭條要聞

      黃仁勛在北京喝豆汁痛苦皺眉 問“這是什么東西”

      頭條要聞

      黃仁勛在北京喝豆汁痛苦皺眉 問“這是什么東西”

      體育要聞

      德約科維奇買的球隊(duì),從第6級(jí)聯(lián)賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財(cái)經(jīng)要聞

      騰訊掉隊(duì),馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀(jì)錄 ID. Polo GTI迎全球首秀

      態(tài)度原創(chuàng)

      手機(jī)
      本地
      時(shí)尚
      教育
      公開課

      手機(jī)要聞

      iPhone 17系列全系跳水,最高立減2500!

      本地新聞

      用蘇繡的方式,打開江西婺源

      頂級(jí)團(tuán)隊(duì)拍出來的作品不如素人,問題出在哪兒了?

      教育要聞

      2027英國留學(xué)費(fèi)用+排名+雅思要求一篇看懂

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 中文亚洲爆乳av无码专区| 亚洲a电影| 狠狠操天天操| 男人添女人下部高潮全视频| 成人黄色在线| 加勒比中文字幕无码一区| 精品视频99| 玖玖365资源稳定资源站| 在线色国产| 五月色情网| 成人片黄网站色大片免费| 福利姬视频在线观看| 亚洲大尺度无码无码专线| 又大又粗又硬又爽黄毛少妇| 啪啪无码人妻丰满熟妇| 免费国产黄网站在线观看可以下载| 国产综合有码无码中文字幕| 日本一区二区精品色超碰| 亚洲精品第一| 中文字幕无码中文字幕有码| 久女女热精品视频在线观看| 午夜美女裸体福利视频| 香蕉视频在线观看黄| 欧美在线成人午夜网站| 国产,精品,无码,丝袜| 日本公妇乱偷中文字幕| 国产午夜成人无码免费看| 熟女中字在线| 国产AV无码专区亚洲AV漫画| 北碚区| 亚洲成人黄色| 亚洲国产精品综合一区二区| 亚洲色大成网站www国产| 国产成人一区二区不卡免费视频| 中文字幕久久人妻| 久久国产精品鲁丝片| 久久道精品一区二区三区| 精品玖玖| 永久免费av无码网站直播| 午夜成人性爽爽免费视频| 欧美顶级metart祼体全部自慰|