網易首頁 > 網易號 > 正文申請入駐

DeepSeek，V4適配昇騰，百萬token引黃仁勛驚嘆

2026-04-29 04:48:39　來源: 往事我敬你一杯酒人

四川舉報

分享至

要理解V4，得先看V3的底子。2024年底，行業還在信奉“參數越大越強”，訓練千億模型動輒千萬美元。DeepSeek V3用MoE架構（就像公司只讓最擅長的部門干活），把6710億總參數的訓練成本壓到500萬出頭，靠的是把每一分算力都榨干。

V4直接把這條路走到極致：總參數躍升到1.6萬億，注意力機制升級成DSA2，每層384個專家只激活6個，殘差連接用Hyper-Connections。但最炸的不是參數，是它從英偉達生態徹底轉到了華為昇騰芯片上。

這不是換個驅動那么簡單——之前DeepSeek R1對英偉達PTX底層優化到骨髓，那是它“花小錢辦大事”的核心。轉到昇騰后，所有底層代碼、調度邏輯全得重寫！昇騰的帶寬、CANN框架成熟度不如CUDA，跨節點擴展還得靠光模塊，延遲和同步開銷都大。工程師花了整整15個月才搞定，原計劃春節發布硬是拖到4月。

黃仁勛的話點破了關鍵：“這對美國是糟糕的結果”。一旦頂級模型在國產硬件跑通，英偉達的護城河就真的要破了。DeepSeek官方明確說，V4下半年會正式支持華為算力——這步棋，直接捅破了“AI必須依賴美國芯片”的窗戶紙。

架構優化最終要落地到成本上。過去一年，AI行業的痛點已經從“訓得出”變成“用得起”——2026年中國日均Token調用量突破140萬億，推理成本成了命門。

V4在推理端砍了兩刀：一是DSA2稀疏注意力，直接壓縮Token維度，計算和顯存需求大降；二是支持FP4精度，顯存要求比FP8再降一半。路透社推算，V4每個Token僅激活370億參數，推理成本和V3持平——參數量翻了一倍，成本卻沒漲！這意味著企業和創業者不用加預算，就能用上更大的模型。

V4發布時，牌桌早就變了天。大廠們動作密集到每周都有新東西。云廠商也從“押獨苗”變成“模型超市”，把各家模型放一個平臺分發——掌握渠道比單一技術優勢更賺錢。而DeepSeek面臨的局面更復雜：Agent賽道火到Token消耗指數級增長，智譜、MiniMax靠API調用悶聲發財，甚至轉向閉源。

大模型賽道最殘酷的是，你得在飛馳的列車上換輪子——停三個月就可能出局。DeepSeek停了15個月，現在亮出的牌是王炸嗎？

DeepSeek V3改變了訓練成本的基線，V4則把刀砍向了推理端和硬件生態。它用萬億模型證明：國產算力也能跑頂級AI，開源能把“水電煤”的價格壓到地板上。

黃仁勛的焦慮不是沒道理——當中國的AI模型不再依賴英偉達芯片，美國的技術壟斷就少了一塊重要的拼圖。而對行業來說，V4的開源相當于給所有玩家遞了一把鑰匙：不管是大廠還是中小團隊，都能站在萬億模型的肩膀上創新。

最后問一句：你覺得DeepSeek這次的V4能打破英偉達的壟斷嗎？國產大模型的下一個突破口會在哪里？評論區聊聊你的看法，也別忘了點贊收藏，讓更多人看到國產AI的硬實力！

聲明：個人原創，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.