![]()
要理解V4,得先看V3的底子。2024年底,行業還在信奉“參數越大越強”,訓練千億模型動輒千萬美元。DeepSeek V3用MoE架構(就像公司只讓最擅長的部門干活),把6710億總參數的訓練成本壓到500萬出頭,靠的是把每一分算力都榨干。
V4直接把這條路走到極致:總參數躍升到1.6萬億,注意力機制升級成DSA2,每層384個專家只激活6個,殘差連接用Hyper-Connections。但最炸的不是參數,是它從英偉達生態徹底轉到了華為昇騰芯片上。
這不是換個驅動那么簡單——之前DeepSeek R1對英偉達PTX底層優化到骨髓,那是它“花小錢辦大事”的核心。轉到昇騰后,所有底層代碼、調度邏輯全得重寫!昇騰的帶寬、CANN框架成熟度不如CUDA,跨節點擴展還得靠光模塊,延遲和同步開銷都大。工程師花了整整15個月才搞定,原計劃春節發布硬是拖到4月。
黃仁勛的話點破了關鍵:“這對美國是糟糕的結果”。一旦頂級模型在國產硬件跑通,英偉達的護城河就真的要破了。DeepSeek官方明確說,V4下半年會正式支持華為算力——這步棋,直接捅破了“AI必須依賴美國芯片”的窗戶紙。
![]()
架構優化最終要落地到成本上。過去一年,AI行業的痛點已經從“訓得出”變成“用得起”——2026年中國日均Token調用量突破140萬億,推理成本成了命門。
V4在推理端砍了兩刀:一是DSA2稀疏注意力,直接壓縮Token維度,計算和顯存需求大降;二是支持FP4精度,顯存要求比FP8再降一半。路透社推算,V4每個Token僅激活370億參數,推理成本和V3持平——參數量翻了一倍,成本卻沒漲!這意味著企業和創業者不用加預算,就能用上更大的模型。
![]()
V4發布時,牌桌早就變了天。大廠們動作密集到每周都有新東西。云廠商也從“押獨苗”變成“模型超市”,把各家模型放一個平臺分發——掌握渠道比單一技術優勢更賺錢。而DeepSeek面臨的局面更復雜:Agent賽道火到Token消耗指數級增長,智譜、MiniMax靠API調用悶聲發財,甚至轉向閉源。
大模型賽道最殘酷的是,你得在飛馳的列車上換輪子——停三個月就可能出局。DeepSeek停了15個月,現在亮出的牌是王炸嗎?
![]()
DeepSeek V3改變了訓練成本的基線,V4則把刀砍向了推理端和硬件生態。它用萬億模型證明:國產算力也能跑頂級AI,開源能把“水電煤”的價格壓到地板上。
黃仁勛的焦慮不是沒道理——當中國的AI模型不再依賴英偉達芯片,美國的技術壟斷就少了一塊重要的拼圖。而對行業來說,V4的開源相當于給所有玩家遞了一把鑰匙:不管是大廠還是中小團隊,都能站在萬億模型的肩膀上創新。
最后問一句:你覺得DeepSeek這次的V4能打破英偉達的壟斷嗎?國產大模型的下一個突破口會在哪里?評論區聊聊你的看法,也別忘了點贊收藏,讓更多人看到國產AI的硬實力!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.