網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek V4省73%算力中國(guó)AI走出第二條路

2026-05-05 10:18:56　來(lái)源: BT財(cái)經(jīng)

天津舉報(bào)

分享至

2026年4月，DeepSeek發(fā)布了V4版本。

總參數(shù)1.6T，激活參數(shù)49B，首次將百萬(wàn)token上下文做到了"標(biāo)配"。Agent Coding交付質(zhì)量按內(nèi)部評(píng)測(cè)，已經(jīng)接近Anthropic Claude Opus 4.6的非思考模式。技術(shù)圈刷屏，朋友圈刷屏。

大眾媒體的解讀集中在三件事上：

一是性能再上一檔，對(duì)標(biāo)海外頭部模型。二是開(kāi)源繼續(xù)，國(guó)產(chǎn)替代再下一城。三是API限時(shí)優(yōu)惠5月5日截止，緩存命中價(jià)格低到一杯咖啡都買不起。

但這次V4發(fā)布，最值得注意的，或許不是上面這些。

而是DeepSeek官方公告里的一行小字——"每token算力消耗僅為V3.2的27%"。

27%。換個(gè)說(shuō)法，新模型只用舊模型27%的算力，就能跑同樣規(guī)模的token。

"這有什么？不就是模型架構(gòu)升級(jí)，效率提升一些嗎？過(guò)去幾代模型都在做這件事。"

其實(shí)，不是的。

上一代V3.2是2025年9月發(fā)布的，到V4只過(guò)了半年。在僅僅半年里，把每token的算力消耗砍掉73%，幅度遠(yuǎn)高于行業(yè)平均。更關(guān)鍵的是，DeepSeek這次沒(méi)有等英偉達(dá)B200、H200在國(guó)內(nèi)放量，沒(méi)有等更高級(jí)的進(jìn)口算力到位，而是選擇了一條幾乎反方向的路：在現(xiàn)有的算力規(guī)模上，讓模型自己學(xué)會(huì)"省"。

這中間，發(fā)生了什么？

老規(guī)矩，我爭(zhēng)取用一篇文章，幫你讀明白。

01 一個(gè)token的算力，到底是怎么花掉的？

要看懂"省了73%"是什么概念，得先看懂一個(gè)token的算力是怎么花掉的。

簡(jiǎn)單說(shuō)，大模型推理的成本主要由兩部分組成：

第一，參數(shù)計(jì)算。模型有多少參數(shù)，每生成一個(gè)token就要"過(guò)"多少次參數(shù)。GPT-4據(jù)傳是1.8T參數(shù)，Claude 4級(jí)別相近。DeepSeek V4總參數(shù)1.6T，但用了MoE（混合專家）架構(gòu)，每次只激活其中49B——也就是說(shuō)，1.6T參數(shù)里有1500B左右"待機(jī)"，每個(gè)token只過(guò)49B。

第二，KV緩存。模型生成每個(gè)token都要"記住"前文，前文越長(zhǎng)，需要緩存的數(shù)據(jù)越多。這部分緩存通常占用GPU顯存最多，也是百萬(wàn)token長(zhǎng)上下文的瓶頸所在。

換一個(gè)生活場(chǎng)景。

想象你給朋友講一個(gè)長(zhǎng)故事。講到第3萬(wàn)字時(shí)，你需要回憶前面提過(guò)的人名、地點(diǎn)、時(shí)間、伏筆——這些就是"KV緩存"。如果你能整理出一個(gè)簡(jiǎn)潔的"故事梗概+人物關(guān)系圖"，把30000字壓縮成5000字摘要，你的"工作內(nèi)存"就輕了。

再換一個(gè)工作場(chǎng)景。

你做一份PPT，每翻一頁(yè)都要回看前面的邏輯鏈。如果你只翻"標(biāo)題頁(yè)+關(guān)鍵圖表頁(yè)"就能記住整體節(jié)奏，你的效率會(huì)高得多。

DeepSeek V4做的，就是這件事。1.6T參數(shù)+百萬(wàn)上下文，KV緩存占用降到了10%——把"故事梗概+關(guān)鍵頁(yè)"做到了極致。

02 DeepSeek為什么必須省，而不是必須快？

全球AI實(shí)驗(yàn)室都在做模型架構(gòu)優(yōu)化。但路徑有兩條。

第一條是"做更聰明的模型"。OpenAI、Anthropic走的是這條——參數(shù)更大、推理鏈更長(zhǎng)、Agent能力更強(qiáng)。前提是算力管夠，至少能用上H200/B200級(jí)別的最新GPU。

第二條是"在現(xiàn)有算力上做更高效的模型"。DeepSeek走的是這條——把每token的成本壓到極低，讓模型在已有的硬件上跑出最大產(chǎn)出。

這不是一道"哪條路更聰明"的題，而是"哪條路更現(xiàn)實(shí)"的題。

過(guò)去兩年，英偉達(dá)對(duì)中國(guó)市場(chǎng)的特供版從H800、H20一路降配，到2026年初才有限度地恢復(fù)部分供應(yīng)。中國(guó)AI廠商面對(duì)的問(wèn)題，不是"用最先進(jìn)的算力做最強(qiáng)的模型"，而是"用受限的算力做最有用的模型"。

回到DeepSeek。它的訓(xùn)練和推理，絕大多數(shù)跑在國(guó)產(chǎn)算力（華為昇騰系列）+少量H800/H20混合集群上。在這種條件下，"每token消耗減少73%"翻譯過(guò)來(lái)就是：同樣的國(guó)產(chǎn)卡集群，可以跑3倍以上的請(qǐng)求量。

——這是用算法的進(jìn)步，去補(bǔ)硬件的代差。

03 昇騰950PR，能不能接得住？

5月初，華為給了第二個(gè)動(dòng)作。

華為昇騰950PR，基于中芯國(guó)際7nm工藝，單卡推理算力較英偉達(dá)對(duì)華特供版H20提升約2.87倍。采購(gòu)價(jià)為H200的1/3至1/4。阿里、字節(jié)、騰訊已下數(shù)十萬(wàn)顆訂單。中國(guó)移動(dòng)2026-2027年AI超節(jié)點(diǎn)采購(gòu)20.6億元，全線華為CANN生態(tài)。

華為徐直軍2025年9月規(guī)劃的產(chǎn)品序列依次是：950PR、950DT、960、970。950PR負(fù)責(zé)推理Prefill階段，950DT針對(duì)訓(xùn)練優(yōu)化。

這兩件事——DeepSeek把每token算力壓到27%、華為把單卡算力翻到H20的2.87倍——放在一起，是一道很簡(jiǎn)單的乘法。

如果說(shuō)V3.2時(shí)代每張H20卡只能服務(wù)X個(gè)并發(fā)請(qǐng)求，到V4時(shí)代+昇騰950PR時(shí)代，同樣的卡數(shù)能服務(wù)的并發(fā)請(qǐng)求數(shù)變成了：X × (1/27%) × 2.87 ≈ 10.6X。

◆ DeepSeek V4：總參數(shù)1.6T，激活49B，每token算力消耗為V3.2的27%（來(lái)源：DeepSeek官方，2026年4月）

◆ DeepSeek V4：KV緩存占用降至10%，百萬(wàn)token上下文標(biāo)配（來(lái)源：DeepSeek技術(shù)文檔）

◆ 華為昇騰950PR：?jiǎn)慰ㄍ评硭懔^H20提升約2.87倍，采購(gòu)價(jià)為H200的1/3至1/4（來(lái)源：華為公開(kāi)資料）

◆ Atlas 950 SuperPoD：8192張950昇騰加速卡，160機(jī)柜規(guī)模，2026年Q4上市（來(lái)源：華為）

◆ 中國(guó)移動(dòng)AI超節(jié)點(diǎn)采購(gòu)：20.6億元，全線華為CANN生態(tài)（來(lái)源：中國(guó)移動(dòng)招標(biāo)公告）

◆ OpenRouter數(shù)據(jù)：2026年3月30日-4月5日，中國(guó)AI模型周調(diào)用量12.96萬(wàn)億token，是美國(guó)的4.3倍

一張卡的能力漲2.87倍，每token的成本降至27%。疊加之后，原本"3張H200才能服務(wù)的請(qǐng)求"，現(xiàn)在"1張昇騰950PR + DeepSeek V4"就能服務(wù)。

代差被悄悄補(bǔ)回了一截。

04 可帶走資產(chǎn)：硬件代差 × 軟件優(yōu)化 = 有效算力

有效算力 = 單卡硬件能力 × 算法效率

這個(gè)乘數(shù)公式是看懂中國(guó)AI產(chǎn)業(yè)過(guò)去三年和未來(lái)三年的鑰匙。當(dāng)硬件被卡脖子（左側(cè)因子下降），算法的提升（右側(cè)因子放大）可以部分補(bǔ)回；當(dāng)算法到了極限（右側(cè)因子收斂），硬件的釋放（左側(cè)因子放大）就成了下一階段的關(guān)鍵。一頭被壓住，可以靠另一頭補(bǔ)；兩頭同時(shí)打開(kāi)，就是產(chǎn)業(yè)拐點(diǎn)。

這個(gè)乘數(shù)模型，可以解釋過(guò)去三年中國(guó)AI產(chǎn)業(yè)的幾乎所有大事件。

一是2024年初DeepSeek V2發(fā)布。當(dāng)時(shí)英偉達(dá)對(duì)華制裁剛剛收緊，左側(cè)因子（單卡能力）被壓低。DeepSeek用MoE+架構(gòu)創(chuàng)新拉高右側(cè)因子（算法效率），有效算力得到部分補(bǔ)償。

二是2024年底DeepSeek V3發(fā)布震動(dòng)硅谷。同一規(guī)模的訓(xùn)練成本只有同行約1/10，本質(zhì)上是右側(cè)因子（算法效率）的另一次跳躍。

三是2026年4月V4發(fā)布+昇騰950PR路線圖明確。兩邊因子同時(shí)打開(kāi)——算法效率再降73%（V4），單卡能力漲到H20的2.87倍（950PR）——一道乘法把"有效算力"拉到一個(gè)新臺(tái)階。

05 這個(gè)公式，怎么用在你不太熟的地方？

這個(gè)乘數(shù)公式不只是講AI的。

換一個(gè)最普通的家用場(chǎng)景。

你在租房，月租3000元（硬件預(yù)算被卡）。但你愿意花兩個(gè)周末把家里收納系統(tǒng)重做一遍——把雜物分門(mén)別類、把垂直空間用滿、把不常用的東西歸到儲(chǔ)物間——結(jié)果是同樣3000元的房子，住起來(lái)體驗(yàn)有6000元的水平。這就是"每平米實(shí)用面積"的算法優(yōu)化。

再換一個(gè)工作場(chǎng)景。

你的團(tuán)隊(duì)預(yù)算有限，無(wú)法增加2個(gè)工程師（硬件被卡）。但你引入了AI輔助代碼評(píng)審、把重復(fù)勞動(dòng)自動(dòng)化、讓每個(gè)工程師從一周寫(xiě)3個(gè)feature變成一周寫(xiě)7個(gè)feature——同樣5個(gè)人的團(tuán)隊(duì)，產(chǎn)出是10個(gè)人的。這就是"每個(gè)工位的有效產(chǎn)出"的算法優(yōu)化。

回到DeepSeek。

華為昇騰950PR單卡能力是H20的2.87倍，但仍然不及H200。中國(guó)AI實(shí)驗(yàn)室沒(méi)法等"和H200一樣的卡"放進(jìn)國(guó)產(chǎn)服務(wù)器，那是2027-2028年的事。怎么辦？把V3.2的算力消耗砍到27%，讓同樣的卡多干3倍的活。

這是一道完全相同的題。

——硬件被卡，算法補(bǔ)回；算法收斂，硬件放開(kāi)。

06 為什么這是"通關(guān)券"，不只是"省錢(qián)"？

如果只是"省錢(qián)"，DeepSeek V4也就是一次尋常的產(chǎn)品迭代。

但"省73%"在2026年這個(gè)時(shí)間點(diǎn)，意義遠(yuǎn)不止省錢(qián)。

OpenRouter公開(kāi)數(shù)據(jù)顯示，2026年3月30日至4月5日的一周，中國(guó)AI模型的總調(diào)用量達(dá)到12.96萬(wàn)億token，是美國(guó)同期的4.3倍。

這個(gè)數(shù)字第一次出現(xiàn)時(shí)，硅谷許多人不相信。

但只要把"有效算力 = 單卡硬件能力 × 算法效率"這個(gè)公式套進(jìn)去，就能解釋——美國(guó)靠左側(cè)因子（最強(qiáng)GPU）跑出大基數(shù)，中國(guó)靠右側(cè)因子（最優(yōu)化的算法+開(kāi)源生態(tài)）拉出大乘數(shù)。兩條路徑匯合，就形成了"調(diào)用量上中國(guó)是美國(guó)4.3倍"的奇觀。

對(duì)開(kāi)發(fā)者而言，DeepSeek API限時(shí)優(yōu)惠的價(jià)格已經(jīng)讓"做應(yīng)用"的門(mén)檻降到極低——Pro 2.5折，F(xiàn)lash緩存命中0.02元/百萬(wàn)tokens。這意味著任何一個(gè)獨(dú)立開(kāi)發(fā)者，可以在一個(gè)咖啡的錢(qián)里，跑出一個(gè)完整的應(yīng)用Demo。

對(duì)企業(yè)而言，"昇騰950PR + V4"組合讓"私有化部署一個(gè)大模型"從"采購(gòu)3000萬(wàn)一套"降到"采購(gòu)1000萬(wàn)一套"。中型企業(yè)第一次有能力把大模型部署在自己的機(jī)房里。

07 你以為的"國(guó)產(chǎn)替代"，可能是個(gè)誤會(huì)

講到這里，需要糾正一個(gè)常見(jiàn)的理解。

許多讀者把"DeepSeek+昇騰"理解為"國(guó)產(chǎn)替代英偉達(dá)+OpenAI"。但這個(gè)表達(dá)，可能稀釋了真正發(fā)生的事情。

真正的事情是：中國(guó)AI找到了一條不必跟著英偉達(dá)走的路。

過(guò)去十年，全球AI產(chǎn)業(yè)的算力霸權(quán)由英偉達(dá)定義。"想做更大的模型，就要更多的H100/H200"是默認(rèn)前提。所有國(guó)家、所有公司都在這條路上跑。

"算法補(bǔ)硬件"不是替代，而是繞開(kāi)。

用更高效的算法+開(kāi)源生態(tài)+受限但夠用的硬件，跑出和"無(wú)限堆卡"路線相近的產(chǎn)業(yè)產(chǎn)出。這條路的價(jià)值不在于"我們也有H200"，而在于"我們不需要等H200才能往前走"。

它的代價(jià)是中國(guó)AI實(shí)驗(yàn)室必須比美國(guó)同行做得更聰明、更精細(xì)。它的紅利是中國(guó)可以在被卡脖子的環(huán)境里，仍然做出全球級(jí)別的產(chǎn)品。

引DeepSeek官方在V4發(fā)布說(shuō)明里引用的那句《荀子·非十二子》——"不誘于譽(yù)，不恐于誹，率道而行，端然正己"。

08 產(chǎn)業(yè)鏈的真實(shí)位置：昇騰、CANN、A股

這條路徑上的產(chǎn)業(yè)鏈，正在被重新定價(jià)。

4月27日A股半導(dǎo)體板塊爆發(fā)：覆銅板指數(shù)+5.82%、半導(dǎo)體設(shè)備+5.68%、GPU+3.91%。芯源微+17.81%、富創(chuàng)精密+16.03%、長(zhǎng)川科技+10.77%。這一輪上漲的邏輯，正是市場(chǎng)對(duì)"國(guó)產(chǎn)算力放量+下游模型放量"雙向定價(jià)的反應(yīng)。

華為Atlas 950 SuperPoD（8192張950昇騰加速卡）將于2026年Q4上市。和英偉達(dá)NVL144對(duì)照——卡規(guī)模56.8倍、總算力6.7倍、內(nèi)存容量15倍——這是"超節(jié)點(diǎn)"級(jí)別的算力堆疊。

中國(guó)信通院已啟動(dòng)DeepSeek-V4國(guó)產(chǎn)化適配測(cè)試。這個(gè)測(cè)試的結(jié)果，會(huì)直接影響到"昇騰+DeepSeek"組合在2026年下半年的政企招標(biāo)中的滲透率。

Bernstein預(yù)測(cè)，2026年華為昇騰為首的國(guó)產(chǎn)AI芯片市占率有望首次超過(guò)50%。這是一個(gè)"硬件代差被算法部分補(bǔ)回"之后的結(jié)果。

09 最后的話

我做完這次研究，有這么幾條收獲，供你參考。

一，硬件代差不是世界末日。任何一項(xiàng)硬件被卡的產(chǎn)業(yè)，都可以用"算法/工藝/流程"上的進(jìn)步去部分補(bǔ)償。補(bǔ)償?shù)拇鷥r(jià)是必須做得更聰明，紅利是不依賴外部供給。

二，AI產(chǎn)業(yè)的護(hù)城河不是"最強(qiáng)模型"，是"硬件×算法的乘數(shù)"。當(dāng)你看一家AI公司是否有長(zhǎng)期價(jià)值，不要只看它的模型在某個(gè)榜單上是第幾名，要看它在"既定硬件條件"下的有效算力是多少。

三，開(kāi)源生態(tài)在算力受限的環(huán)境里，比閉源生態(tài)更有價(jià)值。DeepSeek之所以能成為這一輪中國(guó)AI的代表，不僅是因?yàn)樗哪Ｐ秃茫驗(yàn)樗涯Ｐ烷_(kāi)源出來(lái)，讓整個(gè)生態(tài)的"右側(cè)因子"被反復(fù)推高。

當(dāng)然，現(xiàn)實(shí)沒(méi)有這么簡(jiǎn)單。"每token降到27%"是模型在內(nèi)部測(cè)試的數(shù)據(jù)，實(shí)際部署中受任務(wù)類型、緩存命中率、并發(fā)量影響，差異會(huì)很大。"昇騰950PR的2.87倍"是單卡推理算力，訓(xùn)練側(cè)的差距仍在。中國(guó)AI追趕英偉達(dá)和OpenAI的路，不會(huì)是一條直線。

V4比V3.2節(jié)省73%算力——這看起來(lái)是技術(shù)細(xì)節(jié)，實(shí)際上是中國(guó)AI拿到的最重要的一張通關(guān)券。

但有一件事是清楚的：當(dāng)一個(gè)產(chǎn)業(yè)被告知"用最差的硬件做最好的產(chǎn)品"時(shí)，能做到的國(guó)家不多。中國(guó)是其中一個(gè)。

DeepSeek官方公告里的那行小字，藏著的就是這件事。

免責(zé)聲明

本文僅為信息分享與行業(yè)分析，不構(gòu)成任何投資建議、投資分析意見(jiàn)或交易邀約。市場(chǎng)有風(fēng)險(xiǎn)，投資需謹(jǐn)慎。任何人依據(jù)本文內(nèi)容作出的投資決策，風(fēng)險(xiǎn)與盈虧自行承擔(dān)，作者及發(fā)布平臺(tái)不承擔(dān)任何法律責(zé)任。

主要信源

1. DeepSeek官方公告，《DeepSeek V4模型發(fā)布說(shuō)明》，2026年4月

2. DeepSeek API限時(shí)優(yōu)惠公告，2026年4月-5月，截至2026年5月5日

3. 華為公司公開(kāi)資料，《昇騰AI芯片產(chǎn)品路線圖》，徐直軍，2025年9月

4. 華為Atlas 950 SuperPoD技術(shù)規(guī)格，2026年公開(kāi)發(fā)布

5. 中國(guó)移動(dòng)招標(biāo)公告，2026-2027年AI超節(jié)點(diǎn)采購(gòu)，20.6億元

6. OpenRouter公開(kāi)數(shù)據(jù)，2026年3月30日-4月5日全球AI模型調(diào)用量統(tǒng)計(jì)

7. A股半導(dǎo)體板塊行情數(shù)據(jù)，2026年4月27日盤(pán)面，公開(kāi)市場(chǎng)數(shù)據(jù)

8. Bernstein研究報(bào)告，2026年中國(guó)AI芯片市占率預(yù)測(cè)，2026年初發(fā)布

9. 中國(guó)信通院公開(kāi)信息，DeepSeek-V4國(guó)產(chǎn)化適配測(cè)試啟動(dòng)消息

聲明：內(nèi)容由AI生成

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.