實(shí)測DeepSeekV4：天下武功，唯快不破

2026-04-25 10:11:10　來源: 人人都是產(chǎn)品經(jīng)理社區(qū)

廣東舉報

分享至

在Agent工作流成本滾雪球的當(dāng)下，V4選擇用"效率工程"而非"新物種"敘事?lián)螆觥５狈υ嗄B(tài)的短板，也讓這家估值沖刺200億美元的超級獨(dú)角獸，面臨從"模型強(qiáng)"到"商業(yè)系統(tǒng)穩(wěn)"的關(guān)鍵一躍。

———— / BEGIN / ————

“跳票”許久的DeepSeek-V4，終于來了。

昨天上午，DeepSeek-V4預(yù)覽版上線并開源。巧的是，幾乎同一天，OpenAI也推出了GPT-5.5。一個繼續(xù)講閉源生產(chǎn)力系統(tǒng)，一個繼續(xù)講開源、長上下文和低成本推理。中美AI產(chǎn)業(yè)中流量最大的兩家基模公司，在同一天相遇。

DeepSeek-V4分為Pro與Flash兩個版本，均支持百萬（1M）token超長上下文，總參數(shù)規(guī)模分別達(dá)到1.6T（激活49B）與284B（激活13B）。。

不過，相比起“1.6T參數(shù)”或者 “百萬token上下文”這兩個夸張數(shù)字，技術(shù)文檔里的兩個十位數(shù)更值得關(guān)注：27%和10%。

根據(jù)HuggingFace上V4系列的介紹，在100萬token上下文場景下，V4-Pro的單token推理FLOPs只有V3.2的27%，KVcache只有V3.2的10%。

翻譯成人話就是，在處理超長材料的場景下，V4不只是“能裝得下”，而且跑得更快、還更便宜。

這也許是是V4這次更新中最值得關(guān)注的地方。

過去半年，長上下文已經(jīng)成了頭部模型的共同賣點(diǎn)。Claude、Qwen、Kimi、GLM都在往長文本、代碼倉庫和Agent任務(wù)上走，DeepSeek這次把主線放在了長文本場景里最貴的部分：計算和緩存。

略顯遺憾的是，V4目前并沒有原生多模態(tài)功能，這會限制它在一些場景的發(fā)揮。

所以，V4的關(guān)鍵詞，并不是行業(yè)內(nèi)期盼已久的“新物種”，而是“效率工程”的再進(jìn)一步。

回顧過往也確實(shí)如此，DeepSeek這家公司，一直都不是那種“性感”產(chǎn)品的路線，在Token調(diào)用暴漲的海洋中，V4要撐起的，是這家超級獨(dú)角獸200億美元估值的野望。

更快，但是沒有原生多模態(tài)

身處2026年的今天，大模型支持長上下文已經(jīng)不稀奇。但是另一個問題也隨之而來：模型處理超長文本、超長鏈路的情況下，還能不能高效地繼續(xù)工作。

一個模型如果只看幾段文字，回答問題并不難；但如果讓它看完整代碼倉庫、幾十份合同、幾個月會議記錄，再持續(xù)生成、檢索、改代碼、調(diào)用工具，這個事情的難度會指數(shù)級增加。

V4-Pro的單token推理FLOPs只有V3.2的27%，KVcache只有V3.2的10%，正好對照著這個問題的答案。

前者指向每生成一個token所需的計算量，后者指向KVcache占用。KVcache可以理解成模型處理長文本時需要隨身攜帶的“工作記憶”。

文本越長，這份工作記憶越重；如果每一步都背著完整包袱走，模型就很難輕快起來。

所以，天下武功，唯快不破。

這里的快，不是聊天窗口里早幾秒回答，而是長文本任務(wù)中的運(yùn)行效率。吃下1M文本之后之后，模型還能不能跑得動、跑得起，能不能支撐高頻調(diào)用。

這一點(diǎn)在今天上線的GPT5.5中也有所體現(xiàn)，很多ChatGPT用戶驚呼，GPT5.5-Thinking的響應(yīng)速度，快了一不是一星半點(diǎn)。

結(jié)合眼下爆火的Agent工作流，這項指標(biāo)提升就更為關(guān)鍵。包括OpenClaw在內(nèi)的系統(tǒng)級Agent工具，在運(yùn)行任務(wù)時，往往需要讀文件、查資料、調(diào)用工具、修改代碼、保存中間狀態(tài)，再根據(jù)反饋繼續(xù)下一步。

任務(wù)越真實(shí)，上下文越長，計算和緩存負(fù)擔(dān)越容易滾雪球。很多Agent產(chǎn)品今天看起來像未來，一算成本就像災(zāi)難。V4如果真能把長上下文下的運(yùn)行效率壓下來，影響的是整個Agent工具鏈的成本結(jié)構(gòu)。

我們也簡單上手體驗(yàn)了一下DeepSeek V4Pro，我們搭建了一個簡易的離線環(huán)境，跑了兩個貼近日常用戶場景的測試。

首先，我們給了V4 Pro一組關(guān)于MCP、結(jié)構(gòu)化輸出、工具調(diào)用、端側(cè)模型和推理服務(wù)的材料，讓它寫一份技術(shù)分析。這個任務(wù)主要是考驗(yàn)，模型能不能把一堆概念和名詞，整理成一張清楚的工程圖。

V4Pro的表現(xiàn)比較像一個成熟技術(shù)編輯。它沒有把材料逐條復(fù)述，而是抓住了一條主線：Agent的競爭不只是模型參數(shù)，而是模型如何穩(wěn)定接入外部系統(tǒng)。換句話說，模型不能只會“想”，還要能讀文件、查數(shù)據(jù)庫、調(diào)用工具、把結(jié)果寫回業(yè)務(wù)系統(tǒng)。

它把結(jié)構(gòu)化輸出理解成“讓模型說出機(jī)器能直接讀懂的話”，把MCP理解成“讓模型應(yīng)用更容易接外部工具的標(biāo)準(zhǔn)接口”，這就比單純解釋術(shù)語更接近真實(shí)產(chǎn)品。

第二個測試，是讓它用Python寫一個本地命令行工具，用來管理每天收集的AI行業(yè)新聞線索。這個Prompt寫的很簡單，只有幾個基礎(chǔ)的限制條件：不要聯(lián)網(wǎng)，不調(diào)用API；能新增、查看、篩選、去重、自動打新聞價值分，并導(dǎo)出markdown日報。

V4 Pro直接給出了一個能跑的小工具。

用戶可以錄入公司、標(biāo)題、類型、來源、鏈接、時間、正文和核驗(yàn)狀態(tài)，程序會自動計算新聞價值分，再把線索分成“可直接引用”“需要繼續(xù)核實(shí)”“暫不采用”。導(dǎo)出的markdown也會按層級分組，保留公司、標(biāo)題、類型、分?jǐn)?shù)、來源等維度。

這個測試能說明一個問題：V4 Pro可以把一個相對復(fù)雜的意圖拆成結(jié)構(gòu)、規(guī)則和可執(zhí)行代碼，這和DeepSeek過去的用戶心智是契合的。

在OpenRouter這類開發(fā)者渠道上，DeepSeekV3系已經(jīng)證明過自己的性價比和使用慣性。

OpenRouter數(shù)據(jù)顯示，DeepSeekV3系列在2025年token消費(fèi)超過7.27萬億，排名第五，僅次于ClaudeSonnet4、Gemini2.0Flash等模型。而直到今天，DeepSeekV3.2的調(diào)用量，依舊在OpenRouter榜單中名列前茅。

這說明用戶認(rèn)可的從來不只是benchmark，而是一個模型在真實(shí)工作流里是否穩(wěn)定、便宜、高效。

這一點(diǎn)也可以放到Claude身上看。

在各大模型能力榜單上，ClaudeOpus4.6和GPT-5.4系列的對比中，結(jié)論并不總是Claude全面領(lǐng)先，甚至在一些知識、推理、速度指標(biāo)上，GPT-5.4要表現(xiàn)的更好。

但這并不妨礙Claude在過去一段時間里繼續(xù)收割開發(fā)者和企業(yè)市場。Anthropic 今年 2 月披露，按當(dāng)時收入節(jié)奏折算，公司年收入規(guī)模已達(dá)到 140 億美元；過去三年里，其收入每年都實(shí)現(xiàn) 10 倍以上增長。

所以，想要客觀看待一個模型的能力，還是得放到真實(shí)工作流看實(shí)際工程表現(xiàn)。

當(dāng)然，V4也不是沒有短板。最大的遺憾，是它目前缺乏“原生多模態(tài)”的加持。早在發(fā)布前，社區(qū)對V4的期待就不只是文本模型。一些媒體此前也曾報道稱，DeepSeekV4計劃是一個能處理圖片、視頻和文本生成的多模態(tài)模型。

缺少了多模態(tài)能力，確實(shí)會帶來一個現(xiàn)實(shí)問題，一旦涉及視覺理解、圖表解析、、PPT/網(wǎng)頁/軟件界面處理這些場景里，就到了模型的能力邊界外。

今天的生產(chǎn)力任務(wù)已經(jīng)不再只是“讀一段文字”。很多用戶真正要處理的是圖片、表格、截圖、PDF、網(wǎng)頁、視頻會議和復(fù)雜軟件界面。沒有原生多模態(tài)，V4仍然可以是強(qiáng)大的長任務(wù)底座，但還不是完整的工作入口。

當(dāng)然，也可以從另一個角度理解，站在融資和IPO的十字路口，V4首先給母公司解決的是地基問題，而不是建好整棟樓的問題。

走在融資路口的DeepSeek

V4發(fā)布的另一個背景，是DeepSeek融資消息突然密集起來。

顯然，作為中國AI行業(yè)的稀有物種， DeepSeek一直不太缺錢。

過去，DeepSeek最有辨識度的標(biāo)簽之一，就是它不像典型AI獨(dú)角獸那樣靠融資敘事往前推。它背后有量化資金公司幻方的資金支持，又有梁文鋒這樣的旗幟性人物，長期以來在業(yè)內(nèi)保持著神秘且專注的形象。

但在最近一段時間，情況開始發(fā)生變化。最新報道顯示，DeepSeek正在以超過200億美元估值尋求融資，阿里、騰訊等公司據(jù)稱正在洽談投資。具體的數(shù)字仍在談判中，但方向已經(jīng)足夠清楚：DeepSeek已經(jīng)走到了迎接資本市場的節(jié)點(diǎn)。

而V4，就是這個節(jié)點(diǎn)上的一個重要抓手。V4專注于講效率的邏輯背后，實(shí)際上是抓住了當(dāng)前的開發(fā)者群體最關(guān)心的部分，可預(yù)測的調(diào)用需求可能被進(jìn)一步放大，進(jìn)而推動更多的商業(yè)化落地。

這也是DeepSeek接下來最難的一關(guān)。200億美元估值要證明的，不只是模型強(qiáng)，而是模型能不能轉(zhuǎn)成穩(wěn)定的商業(yè)系統(tǒng)。。

這一點(diǎn)上，競爭對手們已經(jīng)在行動起來。Qwen、GLM、Kimi都在向Agentic Coding、工具調(diào)用和長任務(wù)執(zhí)行靠攏，Claude也已經(jīng)把企業(yè)知識工作和代碼工作流做成了最重要的商業(yè)抓手。

顯然，依托V4的能力，Deepseek還需要更多產(chǎn)品層面的落地。

Agent不是底座模型自己就能跑通，它還需要瀏覽器、文件系統(tǒng)、權(quán)限系統(tǒng)、企業(yè)軟件接口、插件生態(tài)和產(chǎn)品體驗(yàn)。V4就算解決了地基問題，如何建立起一套生產(chǎn)力場景的用戶生態(tài)，是粱文鋒和團(tuán)隊接下來要思考的問題。

所以，V4最準(zhǔn)確的定位不是，并不是人們想象中的模型新物種，而是把“開源模型任務(wù)底座”提升到了一個新的高度。

過去，DeepSeek已經(jīng)證明了，中國公司可以用更低成本做出強(qiáng)模型。V4要證明的是，在百萬上下文、Agent、國產(chǎn)算力和商業(yè)化同時到來的階段，這套低成本路線還能不能繼續(xù)成立。

眼下，V4已經(jīng)把效率牌打出來了。接下來，DeepSeek要回答的是，這張牌能不能撐起一家200億美元公司的商業(yè)體量。

本文來自公眾號：字母AI 作者：李炤鋒編輯：王靖

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.