網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

實(shí)測(cè)在DeepSeek-V4上燒1000萬(wàn)token，我發(fā)現(xiàn)了3個(gè)驚喜和1個(gè)意外

2026-04-24 19:01:13　來(lái)源: 智東西

北京舉報(bào)

分享至

智東西
作者陳駿達(dá)
編輯心緣

智東西4月24日?qǐng)?bào)道，今天，DeepSeek-V4開源并火速?zèng)_上Hugging Face模型榜首，號(hào)稱推理和智能體編程性能沖到開源模型第一、比肩先進(jìn)閉源模型。為了驗(yàn)證兩款模型的真實(shí)效果，我們進(jìn)行了多維度的深度體驗(yàn)。

▲DeepSeek-V4-Pro登頂Hugging Face熱榜第一（圖源：Hugging Face）

我們的這次實(shí)測(cè)累計(jì)消耗超過(guò)1000萬(wàn)token。總體來(lái)看，DeepSeek-V4系列，尤其是Pro版本，展現(xiàn)出強(qiáng)大的自主規(guī)劃與執(zhí)行能力；但在部分極限任務(wù)和輕量級(jí)場(chǎng)景中，也存在一些有趣的短板。以下是我們提煉出的核心體驗(yàn)要點(diǎn)：

（1）智能體編程提升明顯，長(zhǎng)程任務(wù)能力驚艷：DeepSeek-V4-Pro能夠連續(xù)自主編程60分鐘以上，無(wú)需人工干預(yù)，完成復(fù)雜的數(shù)據(jù)庫(kù)設(shè)計(jì)和安卓模擬器開發(fā)等工程任務(wù)，展現(xiàn)出強(qiáng)大的長(zhǎng)程規(guī)劃、自我糾錯(cuò)和工具調(diào)用能力。

（2）復(fù)雜推理有亮點(diǎn)也有短板：模型在海龜湯等邏輯題上表現(xiàn)出色，但在IMO數(shù)學(xué)難題和部分輕量級(jí)測(cè)試中陷入死循環(huán)或給出錯(cuò)誤答案，推理穩(wěn)定性還有提升空間。

（3）輕量級(jí)任務(wù)表現(xiàn)意外翻車：簡(jiǎn)單問(wèn)題（如洗車店問(wèn)題）上，Pro版有時(shí)反而因?yàn)椤斑^(guò)度思考”無(wú)法給出正確答案，而Flash版更為直接高效。

（4）價(jià)格有所上漲，但緩存機(jī)制降低部分成本：相比DeepSeek-V3.2，V4系列API價(jià)格上調(diào)，但在長(zhǎng)任務(wù)中借助緩存，總賬單的增長(zhǎng)沒有API漲幅那么明顯。

以下是我們的完整實(shí)測(cè)：

一、智能體編程能力明顯提升，實(shí)測(cè)連續(xù)干活60分鐘無(wú)需干預(yù)

DeepSeek-V4的官方博客，尤其強(qiáng)調(diào)模型的Agentic Coding能力。這次實(shí)測(cè)中，我們讓DeepSeek-V4-Pro與Claude Code打配合，執(zhí)行了兩個(gè)較為復(fù)雜的工程任務(wù)。

任務(wù)1：連續(xù)編程60分鐘，打造完整記賬系統(tǒng)

在數(shù)據(jù)庫(kù)設(shè)計(jì)任務(wù)中，我們的提示詞并未給模型提供過(guò)多的約束，這考察了其自主規(guī)劃任務(wù)的能力

拿到任務(wù)后，DeepSeek-V4-Pro先是思考了一會(huì)兒，然后輸出了一個(gè)完整的數(shù)據(jù)庫(kù)設(shè)計(jì)方案，包含8個(gè)核心功能模塊和6張數(shù)據(jù)表，目標(biāo)是實(shí)現(xiàn)記賬、流水統(tǒng)計(jì)等功能。

此外，它還規(guī)劃了開發(fā)流程，除了打造每個(gè)具體組件之外，DeepSeek-V4-Pro也計(jì)劃在開發(fā)結(jié)束后自主進(jìn)行驗(yàn)證，并列出10項(xiàng)驗(yàn)證的清單，考慮得較為周到。

之后，我們就完全放手讓DeepSeek-V4-Pro自主執(zhí)行任務(wù)，它連續(xù)編程了接近60分鐘，期間沒有出現(xiàn)中斷或者死循環(huán)，也沒有遺漏關(guān)鍵步驟，完全按照此前的規(guī)劃執(zhí)行。

DeepSeek-V4-Pro的開發(fā)結(jié)果如下，從前端的角度來(lái)看，這一數(shù)據(jù)庫(kù)在美感層面稍有欠缺，但所有核心功能都運(yùn)轉(zhuǎn)正常。我們?cè)囍砑恿艘粭l數(shù)據(jù)，沒有出現(xiàn)報(bào)錯(cuò)信息。

在前端中，用戶可以直接完成各種自定義操作，比如新增分類，刪改數(shù)據(jù)等等。而此前我們體驗(yàn)的部分模型在這種任務(wù)上可能會(huì)把所有設(shè)置都寫死，這影響了后續(xù)的可擴(kuò)展性。

查看后端數(shù)據(jù)庫(kù)也可以發(fā)現(xiàn)，我們?cè)谇岸溯斎氲男聰?shù)據(jù)可以正常同步到數(shù)據(jù)庫(kù)后臺(tái)，下圖最后兩行數(shù)據(jù)，就是手動(dòng)添加的。這證明前后端之間的數(shù)據(jù)交互接口與數(shù)據(jù)傳輸鏈路均處于正常、可用的狀態(tài)。

總體來(lái)看，在復(fù)雜數(shù)據(jù)庫(kù)開發(fā)這種綜合考察模型長(zhǎng)程規(guī)劃能力、自我糾錯(cuò)能力、長(zhǎng)上下文能力和推理能力的任務(wù)上，DeepSeek-V4-Pro的表現(xiàn)可以說(shuō)遠(yuǎn)遠(yuǎn)超過(guò)了DeepSeek-V3.2。

不過(guò)，需要注意的是，與此前DeepSeek的旗艦級(jí)模型相比，DeepSeek-V4-Pro的價(jià)格有一定幅度的上漲，跑完上述這一任務(wù)的token消耗量大概在20萬(wàn)個(gè)左右（大部分為輸入token），換算為API賬單大概是5塊錢，由于緩存機(jī)制的介入，價(jià)格還算可以接受。

任務(wù)2：從零開始打造安卓模擬器，代碼、環(huán)境全程包辦

我們的下一個(gè)任務(wù)挑戰(zhàn)更大：讓DeepSeek-V4-Pro從零開始打造一個(gè)安卓模擬器。

這一任務(wù)的復(fù)雜程度似乎已經(jīng)超出DeepSeek-V4-Pro的知識(shí)范圍了，于是它決定開啟聯(lián)網(wǎng)搜索，查詢配套工具、參考架構(gòu)等等，進(jìn)行了18次工具調(diào)用。

在足足思考了11分鐘之后，DeepSeek-V4-Pro才開始動(dòng)筆寫開發(fā)計(jì)劃，它還自我評(píng)價(jià)道：“很好，Plan Agent輸出了很全面的架構(gòu)，我現(xiàn)在開始寫完整架構(gòu)。”此時(shí)，已經(jīng)燒了8000多個(gè)token。

不過(guò)這種token消耗并非浪費(fèi)，通過(guò)更為全面的規(guī)劃，DeepSeek-V4-Pro讓我們?cè)緲O為簡(jiǎn)單的提示詞變得更加體系化，有助于后續(xù)的開發(fā)。

最終，DeepSeek-V4-Pro的計(jì)劃是七步走完成開發(fā)，包含框架搭建、圖像管理模塊設(shè)計(jì)、VNC顯示插件、完整GUI開發(fā)、APK安裝功能、打包和debug。

這一項(xiàng)目的規(guī)模確實(shí)有點(diǎn)大，DeepSeek-V4-Pro連續(xù)跑了50多分鐘才完成。

我把后續(xù)的調(diào)試和環(huán)境依賴安裝工作也交給了DeepSeek-V4-Pro。執(zhí)行過(guò)程中，DeepSeek-V4-Pro缺了什么資源就會(huì)調(diào)動(dòng)搜索工具，直接搜索到對(duì)應(yīng)鏈接進(jìn)行下載，也能通過(guò)命令行幫我解壓、安裝相關(guān)環(huán)境，徹底解放雙手。

DeepSeek-V4-Pro又工作了20多分鐘，把活全部都干完了。不過(guò)，最后這一模擬器未能成功運(yùn)行，截至發(fā)稿，DeepSeek還在幫我debug。

二、實(shí)測(cè)復(fù)雜推理，被IMO難題打入死循環(huán)

除了智能體、編程能力之外，DeepSeek-V4在推理方面的提升也值得關(guān)注。

DeepSeek官方稱，DeepSeek-V4-Pro和DeepSeek-V4-Flash兩個(gè)模型的推理能力接近。在下方這幾道邏輯和推理題目中，我們便同時(shí)測(cè)試了兩個(gè)模型。

任務(wù)1：解答海龜湯，Pro反而比Flash要快？

我們向DeepSeek發(fā)送的題目如下。這種題目的考察難點(diǎn)主要不在“謎面有多復(fù)雜”，而在于模型如何突破常見的思維慣性。

先來(lái)看看DeepSeek-V4-Pro的解題過(guò)程。DeepSeek-V4-Pro用時(shí)33秒就便推理出正確答案，思考過(guò)程簡(jiǎn)潔清晰。

DeepSeek-V4-Flash的推理速度反而更慢，耗時(shí)61秒，輸出的結(jié)果是正確的。DeepSeek-V4-Flash慢的原因是它的思維過(guò)程有些冗余，多了不少反復(fù)的確認(rèn)與自我質(zhì)疑。

任務(wù)2：實(shí)測(cè)IMO難題，F(xiàn)lash答錯(cuò)、Pro死循環(huán)了

解答數(shù)學(xué)題也是DeepSeek的老傳統(tǒng)之一了。此次，DeepSeek稱V4-Pro的數(shù)學(xué)能力在測(cè)評(píng)中超過(guò)了所有已公開測(cè)評(píng)的開源模型，比肩世界頂級(jí)閉源模型。

我們拿去年IMO的題目考了考DeepSeek，關(guān)閉聯(lián)網(wǎng)開啟推理，讓模型完全靠自己解決問(wèn)題。這張高糊的題目也考察了DeepSeek網(wǎng)頁(yè)服務(wù)中OCR的能力，我們檢查了下，識(shí)別結(jié)果都是正確的。

這道題目讓兩個(gè)模型都思考了很久很久，似乎陷入了無(wú)盡的循環(huán)。DeepSeek-V4-Flash最后給出答案，但是是錯(cuò)誤的。DeepSeek-V4-Pro跑了10多分鐘，沒有明顯進(jìn)展，最后我們手動(dòng)中斷了思考。

三、輕量級(jí)測(cè)試題集錦：洗車店問(wèn)題竟意外難倒V4-Pro

上述案例都比較硬核，接下來(lái)我們看幾個(gè)輕松點(diǎn)的案例。

首先是大家喜聞樂(lè)見的洗車難題。我們讓DeepSeek-V4-Flash、DeepSeek-V4-Pro在關(guān)閉聯(lián)網(wǎng)和思考的模式下解答。

DeepSeek-V4-Flash給出了正確答案，它覺得這個(gè)問(wèn)題太簡(jiǎn)單了，語(yǔ)氣中滿是嘲諷。

DeepSeek-V4-Pro的思路則有些清奇，它建議我們把車推過(guò)去，認(rèn)為“這種方案對(duì)車最好，省去冷啟動(dòng)磨損”，還補(bǔ)充道“推過(guò)去是愛車的極致表現(xiàn)，直接開過(guò)去是最不劃算的方式。”

后來(lái)我們又給了DeepSeek-V4-Pro幾次機(jī)會(huì)，它給出正確答案的概率還是高一些，但偶爾還是會(huì)因?yàn)檫^(guò)度思考而把自己繞進(jìn)陷阱。

鵜鶘騎自行車的SVG，DeepSeek-V4-Flash就可以輕松拿下，結(jié)果基本完美：

像是網(wǎng)頁(yè)小游戲這樣的題目，DeepSeek-V4-Pro和DeepSeek-V4-Flash的表現(xiàn)其實(shí)都不太好，F(xiàn)lash打造的結(jié)果根本無(wú)法渲染，Pro打造的雖然渲染成功，但基本不可玩。

在這些“Toy Case”上，DeepSeek似乎沒有花太多精力進(jìn)行針對(duì)性的優(yōu)化。

結(jié)語(yǔ)：DeepSeek-V4，又一次定義開源模型的上限

DeepSeek-V4系列模型確實(shí)帶來(lái)了驚喜，尤其是在智能體編程方面，其長(zhǎng)程規(guī)劃與執(zhí)行能力令人印象深刻。其基準(zhǔn)測(cè)試也基本回應(yīng)了AI圈對(duì)DeepSeek的期待，拿下了多項(xiàng)開源SOTA。

DeepSeek的開源不只是把模型權(quán)重開放出來(lái)，在某種意義上，也是將訓(xùn)練1.6T超大規(guī)模模型所需的算力、資金乃至工程經(jīng)驗(yàn)一并“開源”給了整個(gè)社區(qū)。這一選擇值得敬意。

可以預(yù)見，隨著后續(xù)迭代優(yōu)化，DeepSeek-V4有望持續(xù)進(jìn)化，成為開源AI生態(tài)中一個(gè)兼具性能與活力的基座模型。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.