外媒評價DeepSeekV4：表現(xiàn)平平還是令人印象深刻？

2026-04-30 07:12:01　來源: 即使沒有換位思考

四川舉報

分享至

曾讓硅谷顫抖、英偉達股價大跌的DeepSeek，這次帶著旗艦新品V4回來了。但外界的掌聲，卻遠不如當年R1橫空出世時響亮。是它真的不行了？還是我們對AI的期待已經(jīng)被拉高到了新點？今天就來扒一扒這個讓行業(yè)議論紛紛的V4到底藏著啥。

根據(jù)4月255日獨立機構(gòu)Artificial Analysis的最新評測，DeepSeek v4 Pro在全球開源模型智能指數(shù)榜單里排第二，得分52分，僅次于月之暗面的Kimi K2.6（54分），智譜的GLM-5.1以51分緊隨其后。

這個成績看起來中規(guī)中矩，但數(shù)字背后的進步其實很猛：v4 Pro比前代v3.2整整漲了10分，從42分到52分；架構(gòu)更是大升級，用了全新的混合專家架構(gòu)（MoE），總參數(shù)量達到1.6萬億，激活參數(shù)490億，比v3家族的6710億總參、370億激活參數(shù)，簡直是質(zhì)的飛躍。

但v4 Pro也不是完美的，甚至有些短板讓人皺眉。最頭疼的就是幻覺率——v4 Pro和輕量版v4 Flash的幻覺率分別高達94%和96%！啥意思？就是只要模型不知道答案，幾乎肯定編一個給你，絕不說“我不知道”。這對需要靠譜輸出的商業(yè)場景來說，簡直是定時炸彈。

成本方面也很矛盾：每百萬token輸入1.74美元、輸出3.48美元，雖然比Claude Opus便宜四倍，但綜合運行成本卻高達1071美元，比Kimi K2.6（948美元）和GLM-5.1（544美元）還貴。為啥？因為它輸出token消耗太大，單次評測就用了1.9億個輸出token，燒錢速度比同行快了不止一星半點。

更扎心的是用戶體驗：在Chatbot Arena眾包平臺上，v4 Pro的主觀評分遠低于官方測試的水準，說明真實用起來，它的表現(xiàn)并沒有數(shù)據(jù)看起來那么好。

一年前R1橫空出世時，美國科技界都震驚了，英偉達股價都跌了，全球都在討論中國AI的實力。但現(xiàn)在，開源AI的格局已經(jīng)變天了：國內(nèi)的月之暗面、智譜AI、MiniMax，甚至傳聞中小米要公開的MiMo-V2.5-Pro，都在奮力追趕，甚至局部超越DeepSeek；而OpenAI、Google、Anthropic的閉源旗艦?zāi)Ｐ停廊辉诳偘裆线b遙領(lǐng)先，v4 Pro連邊都沒摸到。

這次DeepSeek還同步推出了輕量版v4 Flash，總參2840億，激活參數(shù)130億，智能指數(shù)47分，比前代v3.2還高，定價卻只要0.14美元/0.28美元每百萬token，對中小商家來說性價比超高。

更值得注意的是，DeepSeek官方宣布v4完全支持華為昇騰芯片，在美國收緊芯片管制的背景下，這明顯是在走自主化路線，背后是中國AI產(chǎn)業(yè)鏈想擺脫對外依賴的戰(zhàn)略意圖。

DeepSeek v4沒有創(chuàng)造新的奇跡，但它證明自己還是全球開源AI里不可忽視的力量。只是，下一個能讓全世界驚呼的“驚喜時刻”，它還能抓住嗎？

你覺得DeepSeek能重回R1時的高光時刻嗎？或者你更看好哪家中國AI公司？評論區(qū)一起聊聊你的看法～覺得這篇內(nèi)容有用的話，別忘了點贊收藏轉(zhuǎn)發(fā)，讓更多人看到中國AI的真實進展！

聲明：個人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.