曾讓硅谷顫抖、英偉達股價大跌的DeepSeek,這次帶著旗艦新品V4回來了。但外界的掌聲,卻遠不如當年R1橫空出世時響亮。是它真的不行了?還是我們對AI的期待已經(jīng)被拉高到了新點?今天就來扒一扒這個讓行業(yè)議論紛紛的V4到底藏著啥。
![]()
根據(jù)4月255日獨立機構(gòu)Artificial Analysis的最新評測,DeepSeek v4 Pro在全球開源模型智能指數(shù)榜單里排第二,得分52分,僅次于月之暗面的Kimi K2.6(54分),智譜的GLM-5.1以51分緊隨其后。
這個成績看起來中規(guī)中矩,但數(shù)字背后的進步其實很猛:v4 Pro比前代v3.2整整漲了10分,從42分到52分;架構(gòu)更是大升級,用了全新的混合專家架構(gòu)(MoE),總參數(shù)量達到1.6萬億,激活參數(shù)490億,比v3家族的6710億總參、370億激活參數(shù),簡直是質(zhì)的飛躍。
但v4 Pro也不是完美的,甚至有些短板讓人皺眉。最頭疼的就是幻覺率——v4 Pro和輕量版v4 Flash的幻覺率分別高達94%和96%!啥意思?就是只要模型不知道答案,幾乎肯定編一個給你,絕不說“我不知道”。這對需要靠譜輸出的商業(yè)場景來說,簡直是定時炸彈。
成本方面也很矛盾:每百萬token輸入1.74美元、輸出3.48美元,雖然比Claude Opus便宜四倍,但綜合運行成本卻高達1071美元,比Kimi K2.6(948美元)和GLM-5.1(544美元)還貴。為啥?因為它輸出token消耗太大,單次評測就用了1.9億個輸出token,燒錢速度比同行快了不止一星半點。
更扎心的是用戶體驗:在Chatbot Arena眾包平臺上,v4 Pro的主觀評分遠低于官方測試的水準,說明真實用起來,它的表現(xiàn)并沒有數(shù)據(jù)看起來那么好。
一年前R1橫空出世時,美國科技界都震驚了,英偉達股價都跌了,全球都在討論中國AI的實力。但現(xiàn)在,開源AI的格局已經(jīng)變天了:國內(nèi)的月之暗面、智譜AI、MiniMax,甚至傳聞中小米要公開的MiMo-V2.5-Pro,都在奮力追趕,甚至局部超越DeepSeek;而OpenAI、Google、Anthropic的閉源旗艦?zāi)P停廊辉诳偘裆线b遙領(lǐng)先,v4 Pro連邊都沒摸到。
這次DeepSeek還同步推出了輕量版v4 Flash,總參2840億,激活參數(shù)130億,智能指數(shù)47分,比前代v3.2還高,定價卻只要0.14美元/0.28美元每百萬token,對中小商家來說性價比超高。
更值得注意的是,DeepSeek官方宣布v4完全支持華為昇騰芯片,在美國收緊芯片管制的背景下,這明顯是在走自主化路線,背后是中國AI產(chǎn)業(yè)鏈想擺脫對外依賴的戰(zhàn)略意圖。
DeepSeek v4沒有創(chuàng)造新的奇跡,但它證明自己還是全球開源AI里不可忽視的力量。只是,下一個能讓全世界驚呼的“驚喜時刻”,它還能抓住嗎?
你覺得DeepSeek能重回R1時的高光時刻嗎?或者你更看好哪家中國AI公司?評論區(qū)一起聊聊你的看法~覺得這篇內(nèi)容有用的話,別忘了點贊收藏轉(zhuǎn)發(fā),讓更多人看到中國AI的真實進展!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.