![]()
大多數(shù)AI公司發(fā)布新模型時(shí),都會(huì)精心挑選那些自己能贏的基準(zhǔn)測(cè)試,然后宣稱"領(lǐng)先業(yè)界"。
DeepSeek沒有這樣做。
2026年4月24日,這家中國AI公司發(fā)布了兩款新模型V4-Pro和V4-Flash,隨附的技術(shù)報(bào)告里寫了一句罕見的實(shí)話:V4-Pro-Max"略遜于GPT-5.4和Gemini-3.1-Pro,這表明其發(fā)展軌跡比目前最先進(jìn)的模型落后約3到6個(gè)月"。
在一個(gè)充斥著自我吹噓的行業(yè)里,這種坦誠本身就是新聞。
前沿模型的迭代速度,用"日新月異"來形容并不夸張。過去一年,OpenAI、谷歌和Anthropic幾乎每隔幾個(gè)月就會(huì)推出足以重塑業(yè)界認(rèn)知的新版本。在這個(gè)背景下,"落后3到6個(gè)月"不是一個(gè)令人難堪的承認(rèn),而是一個(gè)值得細(xì)細(xì)品味的信號(hào)。
它意味著:DeepSeek今天的旗艦產(chǎn)品,大約相當(dāng)于美國頂尖實(shí)驗(yàn)室半年前的水平。
而半年前,那個(gè)水平就已經(jīng)是當(dāng)時(shí)公認(rèn)的全球頂尖。
從具體數(shù)據(jù)看,這個(gè)差距并非均勻分布。在編程能力上,V4-Pro-Max表現(xiàn)出色,Codeforces評(píng)分高達(dá)3206,超過GPT-5.4的3168和Gemini-3.1-Pro的3052,LiveCodeBench得分93.5同樣傲視同儕。在數(shù)學(xué)推理方面,IMOAnswerBench得分89.8,HMMT 2026測(cè)試得分95.2,同樣極具競(jìng)爭(zhēng)力。
差距最明顯的地方,集中在世界知識(shí)和事實(shí)檢索領(lǐng)域。SimpleQA-Verified得分為57.9,而Gemini-3.1-Pro高達(dá)75.6,差距接近18個(gè)百分點(diǎn)。DeepSeek在技術(shù)報(bào)告中直接承認(rèn),V4-Pro-Max在"豐富世界知識(shí)"方面落后于Gemini-3.1-Pro。
這種選擇性坦誠值得注意:能贏的地方展示數(shù)據(jù),輸了的地方主動(dòng)認(rèn)賬,而不是回避。Fortune雜志的報(bào)道指出,這恰恰是讓DeepSeek的技術(shù)報(bào)告在業(yè)界得到更高信任度的原因之一。
討論DeepSeek的性能,繞不開它所處的硬件環(huán)境。
美國對(duì)華出口管制已大幅限制中國企業(yè)獲取最先進(jìn)AI芯片的渠道。DeepSeek據(jù)報(bào)道擁有約5萬塊英偉達(dá)H100顯卡,這個(gè)數(shù)字看似可觀,但與OpenAI和谷歌動(dòng)輒數(shù)十萬塊的計(jì)算規(guī)模相比,不在同一量級(jí)。
英偉達(dá)CEO黃仁勛此前曾稱DeepSeek是"全球領(lǐng)先的開放模型公司",這句評(píng)價(jià)的潛臺(tái)詞正是:在受限的計(jì)算條件下,DeepSeek的效率令人嘆服。
V4-Pro在架構(gòu)上采用了混合專家模型(MoE),總參數(shù)量約為1萬億,但激活參數(shù)僅約370億,極大降低了推理成本。更值得關(guān)注的是,這款模型是首批專門針對(duì)非英偉達(dá)硬件進(jìn)行優(yōu)化的前沿模型之一,甚至可以在華為昇騰芯片上高效運(yùn)行。這一設(shè)計(jì)選擇,明顯是在為出口管制進(jìn)一步收緊做準(zhǔn)備。
價(jià)格是這張成績單上最刺眼的數(shù)字。V4-Pro-Max的API調(diào)用價(jià)格為每百萬輸入token 1.74美元,輸出token 3.48美元,比GPT-5.4便宜約8倍,比Claude Sonnet 4.6便宜約10倍,輸出端差距更達(dá)20至30倍。對(duì)于構(gòu)建生產(chǎn)系統(tǒng)的企業(yè)開發(fā)者而言,這個(gè)價(jià)差足以改變選型決策。
VentureBeat的分析將其描述為"以1/6的成本實(shí)現(xiàn)接近最頂尖的智能",這或許是對(duì)DeepSeek V4最精準(zhǔn)的商業(yè)定位。
在智能體任務(wù)上,差距已幾乎消弭。SWE-Verified測(cè)試中,V4-Pro-Max得分80.6,與Claude Opus 4.6的80.8和Gemini的80.6幾乎持平,在工具調(diào)用能力測(cè)試Toolathlon上也超越了兩者。這意味著,在AI落地最快的代碼生成和自動(dòng)化場(chǎng)景中,DeepSeek已經(jīng)站上了同一條起跑線。
這里還有一個(gè)更宏觀的背景:DeepSeek并非孤立前行。阿里巴巴Qwen系列在全球已積累超過7億次下載,Moonshot AI的Kimi K2持續(xù)推動(dòng)開源邊界,整個(gè)中國AI生態(tài)正在系統(tǒng)性地?cái)U(kuò)張其全球影響力。DeepSeek的V4版本,是這場(chǎng)更大浪潮中的一朵浪頭,而非偶然濺起的水花。
"落后3到6個(gè)月"這句話,既是當(dāng)下的實(shí)情,也是對(duì)未來的暗示:這個(gè)差距,正在以肉眼可見的速度收窄。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.