網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI公司罕見坦白！承認(rèn)落后對(duì)手半年，為何反獲業(yè)界尊重？

2026-04-29 06:47:36　來源: 看盡人間百態(tài)

四川舉報(bào)

分享至

大多數(shù)AI公司發(fā)布新模型時(shí)，都會(huì)精心挑選那些自己能贏的基準(zhǔn)測(cè)試，然后宣稱"領(lǐng)先業(yè)界"。

DeepSeek沒有這樣做。

2026年4月24日，這家中國AI公司發(fā)布了兩款新模型V4-Pro和V4-Flash，隨附的技術(shù)報(bào)告里寫了一句罕見的實(shí)話：V4-Pro-Max"略遜于GPT-5.4和Gemini-3.1-Pro，這表明其發(fā)展軌跡比目前最先進(jìn)的模型落后約3到6個(gè)月"。

在一個(gè)充斥著自我吹噓的行業(yè)里，這種坦誠本身就是新聞。

前沿模型的迭代速度，用"日新月異"來形容并不夸張。過去一年，OpenAI、谷歌和Anthropic幾乎每隔幾個(gè)月就會(huì)推出足以重塑業(yè)界認(rèn)知的新版本。在這個(gè)背景下，"落后3到6個(gè)月"不是一個(gè)令人難堪的承認(rèn)，而是一個(gè)值得細(xì)細(xì)品味的信號(hào)。

它意味著：DeepSeek今天的旗艦產(chǎn)品，大約相當(dāng)于美國頂尖實(shí)驗(yàn)室半年前的水平。

而半年前，那個(gè)水平就已經(jīng)是當(dāng)時(shí)公認(rèn)的全球頂尖。

從具體數(shù)據(jù)看，這個(gè)差距并非均勻分布。在編程能力上，V4-Pro-Max表現(xiàn)出色，Codeforces評(píng)分高達(dá)3206，超過GPT-5.4的3168和Gemini-3.1-Pro的3052，LiveCodeBench得分93.5同樣傲視同儕。在數(shù)學(xué)推理方面，IMOAnswerBench得分89.8，HMMT 2026測(cè)試得分95.2，同樣極具競(jìng)爭(zhēng)力。

差距最明顯的地方，集中在世界知識(shí)和事實(shí)檢索領(lǐng)域。SimpleQA-Verified得分為57.9，而Gemini-3.1-Pro高達(dá)75.6，差距接近18個(gè)百分點(diǎn)。DeepSeek在技術(shù)報(bào)告中直接承認(rèn)，V4-Pro-Max在"豐富世界知識(shí)"方面落后于Gemini-3.1-Pro。

這種選擇性坦誠值得注意：能贏的地方展示數(shù)據(jù)，輸了的地方主動(dòng)認(rèn)賬，而不是回避。Fortune雜志的報(bào)道指出，這恰恰是讓DeepSeek的技術(shù)報(bào)告在業(yè)界得到更高信任度的原因之一。

討論DeepSeek的性能，繞不開它所處的硬件環(huán)境。

美國對(duì)華出口管制已大幅限制中國企業(yè)獲取最先進(jìn)AI芯片的渠道。DeepSeek據(jù)報(bào)道擁有約5萬塊英偉達(dá)H100顯卡，這個(gè)數(shù)字看似可觀，但與OpenAI和谷歌動(dòng)輒數(shù)十萬塊的計(jì)算規(guī)模相比，不在同一量級(jí)。

英偉達(dá)CEO黃仁勛此前曾稱DeepSeek是"全球領(lǐng)先的開放模型公司"，這句評(píng)價(jià)的潛臺(tái)詞正是：在受限的計(jì)算條件下，DeepSeek的效率令人嘆服。

V4-Pro在架構(gòu)上采用了混合專家模型（MoE），總參數(shù)量約為1萬億，但激活參數(shù)僅約370億，極大降低了推理成本。更值得關(guān)注的是，這款模型是首批專門針對(duì)非英偉達(dá)硬件進(jìn)行優(yōu)化的前沿模型之一，甚至可以在華為昇騰芯片上高效運(yùn)行。這一設(shè)計(jì)選擇，明顯是在為出口管制進(jìn)一步收緊做準(zhǔn)備。

價(jià)格是這張成績單上最刺眼的數(shù)字。V4-Pro-Max的API調(diào)用價(jià)格為每百萬輸入token 1.74美元，輸出token 3.48美元，比GPT-5.4便宜約8倍，比Claude Sonnet 4.6便宜約10倍，輸出端差距更達(dá)20至30倍。對(duì)于構(gòu)建生產(chǎn)系統(tǒng)的企業(yè)開發(fā)者而言，這個(gè)價(jià)差足以改變選型決策。

VentureBeat的分析將其描述為"以1/6的成本實(shí)現(xiàn)接近最頂尖的智能"，這或許是對(duì)DeepSeek V4最精準(zhǔn)的商業(yè)定位。

在智能體任務(wù)上，差距已幾乎消弭。SWE-Verified測(cè)試中，V4-Pro-Max得分80.6，與Claude Opus 4.6的80.8和Gemini的80.6幾乎持平，在工具調(diào)用能力測(cè)試Toolathlon上也超越了兩者。這意味著，在AI落地最快的代碼生成和自動(dòng)化場(chǎng)景中，DeepSeek已經(jīng)站上了同一條起跑線。

這里還有一個(gè)更宏觀的背景：DeepSeek并非孤立前行。阿里巴巴Qwen系列在全球已積累超過7億次下載，Moonshot AI的Kimi K2持續(xù)推動(dòng)開源邊界，整個(gè)中國AI生態(tài)正在系統(tǒng)性地?cái)U(kuò)張其全球影響力。DeepSeek的V4版本，是這場(chǎng)更大浪潮中的一朵浪頭，而非偶然濺起的水花。

"落后3到6個(gè)月"這句話，既是當(dāng)下的實(shí)情，也是對(duì)未來的暗示：這個(gè)差距，正在以肉眼可見的速度收窄。

聲明：個(gè)人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.