最新版本的DeepSeek V4發布后表示其目前的V4-Pro-Max略遜于GPT-5.4。從研發時間推算來說也就是落后3到6個月的研發進度。
個人認為在一個充斥著“自我吹噓”的行業里,這種坦誠本身就成了最大的新聞。說實話終于有人把AI圈那層華麗的“濾鏡”給摘下來了。
![]()
咱們得先明白,“落后3到6個月”在這個行業里到底意味著什么。
前沿模型的迭代速度,用日新月異來形容都是客氣的。過去一年,谷歌、OpenAI、Anthropic幾乎每隔幾個月就能搞出一個刷新你認知的新版本。所以,DeepSeek說的“落后半年”,換個角度看其實是在說:我們今天的旗艦產品,差不多就是世界頂尖實驗室半年前的水平。而半年前的那個水平,已經是當時全球公認的頂尖了。
![]()
而且,仔細看數據更有意思。
DeepSeek這次的模型在編程能力上是真不虛,Codeforces評分3206,超過了GPT-5.4的3168和Gemini-3.1-Pro的3052,LiveCodeBench得分93.5同樣傲視群雄。
在數學推理方面也很能打,IMOAnswerBench得分89.8,HMMT 2026測試得分95.2。所以說,差距并不均勻,在邏輯推理和代碼生成這些硬核能力上,幾乎抹平了。
真正落后的地方,集中在世界知識和事實檢索領域。SimpleQA-Verified得分只有57.9,而Gemini-3.1-Pro高達75.6,差了近18個百分點。DeepSeek在報告里也直接承認,V4在“豐富世界知識”方面確實不如對手。
![]()
這種選擇性坦誠才是最難得的:能贏的地方給你看數據,輸了的地方主動認賬,而不是遮遮掩掩。
而且有個需要知道的重點是:討論DeepSeek的性能,絕對不能繞過它所處的硬件環境。
美國對華出口管制大幅限制了中國企業拿到最先進AI芯片的渠道。因此,跟OpenAI和谷歌動輒幾十萬塊的計算規模相比,根本不在一個重量級。再加上DeepSeek這次V4模型在設計之初就有意識地適配非英偉達硬件,甚至可以在華為昇騰芯片上高效運行。
![]()
這是在為出口管制進一步收緊做準備。就在前幾周,英偉達CEO黃仁勛還在一個播客里警告過,如果DeepSeek先在華為平臺上發布,“那對我們國家來說將是災難性的”。結果,他的擔憂很快就成了現實。當美國同行在燒幾十萬塊頂級GPU搞沖刺的時候,DeepSeek頂著算力封鎖,用工程創新和極致的效率硬生生把差距維持在了半年以內。
根據斯坦福2026年AI指數報告,中美頂尖AI模型的性能差距已經縮小到了僅有2.7%。DeepSeek這是在“負重越野跑”,跟那些全副武裝開著跑車的人,保持了幾乎肉眼可見的距離。
![]()
這難道不值得一絲敬意嗎?而且,價格是這張成績單上最刺眼的數字。V4的API調用價格,比GPT-5.4便宜8倍,比Claude Sonnet 4.6便宜10倍,輸出端差距更是高達20到30倍。
業界的評價很精準:以六分之一的成本,實現接近最頂尖的智能。這些成果的背后,是團隊在混合專家模型架構、混合注意力機制等算法創新上的極致優化,證明了聰明的大腦在很多情況下能彌補算力上的不足。
所以,回到最初的那個問題:這“落后3到6個月”的新聞,我們到底該怎么看?我覺得,它至少給了我們兩點思考。
![]()
一是,它證明了美國的出口管制是無效的。算力被鎖死,我們就用極致優化來代替。DeepSeek證明了,在受限條件下,中國團隊依然能做出世界級的產品。
二是,它也讓我們看到差距依然存在。3到6個月,也就是半年這個時間窗口,在AI領域說短也短,說長也長。要想真正從追趕到并跑再到領跑,還需要持續的投入和突破,絕不能沾沾自喜。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.