大家好,我是冷逸。
先給結論:DeepSeek識圖模式來了,能用,但跟你們期待的多模態不是一回事。
4月29日下午,陳小康在X上發了這么一條:"Now, we see you." 配圖是兩只鯨魚logo,一只還戴著海盜眼罩,一只已經睜開了眼睛。
![]()
我看到那一刻,第一反應:這營銷做得有點秀。
(這句話是AI說的,別罵我…)
但有意思的是,這是他24小時內第二次發類似內容。前一天他發過"Soon, we see you."發完很快就刪掉了。一刪一發,很明顯在等一個時機。果然,和這條推文幾乎同步,已經有部分用戶在DeepSeek官方App的輸入欄上方,發現了第三個按鈕:"識圖模式",標注"圖片理解功能內測中"。
灰度測試,正式開始了。
1. 到底發了什么
這件事的時間節點很值得注意。
DeepSeek V4正式發布是4月24日,V4-Pro(1.6T參數)和V4-Flash(284B參數),都支持1M token上下文,都是純文本模型。識圖模式在V4發布的第5天就上了灰度,快得有點出乎意料。
但問題是,V4技術報告在"局限與未來方向"這節,白紙黑字寫著:下一步工作之一是"將多模態能力融入模型體系"。
所以,識圖模式跟V4是什么關系?從灰度體驗的輸出風格來判斷,更接近是一個掛在V4主干上的視覺理解模塊,而不是外界過去半年瘋傳的"原生多模態V4"。
說白了:視覺理解 ≠ 原生多模態生成。
那識圖模式到底能用到什么程度?從已經被灰度到的用戶實測來看,基礎識圖準確率挺高。
場景描述、OCR、文字提取,不開思考模式也能給出相當結構化的回答;開了思考模式,甚至能推斷博物館展品的文化背景,比如把一件玉器判斷為"清代痕都斯坦風格",也就是莫臥兒王國的工藝風格,這一步推理其實已經超出"看圖說話"的范疇了。
但知識庫的局限很明顯。最新的產品、游戲、品牌,識不出來。讓它看一張FM24戰術圖,認出來了;讓它看一款2025年底發布的手機,判斷錯了;但居然通過副屏推斷出了舊型號,這邏輯鏈還挺能打的。
復雜圖形邏輯題,比較拉。讓它數圖里的老虎,數了三遍,每次數字不一樣,最后給了個錯的。
這類基于反色、碎塊化的視覺推理,還是視覺模型的硬傷,DeepSeek也沒逃過。
2. 帶傷上陣的多模態團隊
這次識圖模式發布背后,有一個很多人沒注意到的背景。
DeepSeek的多模態團隊,過去大半年走了不少人。多模態核心貢獻者阮翀,去了自動駕駛公司元戎啟行,出任首席科學家;OCR系列核心作者魏浩然,春節前后離職;R1推理負責人郭達雅,以年薪億元的價碼去了字節跳動Seed團隊;初代大模型核心作者王炳宣,也去了騰訊。
這四個人,剛好覆蓋了DeepSeek最核心的四條技術主線:基座模型、推理、OCR、多模態。
V4技術報告近300人名單里,有10個名字被標注了"已離職"。
DeepSeek做了一件讓很多人覺得有風骨的事:把離職的人也放進了致謝名單,注明貢獻。有人說這是"AI界黃埔軍校",這個評價我不覺得過譽,但它背后也是一個真實的留人困境,大廠拿著2到3倍薪資和八位數總包,確實很難頂。
也正因為如此,陳小康這次連續兩條推文才顯得有點不尋常。這是DeepSeek多模態團隊近三個月來,第一次以產品形式對外釋放進展。
某種程度上,這是一次"我們還在"的宣示。
帶傷打仗,我覺得,這才是DeepSeek現在的真實狀態。
3. 行業沒有等你
再說說外部壓力。DeepSeek識圖模式上灰度這一天,身邊的競爭對手沒有一個在歇著。
字節跳動的Doubao-Seed-2.0-Pro,在SuperCLUE-VLM最新評測里拿下總榜第一,90.66分,超過谷歌Gemini-3.1 Pro的89.35分。這是中文場景多模態評測的目前最高水位。
阿里在3月下旬發布了Qwen3.5-Omni,原生全模態架構,基于超過1億小時音視頻數據預訓練,215項SOTA,官方說通用音頻理解全面超越Gemini-3.1 Pro,而且宣稱文本和視覺能力沒有因為多模態而降智。
Kimi在4月底發布K2.6,多模態和Agent方向同時推進。
商湯的SenseNova U1也在同一周開源,單一框架整合多模態理解、推理和生成。
這個賽道,現在基本上是"王不見王,全都在同一周發"的狀態。國產多模態,已經進入肉搏期。
有一個細節值得記住:豆包在2025年底的月活已經超過了DeepSeek。這說明純文本能力再強,產品化落地和用戶覆蓋才是這一階段真正拉開差距的事。識圖模式的到來,是DeepSeek在補這塊短板。
4. 性價比,才是真正的牌
DeepSeek在純文本上能打贏,核心還是兩件事:性能夠用,價格足夠低。V4-Pro的API價格已經是歷史低點,這條邏輯有沒有可能在多模態上復制?
如果能,它的影響可能比前幾輪價格戰來得更猛烈。現在多模態API的調用成本,對絕大多數開發者來說還是一道真實的門檻。如果DeepSeek能把視覺理解的API打到地板價,甚至再來一次那種"99%降價"的打法,這個市場格局就真的會變。
說實話,這才是我最想看到的那張牌。
Qwen3.5-Omni的能力很強,但如果DeepSeek的多模態API比它便宜十倍,開發者會怎么選?
識圖模式目前是灰度內測,還沒有全量,很多人還看不到。
從現有能力判斷,基礎視覺理解已經可用,這是DeepSeek多模態路線產品化的第一步。但離"原生多模態"還有距離,V4技術報告里那句"下一步工作",說的大概就是這件事。
陳小康那句"Now, we see you.",我覺得是個雙關。
一方面跟用戶說:DeepSeek的眼睛,睜開了。另一方面,大概也是跟整個行業說:我們看到你們了,別以為我們不在。
但問題是,對手可沒等你。
字節在追,阿里在趕,Kimi在超,個個都不是省油的燈。
DeepSeek這次補多模態,來得有點晚,人才也走了不少,但有一點沒變:它還是那個最有可能把成本打穿的選手。
這對嗎?說實話,我不知道。
但我知道,接下來幾個月,一定會很好看。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.