灰度測試的頁面截圖在用戶群里傳開后,4月29日DeepSeek網頁版正式上線了“識圖模式”。試用反饋顯示,該模式支持圖片上傳與內容理解分析,目前尚未全量推送。
同一天,DeepSeek負責多模態開發的研究員陳小康在X平臺發文配圖,標志性的鯨魚“摘下”了眼罩,引發行業揣測。
幾乎就在測試入口放出的同時,DeepSeek V4多模態滿血版也被陳小康正式預告,距離V4系列純文本版本的發布僅過去五天。
這位一向以純文本能力著稱的玩家,終于要補齊“視覺”這塊缺失已久的拼圖了。
V4剛發布不到五天,官方已經連續三輪降價,幅度和頻次在業內罕見。但降價只是吸引注意力的前菜,前后腳流出的“視覺”模式選項,才是外界真正等待的那只靴子。
在最新客戶端的模型選單里,“快速”“專家”“視覺”三個獨立的選項并列而立,前兩者分別對應V4的Flash和Pro版本,而“視覺”這個留了很久的坑位,不出意外正是為多模態預留的接口。
關于新版DeepSeek V4多模態的具體參數和性能邊界,DeepSeek官方目前基本上三緘其口。
但參照V4 Pro在純文本領域的水準,市場普遍預測它的視覺理解能力至少會沖進第一梯隊。
DeepSeek歷來不把沖評測榜排名當作最高優先級,外界更關注的是它能否延續一貫的性價比路線,把多模態API的調用成本打下來。如果這個預期成立,它對行業的影響可能比前幾輪降價來得更猛烈。
就在DeepSeek緊鑼密鼓推進多模態落地的同時,半個多月前發布的SuperCLUE-VLM 4月最新評測報告揭曉了一個相當有意思的結果,字節跳動旗下的Doubao-Seed-2.0-Pro-260215以90.66分拿下總榜冠軍,一舉超越了此前備受關注的谷歌Gemini-3.1-Pro-Preview〔89.35分〕。
這項評測涵蓋全球17款主流大模型,阿里Qwen3.5系列、商湯SenseNova、智譜GLM等國產模型均躋身前列,而OpenAI的GPT-5.4和X.AI的Grok位列中游。
在基礎認知和數據分析兩個細分維度上,國產模型得分普遍超過90分,中文場景適配上的優勢相當明顯。不過在工業檢測、高精度醫療影像等專業性較強的視覺推理任務上,國產模型與全球頂尖水平仍有差距。
如果把目光放回到整個行業,2026年開年以來圍繞多模態的競爭已經進入了一個相當激烈的階段。
阿里通義千問在3月下旬發布了旗艦級原生全模態大模型Qwen3.5-Omni,與常見的“視覺模型加語言模型加語音模型”拼接式方案不同,它采用原生端到端架構,基于超一億小時的音視頻數據完成預訓練。
官方數據顯示它拿下了215項SOTA成績,通用音頻理解全面超越Gemini-3.1 Pro,同時保持了文本與視覺能力不降智的水準。
Kimi在1月份拿出了K2.5,接著4月下旬又發布了K2.6。Kimi路線和DeepSeek差異不小,K2.5不止做多模態,更是直接往“能干活”的助理方向推進,百人規模的Agent集群并行執行任務,背后是月之暗面對系統智能和落地場景的押注。
商湯也在同一周發布并開源了SenseNova U1模型,基于單一框架整合多模態理解、推理和生成。
三年前困擾從業者的“輪到我了嗎”式觀望情緒,如今已經徹底讓給了“來晚了嗎”式的緊迫感,一位研究者的感慨點破了行業心態的微妙變化。
國產視覺模型在中文場景建立了實打實的壁壘,但這張牌桌遠沒有定型。DeepSeek在純文本調用價格上已經殺到了行業地板價,多模態版能否復制同樣的性價比優勢,考驗的不僅是技術能力,更是工程化能否延續V4 Pro的優異表現。
多模態能力遲早會像今天的文本對話一樣成為基礎設施,到那個時間點再看,到底是哪幾家玩家把餅攤得最大。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.