剛剛,有群友丟出一張DeepSeek官網(wǎng)的截圖,不是生成,是真的截圖。
![]()
信息不多,但很關(guān)鍵,DeepSeek正在內(nèi)測「識圖模式」。注意,這不是OCR文字識別,而是真正的視覺理解。
從目前流出的體驗(yàn)case來看,它不僅能“看見”,還能“理解”。
畫面主體對象、位置關(guān)系、膚色與著裝細(xì)節(jié)、光影結(jié)構(gòu),甚至整體氛圍,都可以被DeepSeek拆解分析。更重要的是,它還帶有一定的反思能力——不只是給答案,而是會對自己的判斷進(jìn)行校驗(yàn)。
![]()
case鏈接:https://chat.deepseek.com/share/ablc57vmv2ompm3vy6
再往前串一下時間線,就更有意思了。
昨天,DeepSeek多模態(tài)團(tuán)隊研究員@Xiaokang Chen 在 X 上發(fā)了一句:“Soon, we see you. ”。
![]()
但這條動態(tài)很快又被刪除。
結(jié)合這兩條線索來看,一個相對清晰的判斷是:DeepSeek的多模態(tài)能力,很有可能會在五一前上線。
如果這個節(jié)奏成立,那意義其實(shí)不小。
因?yàn)樵谶^去很長一段時間里,多模態(tài)一直DeepSeek最明顯的一塊短板。因?yàn)橄忍炷芰Φ娜笔В诤芏鄨鼍吧鲜冀K落后于一線模型。
此前,我們已對DeepSeek V4做過多篇橫評:
結(jié)論很直接:DeepSeek V4的1M上下文能力很強(qiáng),但一旦進(jìn)入視覺維度,就會出現(xiàn)明顯斷層。
如果這次視覺理解能夠補(bǔ)齊短板,那DeepSeek的使用場景將會明顯豐富。
更關(guān)鍵的是,這不是一個錦上添花的功能。
在Agent越來越普及的今天,“看懂世界”的能力,正在變成基礎(chǔ)設(shè)施。沒有視覺,多數(shù)真實(shí)場景都無法閉環(huán)。
所以,這一波,不只是補(bǔ)短板,更像是補(bǔ)齊入場券。
![]()
接下來就看兩點(diǎn)了:
一是效果到底能達(dá)到什么水平;
二是開放策略,是小范圍試水,還是直接全面開放。
如果兩點(diǎn)都給到位,那今年的模型競爭,可能要再多一個變量了。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.