剛剛,DeepSeek 的「識圖模式」開始灰度了。
網(wǎng)頁版和 App 里,有些用戶已經(jīng)能看到它和「快速模式」「專家模式」并列出現(xiàn)。
![]()
后端配置里也能看到“name: 識圖模式、description: 圖片理解功能內(nèi)測中”,這些字段。
![]()
5 天前,DeepSeek 剛發(fā)布 V4 預(yù)覽版。現(xiàn)在,鯨魚終于睜眼了。
DeepSeek 識圖模式剛灰度,民間評測已經(jīng)開始了。大家打開手機(jī)相冊,直接出題:數(shù)手指、認(rèn)動漫、看表情包、讀截圖、猜商品、找隱藏信息、判斷一只貓到底是不是「被迫營業(yè)」。
我從夕小瑤Family群和網(wǎng)上挑了一些網(wǎng)友測試case,給大家先過過眼。
?第一關(guān),看見
之前Deepseek只能識別圖片里的文字,現(xiàn)在可以理解圖片了。
![]()
這類題測的是視覺模型的基礎(chǔ)能力。
![]()
包括這個恐龍,都能用代碼畫出來了。那看起來,在這類題上,DeepSeek 已經(jīng)cover住了。
至少從用戶截圖看,它不是過去那種只會 OCR 的狀態(tài),真的把畫面元素一起讀進(jìn)去了。
入門關(guān),完美通過。
?第二關(guān),懂梗
網(wǎng)友最愛測的第二類題,是文化語境題。
![]()
它要求模型知道畫面之外的東西。
誰是特朗普?誰是魯路修?必須先知道才能答上來。這類題會結(jié)合一部分世界知識,考驗理解能力。
還有這個,這個小貓給人一種什么感覺?
![]()
可以看到,對情緒的理解也相當(dāng)?shù)轿弧D芸炊黧w是啥,還能看懂大家為什么轉(zhuǎn)發(fā)給它,第二關(guān),過!
?第三關(guān),別裝懂
下面是更難的第三關(guān),反直覺題。
比如數(shù)手指、視錯覺、隱藏圖案、低清截圖、故意模糊的二創(chuàng)圖。
這些題很煩。它們不只考模型看沒看見,還考模型邏輯推理能力。
![]()
就比如這個比大小。。
![]()
看起來,需要多讓他思考幾遍才能弄得明白。
DeepSeek一直以來最大的短板就是多模態(tài)。語言和推理能力卷到第一梯隊了,但視覺理解一直缺位。現(xiàn)在補(bǔ)上識圖,終于補(bǔ)了一塊「多模態(tài)」短板。
來源 | 夕小瑤科技說(ID:xixiaoyaoQAQ)
作者 | 丸美小沐 ; 編輯 | 呼呼大睡
內(nèi)容僅代表作者獨立觀點,不代表早讀課立場
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.