網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek終于「開(kāi)眼」！首發(fā)深度實(shí)測(cè)：12張圖看清它的識(shí)圖極限

2026-04-29 21:35:41　來(lái)源: 雷科技

廣東舉報(bào)

分享至

在DeepSeek一記V4重拳徹底引爆科技圈的五天后，DeepSeek內(nèi)部負(fù)責(zé)多模態(tài)的研究員陳小康在X上發(fā)布了這么一條帖子，并且附上了文字：

Now, we see you.

（圖源：雷科技）

沒(méi)錯(cuò)，就是字面意思。

當(dāng)所有人還在為V4的價(jià)格和編碼能力而驚嘆時(shí)，DeepSeek突然開(kāi)測(cè)識(shí)圖模式，全網(wǎng)熱議了一整年的多模態(tài)能力總算是落地了。

這更新速度，真心讓人覺(jué)得梁文鋒是不是為了不被網(wǎng)友做成不務(wù)正業(yè)的梗圖，連夜把開(kāi)發(fā)團(tuán)隊(duì)鎖在了機(jī)房里。

需要注意的是，這次測(cè)試并非全量測(cè)試，而是小范圍的灰度測(cè)試，只有部分用戶能在DeepSeek官方App或網(wǎng)頁(yè)版里看到，此時(shí)輸入欄上方除了原有的快速模式、專(zhuān)家模式外，還會(huì)新增識(shí)圖模式按鈕，并標(biāo)注“圖片理解功能內(nèi)測(cè)中”。

（圖源：雷科技）

不巧的是，筆者的同事們?nèi)慷紱](méi)能被灰度測(cè)試到，被DeepSeek官方抽到的人數(shù)居然高達(dá)0人！

幸運(yùn)的是，筆者居然還真就成了那萬(wàn)中無(wú)一的天選之人。

既然這么巧合，小雷不給大家測(cè)試一番，多少有點(diǎn)過(guò)意不去。這次我精心選擇了12張圖片，讓大家好好看看DeepSeek到底能看到什么？

理解能力強(qiáng)，知識(shí)庫(kù)待更新

話不多說(shuō)，我們直接從畫(huà)面描述開(kāi)始測(cè)試。

之所以將這個(gè)放在第一位，是因?yàn)檫@是視覺(jué)理解在實(shí)際場(chǎng)景中應(yīng)用最多的一項(xiàng)功能。

以我們?nèi)粘Ｉ顬槔诼愤吙吹揭恢杲胁怀雒值钠孑庵参铮蛘呦胝艺夷晨畲┐畹耐铈溄樱踔潦窃诋悋?guó)他鄉(xiāng)對(duì)著滿屏外文菜單發(fā)愁時(shí)，大家現(xiàn)在的第一反應(yīng)多半是拍張照丟給AI問(wèn)一句：“這是啥？”

這種“所見(jiàn)即所問(wèn)”的交互，本質(zhì)上就是在考驗(yàn)?zāi)Ｐ偷囊曈X(jué)理解功底。

而這次我準(zhǔn)備了三張圖用作測(cè)試，分別是一張Coser圖像、我在博物館里的見(jiàn)聞以及一張信息量繁雜的活動(dòng)現(xiàn)場(chǎng)圖片。

（圖源：雷科技）

提示詞：請(qǐng)?jiān)敿?xì)描述一下這張圖，字?jǐn)?shù)控制在250字以?xún)?nèi)。

對(duì)于第一張圖片，DeepSeek的回答是這樣的：

（圖源：雷科技）

沒(méi)錯(cuò)，DeepSeek不但完整描述了整個(gè)畫(huà)面細(xì)節(jié)，而且還認(rèn)出了圖片里的角色，甚至還把拍攝這種圖片中的背景、打光等元素等如實(shí)還原出來(lái)，用這套文字去文生圖模型里直接就能還原一張高度類(lèi)似的圖片。

要知道，這個(gè)效果可是沒(méi)開(kāi)思考模式的。

對(duì)于第二張圖片，DeepSeek的回答是這樣的：

（圖源：雷科技）

不打開(kāi)思考模式的情況下，這次回答就是很單純的畫(huà)面描述，沒(méi)有對(duì)于物品的解析，但是描述本身還是挺到位的，而且最后還是能看出來(lái)這款物品富有濃郁的中東或中亞藝術(shù)風(fēng)情，很可能是一件珍貴的宮廷或宗教禮儀用具。

那么，要是我打開(kāi)思考模式呢？

這下開(kāi)始解析了，首先是對(duì)物品進(jìn)行拆解，定義它是什么、有什么特征、所處的環(huán)境怎么樣。

（圖源：雷科技）

然后就開(kāi)始下定義了，它認(rèn)為是清代痕都斯坦風(fēng)格。

（圖源：雷科技）

那么清代痕都斯坦風(fēng)格是啥呢？根據(jù)Wiki解釋?zhuān)@是18世紀(jì)清朝乾隆時(shí)期引入的中亞伊斯蘭風(fēng)格玉器，主要源自北印度莫臥兒王國(guó)。

剛好，我去看的就是莫臥兒王國(guó)展，還真給它找出來(lái)了。

（圖源：雷科技）

對(duì)于第三張圖片，DeepSeek的回答是這樣的：

（圖源：雷科技）

除了畫(huà)面描述、文字信息讀取，這次它還果斷判斷這是屬于中國(guó)建博會(huì)·廣州的活動(dòng)現(xiàn)場(chǎng)圖片，只能說(shuō)圖片理解這塊確實(shí)沒(méi)毛病嗷。

當(dāng)然了，上面這些內(nèi)容都是看圖說(shuō)話，那么更新一點(diǎn)的信息識(shí)別如何呢？

這次我準(zhǔn)備了近些年的三張圖片，提示詞：圖片里的東西是什么？并說(shuō)出你的依據(jù)，字?jǐn)?shù)控制在200個(gè)字以?xún)?nèi)。

（圖源：雷科技）

對(duì)于第一張圖片，DeepSeek的回答是這樣的：

（圖源：雷科技）

嗯...至少能從圖片里看出寶可夢(mèng)的信息，但是《Pokopia》這款游戲還是太新了，明顯不在DeepSeek的知識(shí)庫(kù)里。

對(duì)于第二張圖片，DeepSeek的回答是這樣的：

（圖源：雷科技）

這次倒是判斷得很準(zhǔn)確，這確實(shí)是一張從3dm扒下來(lái)的FM24戰(zhàn)術(shù)圖。

對(duì)于第三張圖片，DeepSeek的回答是這樣的：

（圖源：雷科技）

不難看出，它確實(shí)缺乏了最新的產(chǎn)品信息，但居然能通過(guò)副屏來(lái)判斷成小米11 Ultra，只能說(shuō)DeepSeek識(shí)圖在邏輯這塊真的拿捏了。

邏輯問(wèn)題，同樣搞不定

接下來(lái)，我們來(lái)試試元素識(shí)別。

這部分，說(shuō)人話就是考驗(yàn)AI的眼力見(jiàn)了，里面有些題目，哪怕是真人來(lái)了也不一定能做出來(lái)。

誒，順便看看DeepSeek會(huì)不會(huì)也是個(gè)色盲。

這類(lèi)圖片在網(wǎng)上那叫一個(gè)多啊，我干脆直接上谷歌搜羅了這些圖來(lái)測(cè)試用，大家也別客氣。

（圖源：雷科技）

先測(cè)第一個(gè)，提示詞：請(qǐng)直接告訴我這張圖中有幾只老虎。

讓人想不到的是，這個(gè)問(wèn)題居然能讓DeepSeek開(kāi)始自我博弈起來(lái)，不斷地否認(rèn)自己上一次數(shù)出來(lái)的結(jié)果，最后更是在兩次數(shù)出6只老虎的情況下，堅(jiān)定地回答了7只出來(lái)。

（圖源：雷科技）

問(wèn)題在于，這圖里有10只老虎，這就讓人很尷尬了。

再測(cè)第二個(gè)，提示詞：這張圖中隱藏著一組數(shù)字，請(qǐng)你直接告訴我其中有幾個(gè)數(shù)字，它們分別是什么。

（圖源：雷科技）

咋說(shuō)呢，這個(gè)圖之前就難倒過(guò)所有AI， DeepSeek同樣沒(méi)有能識(shí)別出來(lái)。

第三張圖也是如此，可以說(shuō)，這一類(lèi)基于反色、碎塊化的圖片，依然是視覺(jué)理解的一生之?dāng)场?/p>

（圖源：雷科技）

最后是三道圖形邏輯題，之前DeepSeek-V4在做邏輯題的時(shí)候表現(xiàn)就一般，不知道應(yīng)對(duì)圖形邏輯題的效果如何。

據(jù)說(shuō)這三道都是行測(cè)例題，我們讓DeepSeek來(lái)解答一下。

（圖源：雷科技）

第一道，思考了整整三分鐘。

（圖源：雷科技）

答案是錯(cuò)的，正確答案是D。這圖的邏輯其實(shí)還挺好懂的，就是前面兩格單白/單黑的地方，第三格是白的，前面兩格雙白/雙黑的地方，第三格就是黑的。

第二道題自然也是不負(fù)眾望，錯(cuò)！

沒(méi)想到，在我已經(jīng)失去希望的情況下，經(jīng)過(guò)六分鐘深度思考后，這第三道題，居然是讓DeepSeek給答對(duì)了！

（圖源：雷科技）

我反復(fù)試了兩遍，只能說(shuō)這道題它確實(shí)能推理出來(lái)，雖說(shuō)是采用算數(shù)的形式，但確實(shí)實(shí)現(xiàn)了零的突破。

只能說(shuō)，行測(cè)備考你用這個(gè)，這輩子也是有了。

總結(jié)：識(shí)圖只是前菜，多模態(tài)大招還在路上

完整測(cè)試下來(lái)，小雷我對(duì)DeepSeek這次的識(shí)圖能力算摸透了。

只能說(shuō)DeepSeek基礎(chǔ)識(shí)圖的準(zhǔn)確率其實(shí)還是比較高的，然后它的推理思路本身也算有條不紊，但是目前知識(shí)庫(kù)里保存的信息還不夠多，而且面對(duì)難度較高的極限測(cè)試，基本上就沒(méi)有能做對(duì)的時(shí)候。

但是，這次起碼不會(huì)出現(xiàn)思考半天吧啦吧啦沒(méi)完沒(méi)了的情況。

（圖源：DeepSeek）

在我看來(lái)，這次識(shí)圖更像是過(guò)渡期的開(kāi)胃菜，這個(gè)識(shí)圖模式，更接近一個(gè)掛載在DeepSeek-V4主干上的視覺(jué)理解模塊，而并非DeepSeek-V4本身的多模態(tài)能力。

但至少，它證明DeepSeek團(tuán)隊(duì)在視覺(jué)理解上已經(jīng)跑通了，這明顯是在為接下來(lái)的原生多模態(tài)大招鋪路。可以預(yù)見(jiàn)的是，補(bǔ)上這塊短板后，整個(gè)國(guó)產(chǎn)模型的格局必然會(huì)再次發(fā)生改變。

至于沒(méi)拿到資格的也別急，就DeepSeek目前這個(gè)效果，豆包和千問(wèn)其實(shí)夠用了。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.