在DeepSeek一記V4重拳徹底引爆科技圈的五天后,DeepSeek內(nèi)部負(fù)責(zé)多模態(tài)的研究員陳小康在X上發(fā)布了這么一條帖子,并且附上了文字:
Now, we see you.
![]()
(圖源:雷科技)
沒(méi)錯(cuò),就是字面意思。
當(dāng)所有人還在為V4的價(jià)格和編碼能力而驚嘆時(shí),DeepSeek突然開(kāi)測(cè)識(shí)圖模式,全網(wǎng)熱議了一整年的多模態(tài)能力總算是落地了。
這更新速度,真心讓人覺(jué)得梁文鋒是不是為了不被網(wǎng)友做成不務(wù)正業(yè)的梗圖,連夜把開(kāi)發(fā)團(tuán)隊(duì)鎖在了機(jī)房里。
需要注意的是,這次測(cè)試并非全量測(cè)試,而是小范圍的灰度測(cè)試,只有部分用戶能在DeepSeek官方App或網(wǎng)頁(yè)版里看到,此時(shí)輸入欄上方除了原有的快速模式、專(zhuān)家模式外,還會(huì)新增識(shí)圖模式按鈕,并標(biāo)注“圖片理解功能內(nèi)測(cè)中”。
![]()
(圖源:雷科技)
不巧的是,筆者的同事們?nèi)慷紱](méi)能被灰度測(cè)試到,被DeepSeek官方抽到的人數(shù)居然高達(dá)0人!
幸運(yùn)的是,筆者居然還真就成了那萬(wàn)中無(wú)一的天選之人。
既然這么巧合,小雷不給大家測(cè)試一番,多少有點(diǎn)過(guò)意不去。這次我精心選擇了12張圖片,讓大家好好看看DeepSeek到底能看到什么?
理解能力強(qiáng),知識(shí)庫(kù)待更新
話不多說(shuō),我們直接從畫(huà)面描述開(kāi)始測(cè)試。
之所以將這個(gè)放在第一位,是因?yàn)檫@是視覺(jué)理解在實(shí)際場(chǎng)景中應(yīng)用最多的一項(xiàng)功能。
以我們?nèi)粘I顬槔诼愤吙吹揭恢杲胁怀雒值钠孑庵参铮蛘呦胝艺夷晨畲┐畹耐铈溄樱踔潦窃诋悋?guó)他鄉(xiāng)對(duì)著滿屏外文菜單發(fā)愁時(shí),大家現(xiàn)在的第一反應(yīng)多半是拍張照丟給AI問(wèn)一句:“這是啥?”
這種“所見(jiàn)即所問(wèn)”的交互,本質(zhì)上就是在考驗(yàn)?zāi)P偷囊曈X(jué)理解功底。
而這次我準(zhǔn)備了三張圖用作測(cè)試,分別是一張Coser圖像、我在博物館里的見(jiàn)聞以及一張信息量繁雜的活動(dòng)現(xiàn)場(chǎng)圖片。
![]()
(圖源:雷科技)
提示詞:請(qǐng)?jiān)敿?xì)描述一下這張圖,字?jǐn)?shù)控制在250字以?xún)?nèi)。
對(duì)于第一張圖片,DeepSeek的回答是這樣的:
![]()
(圖源:雷科技)
沒(méi)錯(cuò),DeepSeek不但完整描述了整個(gè)畫(huà)面細(xì)節(jié),而且還認(rèn)出了圖片里的角色,甚至還把拍攝這種圖片中的背景、打光等元素等如實(shí)還原出來(lái),用這套文字去文生圖模型里直接就能還原一張高度類(lèi)似的圖片。
要知道,這個(gè)效果可是沒(méi)開(kāi)思考模式的。
對(duì)于第二張圖片,DeepSeek的回答是這樣的:
![]()
(圖源:雷科技)
不打開(kāi)思考模式的情況下,這次回答就是很單純的畫(huà)面描述,沒(méi)有對(duì)于物品的解析,但是描述本身還是挺到位的,而且最后還是能看出來(lái)這款物品富有濃郁的中東或中亞藝術(shù)風(fēng)情,很可能是一件珍貴的宮廷或宗教禮儀用具。
那么,要是我打開(kāi)思考模式呢?
這下開(kāi)始解析了,首先是對(duì)物品進(jìn)行拆解,定義它是什么、有什么特征、所處的環(huán)境怎么樣。
![]()
(圖源:雷科技)
然后就開(kāi)始下定義了,它認(rèn)為是清代痕都斯坦風(fēng)格。
![]()
(圖源:雷科技)
那么清代痕都斯坦風(fēng)格是啥呢?根據(jù)Wiki解釋?zhuān)@是18世紀(jì)清朝乾隆時(shí)期引入的中亞伊斯蘭風(fēng)格玉器,主要源自北印度莫臥兒王國(guó)。
剛好,我去看的就是莫臥兒王國(guó)展,還真給它找出來(lái)了。
![]()
(圖源:雷科技)
對(duì)于第三張圖片,DeepSeek的回答是這樣的:
![]()
(圖源:雷科技)
除了畫(huà)面描述、文字信息讀取,這次它還果斷判斷這是屬于中國(guó)建博會(huì)·廣州的活動(dòng)現(xiàn)場(chǎng)圖片,只能說(shuō)圖片理解這塊確實(shí)沒(méi)毛病嗷。
當(dāng)然了,上面這些內(nèi)容都是看圖說(shuō)話,那么更新一點(diǎn)的信息識(shí)別如何呢?
這次我準(zhǔn)備了近些年的三張圖片,提示詞:圖片里的東西是什么?并說(shuō)出你的依據(jù),字?jǐn)?shù)控制在200個(gè)字以?xún)?nèi)。
![]()
(圖源:雷科技)
對(duì)于第一張圖片,DeepSeek的回答是這樣的:
![]()
(圖源:雷科技)
嗯...至少能從圖片里看出寶可夢(mèng)的信息,但是《Pokopia》這款游戲還是太新了,明顯不在DeepSeek的知識(shí)庫(kù)里。
對(duì)于第二張圖片,DeepSeek的回答是這樣的:
![]()
(圖源:雷科技)
這次倒是判斷得很準(zhǔn)確,這確實(shí)是一張從3dm扒下來(lái)的FM24戰(zhàn)術(shù)圖。
對(duì)于第三張圖片,DeepSeek的回答是這樣的:
![]()
(圖源:雷科技)
不難看出,它確實(shí)缺乏了最新的產(chǎn)品信息,但居然能通過(guò)副屏來(lái)判斷成小米11 Ultra,只能說(shuō)DeepSeek識(shí)圖在邏輯這塊真的拿捏了。
邏輯問(wèn)題,同樣搞不定
接下來(lái),我們來(lái)試試元素識(shí)別。
這部分,說(shuō)人話就是考驗(yàn)AI的眼力見(jiàn)了,里面有些題目,哪怕是真人來(lái)了也不一定能做出來(lái)。
誒,順便看看DeepSeek會(huì)不會(huì)也是個(gè)色盲。
這類(lèi)圖片在網(wǎng)上那叫一個(gè)多啊,我干脆直接上谷歌搜羅了這些圖來(lái)測(cè)試用,大家也別客氣。
![]()
(圖源:雷科技)
先測(cè)第一個(gè),提示詞:請(qǐng)直接告訴我這張圖中有幾只老虎。
讓人想不到的是,這個(gè)問(wèn)題居然能讓DeepSeek開(kāi)始自我博弈起來(lái),不斷地否認(rèn)自己上一次數(shù)出來(lái)的結(jié)果,最后更是在兩次數(shù)出6只老虎的情況下,堅(jiān)定地回答了7只出來(lái)。
![]()
(圖源:雷科技)
問(wèn)題在于,這圖里有10只老虎,這就讓人很尷尬了。
再測(cè)第二個(gè),提示詞:這張圖中隱藏著一組數(shù)字,請(qǐng)你直接告訴我其中有幾個(gè)數(shù)字,它們分別是什么。
![]()
(圖源:雷科技)
咋說(shuō)呢,這個(gè)圖之前就難倒過(guò)所有AI, DeepSeek同樣沒(méi)有能識(shí)別出來(lái)。
第三張圖也是如此,可以說(shuō),這一類(lèi)基于反色、碎塊化的圖片,依然是視覺(jué)理解的一生之?dāng)场?/p>
![]()
(圖源:雷科技)
最后是三道圖形邏輯題,之前DeepSeek-V4在做邏輯題的時(shí)候表現(xiàn)就一般,不知道應(yīng)對(duì)圖形邏輯題的效果如何。
據(jù)說(shuō)這三道都是行測(cè)例題,我們讓DeepSeek來(lái)解答一下。
![]()
(圖源:雷科技)
第一道,思考了整整三分鐘。
![]()
(圖源:雷科技)
答案是錯(cuò)的,正確答案是D。這圖的邏輯其實(shí)還挺好懂的,就是前面兩格單白/單黑的地方,第三格是白的,前面兩格雙白/雙黑的地方,第三格就是黑的。
第二道題自然也是不負(fù)眾望,錯(cuò)!
沒(méi)想到,在我已經(jīng)失去希望的情況下,經(jīng)過(guò)六分鐘深度思考后,這第三道題,居然是讓DeepSeek給答對(duì)了!
![]()
(圖源:雷科技)
我反復(fù)試了兩遍,只能說(shuō)這道題它確實(shí)能推理出來(lái),雖說(shuō)是采用算數(shù)的形式,但確實(shí)實(shí)現(xiàn)了零的突破。
只能說(shuō),行測(cè)備考你用這個(gè),這輩子也是有了。
總結(jié):識(shí)圖只是前菜,多模態(tài)大招還在路上
完整測(cè)試下來(lái),小雷我對(duì)DeepSeek這次的識(shí)圖能力算摸透了。
只能說(shuō)DeepSeek基礎(chǔ)識(shí)圖的準(zhǔn)確率其實(shí)還是比較高的,然后它的推理思路本身也算有條不紊,但是目前知識(shí)庫(kù)里保存的信息還不夠多,而且面對(duì)難度較高的極限測(cè)試,基本上就沒(méi)有能做對(duì)的時(shí)候。
但是,這次起碼不會(huì)出現(xiàn)思考半天吧啦吧啦沒(méi)完沒(méi)了的情況。
![]()
(圖源:DeepSeek)
在我看來(lái),這次識(shí)圖更像是過(guò)渡期的開(kāi)胃菜,這個(gè)識(shí)圖模式,更接近一個(gè)掛載在DeepSeek-V4主干上的視覺(jué)理解模塊,而并非DeepSeek-V4本身的多模態(tài)能力。
但至少,它證明DeepSeek團(tuán)隊(duì)在視覺(jué)理解上已經(jīng)跑通了,這明顯是在為接下來(lái)的原生多模態(tài)大招鋪路。可以預(yù)見(jiàn)的是,補(bǔ)上這塊短板后,整個(gè)國(guó)產(chǎn)模型的格局必然會(huì)再次發(fā)生改變。
至于沒(méi)拿到資格的也別急,就DeepSeek目前這個(gè)效果,豆包和千問(wèn)其實(shí)夠用了。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.