![]()
智東西
作者 陳駿達
編輯 云鵬
智東西4月29日報道,剛剛,DeepSeek的多模態能力已經開啟灰度測試。現在,被選中的用戶會發現,DeepSeek首頁多了一個“識圖模式”的入口。上傳圖片后,DeepSeek能像人一樣理解畫面,不管是物體還是場景,而不是像過去僅能識別文字。
![]()
多位DeepSeek研究員第一時間發文宣傳了這一新功能。DeepSeek研究員陳德里稱,這一功能來自DeepSeek的“天才多模態同事們”,小鯨魚現在有了看見世界的能力。
![]()
▲DeepSeek多位研究員宣布識圖模式的灰度上線(圖源:X平臺)
我們也有幸被灰度到了,并迅速進行了一波測試。
首先是基本的識物能力,我們上傳了一張兔子的照片,識圖模式下DeepSeek一眼就判斷出兔子的品種,并且可以描述這只兔子的姿態。
![]()
我們給DeepSeek上了點難度,上傳了一張來自它老家杭州知名景點靈隱寺的照片,圖中僅有右下角的路燈上有草書寫就的“靈隱寺”字樣,不過對人類來說這些字樣也有點難懂。我們要求DeepSeek判斷這是哪里,并報出圖城市的經緯度。
![]()
根據建筑風格和路燈上的字樣,DeepSeek很快判斷出這里是靈隱寺,給出的坐標準確無誤。其生成速度也很快,未開啟思考模式時,一眨眼的功夫就好了。
![]()
我們又上傳了一張包含視覺陷阱的圖片,這張圖中幾個物品的擺放很容易讓人誤以為圖中有個人坐在椅子上。
![]()
這樣的題目同樣沒能難倒DeepSeek,它判斷圖中有墻面修補痕跡、垃圾收集區、雜物等等,沒有被視覺陷阱蒙騙。
![]()
DeepSeek的視覺模式支持深度思考,我們上傳了一張隨手拍的照片,圖中沒有任何文字參考,看看DeepSeek能否根據蛛絲馬跡判斷出位置。
![]()
開啟推理后,DeepSeek的視覺能力明顯增強了。它可以分步驟拆解畫面信息,能看到前景、中景、背景的所有信息,然后將地標特征與地理區域匹配,直接判斷出山脈是燕山山脈、建筑風格在北京昌平等郊區很常見。
![]()
最后它直接把范圍收窄到北京昌平區或者海淀山后地區,其中某些猜測選項離我的實際距離已經不到10公里。未來如果接入聯網搜索,DeepSeek很可能就順著網線把我家地址給開盒了。
![]()
我們還嘗試了熱門的看手相玩法,上傳后,DeepSeek第一眼先把左右手看錯了,我們上傳的圖片是左手,它判斷成了右手。
![]()
進入實際分析后,DeepSeek對手相形態的描述基本符合事實,分析得也是頭頭是道,不過具體該相信多少,這就見仁見智了。
![]()
結語:DeepSeek多模態拼圖,終于補齊
在過去很長一段時間里,DeepSeek多模態能力的缺失一直是一個遺憾。DeepSeek一直維持著多模態的相關研究,并曾在早期發布開源多模態模型Janus等成果。不過,DeepSeek一直未在其產品中向公眾提供多模態能力。
AI走向多模態已經成為不可逆轉的大趨勢。多模態內容所蘊藏的豐富信息可以擴展AI認知這一世界的觸角,也更貼近人類本身理解世界的方式。目前,DeepSeek的識圖模式還只是一個測試功能,不過它已經讓我們看到了其在視覺解析與跨模態推理上的潛力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.