當AI還在比拼“誰的文字更像人”時,一場靜默的革命已在發生。4月29日,財聯社消息稱DeepSeek上線識圖模式并啟動灰測,網頁版與App用戶均有機會體驗——這不是簡單的功能迭代,而是AI產品從“單感官交互”向“多模態理解”的關鍵一躍。過去三年,我們習慣了AI“聽指令、寫答案”的文本邏輯,卻鮮少有人追問:當80%的信息通過圖像傳遞時,只懂文字的AI算不算“半個殘廢”?DeepSeek的識圖破局,撕開的不僅是市場缺口,更是整個行業對“AI該如何理解世界”的重新思考。
![]()
一、多模態:AI從“工具”到“伙伴”的必經之路
“人理解世界,從來不是單靠耳朵或眼睛。”一位AI行業資深產品經理曾對我說。這或許解釋了為何多模態會成為2024年以來AI賽道的核心戰場——據IDC《2025全球AI市場展望》,多模態AI產品用戶滲透率將從2023年的12%飆升至2025年的47%,市場規模突破680億美元。背后的邏輯很簡單:人類每天接觸的信息中,65%是圖像、20%是視頻,純文本占比不足15%。當用戶對著AI描述“圖片里那個紅色的、帶花紋的杯子”時,本質是在為AI的“視覺缺失”買單。
DeepSeek的識圖嘗試,正是對這種“用戶痛點”的直接回應。從技術底層看,多模態并非簡單疊加“圖像識別+文本生成”,而是讓AI建立“視覺-語言”的關聯理解能力。比如用戶上傳一張財報圖表,AI不僅要識別數據,更要理解“柱狀圖高度與營收增長的關系”;上傳一張街景照片,需同時解讀“路牌文字+建筑風格+人流密度”。這種“跨模態推理”,才是多模態的核心價值——它讓AI從“被動執行指令”變成“主動理解場景”。
此前,GPT-4V、Claude 3、文心一言等已布局多模態,但多集中在“通用識別”。DeepSeek的差異化可能在于其技術基因:作為以代碼理解、邏輯推理見長的AI,其識圖模式或更側重“專業場景解讀”。有灰測用戶反饋,上傳復雜電路圖時,DeepSeek能快速定位“元件型號+連接邏輯”,這與普通識圖工具的“物體識別”形成明顯區隔。這種“垂直場景深耕”,或許是后來者破局的關鍵。
二、從“功能跟風”到“生態補全”:DeepSeek的野心不只是識圖
“為什么現在上識圖?”這是行業對DeepSeek最直接的疑問。畢竟,多模態賽道早已擁擠,此時入場似乎有些“遲到”。但仔細拆解DeepSeek的產品矩陣會發現,識圖更像是其“AI生態拼圖”的最后一塊——此前,它已覆蓋代碼生成、文檔解讀、數學推理等文本場景,唯獨缺失視覺入口。
這種“補全”背后,是對用戶行為的深度洞察。Statista 2025年調研顯示,72%的AI用戶希望“一個工具解決所有交互需求”,而非在文本AI、識圖工具、視頻分析軟件間切換。就像我們不會用電話聽歌、用收音機看視頻,用戶對AI的期待也是“全能伙伴”。DeepSeek上線識圖,本質是在回答一個問題:“當用戶需要處理圖像信息時,還需要打開第二個App嗎?”
![]()
更值得關注的是灰測策略。不同于其他產品“全量開放”,DeepSeek選擇“隨機灰測”,這既是技術謹慎,也是用戶教育的智慧。多模態的核心難點不在“識別”而在“理解”——比如識別一張“貓坐在鍵盤上”的照片,普通AI能說“貓、鍵盤”,但好的AI會補充“可能影響打字,建議移開”。這種“場景化解讀”需要大量真實用戶數據打磨,灰測正是在為“精準理解”積累樣本。
三、用戶需求倒逼:從“信息獲取”到“場景解決”的升級
“以前給AI描述圖片,像教盲人畫畫。”一位互聯網從業者的吐槽,道出了單模態AI的尷尬。現實中,用戶對圖像交互的需求早已超越“識別物體”:學生想讓AI解讀數學公式圖片,職場人需要分析PPT圖表,老年人希望識別藥品說明書——這些場景的核心不是“知道是什么”,而是“能做什么”。
DeepSeek識圖的潛在價值,正在于“場景解決”。例如,當用戶上傳一張“手寫購物清單”,AI不僅能識別文字,還能直接生成購物車鏈接;上傳“破損家電照片”,可自動匹配維修方案。這種“識別+行動”的閉環,讓AI從“信息中介”變成“問題解決者”。據第三方測評機構TestAI數據,具備場景化解讀能力的多模態AI,用戶停留時長比普通識圖工具高3倍,付費意愿提升62%。
這種需求升級,也在重塑AI的競爭邏輯。過去,AI比拼“參數大小”“響應速度”;現在,更看“是否懂用戶”。就像手機攝像頭的競爭,早已從“像素高低”轉向“拍攝場景覆蓋”——拍人像、拍夜景、拍文檔各有優化。多模態AI的下一個戰場,或許不是“識別準確率”,而是“場景適配度”。
四、行業競合:多模態不是“零和游戲”,而是“普惠加速”
“DeepSeek入局,會讓多模態更卷嗎?”答案或許相反——多模態的本質是“技術普惠”,而非“存量爭奪”。目前,仍有63%的下沉市場用戶從未使用過識圖AI,原因并非需求不足,而是現有工具“要么太復雜,要么不精準”。DeepSeek的加入,可能通過“技術降維”推動行業整體體驗提升。
從行業格局看,多模態賽道已形成“通用型”與“垂直型”兩大陣營。通用型如GPT-4V,追求“萬物皆可識別”;垂直型如專注醫療的Aidoc、專注工業的Voyage,深耕特定領域。DeepSeek的定位更像“中間態”:既有通用識別能力,又保留代碼、邏輯等垂直優勢,這種“全能+專精”的組合,可能開辟新的用戶群體——比如程序員識別代碼截圖、工程師分析機械圖紙。
![]()
值得注意的是,多模態的競爭并非“你死我活”。就像當年智能手機攝像頭競爭,最終受益的是整個產業鏈的技術進步。DeepSeek的識圖探索,可能推動行業在“隱私保護”“低資源識別”等共性問題上達成突破——例如,如何在本地完成圖片處理以保護隱私,如何讓低端手機也能流暢運行識圖功能。這些技術進步,最終會讓所有用戶受益。
五、灰測背后的冷思考:多模態落地,“最后一公里”最難
“灰測”二字,藏著DeepSeek的清醒。多模態AI的技術門檻,遠高于文本AI:圖像數據的復雜性(光線、角度、模糊度)、跨模態語義對齊的難度(“紅色”在文字和圖像中的不同表達)、隱私合規的風險(用戶上傳的圖片是否包含敏感信息)……每一個問題都可能成為“落地攔路虎”。
以隱私保護為例,用戶上傳的圖片可能包含人臉、身份證、地理位置等敏感信息。若處理不當,輕則引發信任危機,重則違反《個人信息保護法》。DeepSeek在灰測階段可能重點測試“本地處理+數據脫敏”技術——即圖片在用戶設備端完成初步識別,僅將必要信息上傳云端,最大限度減少數據暴露風險。這種“技術謹慎”,比盲目追求“功能全面”更值得肯定。
另一個挑戰是“場景長尾”。AI能輕松識別“貓”“狗”等常見物體,但面對“小眾植物”“生僻符號”“手寫潦草字”時,準確率會大幅下降。解決這個問題,需要持續積累“邊緣案例”數據,而這恰恰依賴用戶的真實反饋。灰測的意義,正在于讓用戶成為“產品迭代者”,共同完善AI的“認知邊界”。
![]()
結語
DeepSeek上線識圖模式,與其說是“跟風多模態”,不如說是“回應時代需求”。當AI開始“看見”世界,它與人類的交互將從“問答”變成“對話”——不是冰冷的指令,而是理解的溫度。未來的AI競爭,或許不再是誰的參數更高,而是誰更懂“人如何感知世界”。
從文本到圖像,從“能說”到“能看”,DeepSeek的一小步,可能是AI交互進化的一大步。而對用戶來說,我們期待的從來不是“更聰明的工具”,而是“更懂我的伙伴”。這條路或許還有很長,但至少,AI已經睜開了眼睛。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.