網易首頁 > 網易號 > 正文申請入駐

DeepSeek首次有了視覺能力，技術論文卻被它連夜刪掉了

2026-05-01 10:40:08　來源: 硅星人

北京舉報

分享至

作者｜孫芮
郵箱｜ sunrui@pingwest.com

DeepSeek做了件罕見的事情：在終于開始灰測多模態能力后，它放出了一篇解釋背后技術的論文，但這篇論文卻在發布沒多久就又被悄悄撤掉。

4月29日，DeepSeek研究員陳小康在X發布一條推文——現在，我們可以看見你了。配圖中，DeepSeek 標志性的鯨魚 logo 摘下眼罩，露出了眼睛。

過去，DeepSeek 最被外界熟知的是它在文本、代碼和推理任務上的能力。但真實世界里的問題，并不總是以文字形式出現。它們可能是一張照片、一頁論文圖表、一個網頁截圖、一份復雜表格，也可能是一個需要理解空間關系和視覺細節的現實場景。

對 DeepSeek 來說，視覺能力是讓它的推理能力從文本世界延伸到真實世界的關鍵一步。但這次灰測的視覺能力，很快被使用者們感覺到不同：它和其他模型給語言模型底座增加多模態功能不同，更像是一個單獨的模型，且不是以附庸形式定位，而是有某種原生的思考和推理能力。

就在大家好奇心增加的時候，DeepSeek發布了一篇解釋它追求的視覺能力的論文：《Thinking with Visual Primitives》。

Primitives是圖形學和幾何里的常用術語，Visual Primitves可以理解為那些用來描述幾何信息圖形空間信息的最基本元素，也可以稱為視覺基元。從這個題目就可以看出，DeepSeek眼里此刻最重要的“多模態”能力，依然是圍繞推理和思考，它要讓模型能在原生層面用圖形的基礎語言做更準確的思考。

這并不是所有主流模型廠商在多模態領域的方向，這讓人意外，但這個想法非常有趣。DeepSeek再次給基礎研究提供了新的思路。

但更加讓人意外的是，這篇論文很快就被撤下了，沒有給出任何解釋，也不確定是否會再次發布。

所以，DeepSeek這次的視覺能力到底是怎樣的？我們結合實測、它的研究員的分享，以及這篇“消失”的論文的內容，來嘗試解釋一下它的做法。

01 當DeepSeek 的視覺能力，開始進入真實場景

目前DeepSeek的視覺模式還在灰度測試，逐步向用戶開放中。

從 X 上已經試用到這一功能的用戶反饋來看，DeepSeek 的視覺能力并不只是識別圖片里有什么，更重要的是，它會嘗試把圖像中的信息和已有的世界知識聯系起來。

有用戶在X上表示DeepSeek視覺模式的世界知識非常豐富，思考過程也很有趣。他在公司附近拍了一張照片，發給DeepSeek。在DeepSeek的思考過程中可以看到，它幾乎知道我公司附近的每一棟樓，并盡量搜索正確的那棟。并且這個過程中沒有用到聯網搜索能力。

還有用戶表示DeepSeek的網頁復刻還原能力非常好。這對設計師和產品經理來說，它可以讓視覺稿更快變成可演示的原型。以前從 Figma、截圖或參考網頁到可點擊 demo，中間需要設計師標注、開發切圖、工程師實現。現在模型能直接讀懂頁面，并生成接近真實效果的網頁，讓想法驗證的周期大幅變短。

我實際測試了DeepSeek的視覺理解能力。我發送了一張迷宮圖讓它解答。

DeepSeek的思考過程十分嚴謹，它用的是反向推理的方法，從終點出發，逐步反向追蹤，走到起點。為了驗證解法的可行性，DeepSeek這一路徑用正向的方式走了一遍，然后它又核算了一遍，再輸出最終答案。整個過程中，DeepSeek推理了四遍路徑的可行性。

02 多模態模型的難題，不只是看不清

陳小康在30號發布的推文中給了更詳細的解釋：傳統的思維鏈（CoT）主要停留在語言空間里，但視覺推理需要更多能力。通過把點和框作為認知錨點，我們的模型彌合了“指代鴻溝”（Reference Gap），模擬了人類在視覺推理中常用的“指向—推理”協同機制。

通過DeepSeek發布的報告，我們可以看到他們針對視覺理解提出了一個新的推理框架，就是使用視覺基元進行思考（Thinking with Visual Primitives）。

什么是使用視覺基元進行思考呢？

簡單來說，就是讓模型在看圖推理時，不再只依賴自然語言描述，而是把圖像中的點、邊界框、路徑坐標等空間標記，也作為推理過程的一部分。

以往多模態模型面對一張圖片時，通常會用語言來組織思考。比如它會說“左邊那個人”“右上角的物體”“中間那條路”。但問題在于，這些描述在人類看來很自然，對模型來說卻并不總是精確。尤其在一張復雜圖片里，如果有很多相似的人、物體或區域，“左邊那個”“旁邊那個”很容易變得模糊，模型也可能在推理過程中把對象搞混。

DeepSeek 在報告中把這個問題稱為“指代鴻溝”。也就是說，模型不是完全看不見，而是看見之后，很難在連續的視覺空間中穩定地指向自己正在討論的對象。

視覺基元要解決的正是這個問題。所謂視覺基元，可以理解為模型在圖像中的“手指”。當模型數一張合照里有多少人時，它可以先用邊界框把每個人標出來，再進行統計；當模型判斷兩個物體的位置關系時，它可以先框出相關物體，再比較它們的相對位置；當模型走迷宮或追蹤一條線時，它可以用一串點記錄路徑，而不是只用語言說“往左、再往右”。

這樣一來，模型的推理就不再懸浮在文字里，而是被錨定到圖像中的具體位置。這也是 DeepSeek 使用視覺基元進行思考最重要的變化，多模態模型的能力不只是看得更清楚，還要指得更準確。

03 DeepSeek 怎么做視覺推理

陳小康指出，目前DeepSeek的視覺模型主要處理三類任務：計數、空間推理和拓撲推理。

DeepSeek 的做法不是簡單讓模型看更高分辨率的圖片，而是讓模型在推理過程中使用點、框、路徑坐標這些“視覺基元”，把每一步判斷都落到圖像中的具體位置上。

在計數任務上，DeepSeek 主要使用的是邊界框。

報告中說，多模態大語言模型一直很難做到準確計數，尤其是在密集場景中。人類在數東西時，通常會采用一種“系統掃描和累加”的方式，比如從左到右一個個點著數。但語言模型在對象數量較多時，很難建立精確的對象對應關系。為了解決這個問題，DeepSeek 使用邊界框作為視覺基元，為每個被計數對象提供明確的視覺錨點。

也就是說，模型不是直接憑感覺回答“有多少個”，而是先把目標對象找出來、框出來，再基于這些框進行統計。比如數一張合照里有多少人，模型會先框出圖中的每個人，再計算總數。對于更復雜的細粒度計數，比如“有幾只熊在地面上”，模型還會先找出所有熊，再逐一判斷它們是在樹上還是在地面，最后得出答案。

報告中還把計數分成了兩類：一類是粗粒度計數，比如數“狗”“人”“車”這類普通對象；另一類是細粒度計數，比如數“白色的狗”“左邊的狗”“站在地上的熊”。后者不僅要求模型識別對象，還要判斷顏色、位置、狀態等附加條件。DeepSeek 在這里采用的是“定位—驗證—統計”的流程，讓模型先找到候選對象，再逐個判斷是否符合問題條件。

在空間推理任務上，DeepSeek 也是先讓模型用視覺基元錨定對象，再進行關系判斷。

報告中說，空間推理和一般視覺問答被放在同一個類別里處理，因為這類任務的共同難點是：如果只用語言描述，模型很容易出現指代模糊和語義漂移。比如“灰色金屬物體”“旁邊那個小物體”“同樣大小的紫色橡膠物體”，這些說法如果不落到具體圖像區域上，模型在推理過程中很容易把對象搞混。

所以 DeepSeek 的方法是，讓模型先把關鍵對象框出來，再根據這些具體對象進行多步推理。報告中的例子是，模型需要判斷圖中是否存在一個紫色橡膠物體，和灰色金屬物體大小相同。模型會先定位灰色金屬球，判斷它是小物體；然后再逐一檢查其他小物體，看它們的顏色、材質、大小是否匹配。最后模型得出結論：圖中沒有符合條件的紫色橡膠物體。

在拓撲推理任務上，DeepSeek 主要使用的是點。

拓撲推理關心的不是某個物體是什么，而是路徑、連通性和結構關系。比如迷宮里從起點能不能走到終點，一堆交錯的線條中，某一條線最終連到哪個圖標。這類任務對多模態模型尤其困難，因為它要求模型持續跟蹤路徑，而不是看一眼就回答。

報告中說，純語言的思維鏈很難準確描述不規則形狀的軌跡，因此使用點作為認知單元的視覺基元，特別適合處理這類問題。

在迷宮導航任務中，DeepSeek 會讓模型先找到起點和終點，然后像做深度優先搜索一樣探索路徑。模型每走到一個關鍵位置，就用點坐標記錄下來；如果遇到死路，就回退到前一個岔路口，再嘗試另一條路徑。報告中提到，模型需要理解空間連通性和可達性，也就是判斷哪里有路、哪里被墻擋住、哪條路徑最終能到達終點。

在線條追蹤任務中，模型也會用一串點來表示自己沿著哪條線走。報告中說，這類任務的核心挑戰是交叉點消歧：當兩條線交叉時，模型必須根據局部幾何連續性判斷哪一條才是目標線的延續，而不是被另一條線帶走。為了防止模型只是靠顏色猜，DeepSeek 還設計了所有線條顏色和粗細都一樣的樣本，迫使模型真正根據曲線連續性來追蹤路徑。

04 視覺基元并不是終點

不過，使用視覺基元進行思考，并不意味著視覺推理問題已經被徹底解決。它最大的優勢，是讓模型的視覺推理變得更穩定，也更容易被驗證。

這會帶來兩個直接好處。

一是減少幻覺。模型如果要判斷“這里有沒有紫色橡膠物體”，就不能只憑語義猜測，而要先在圖中找出候選物體，再逐一排除。二是提高可解釋性。比如模型說一張圖里有 25 個人，如果它同時框出了這 25 個人，用戶就能判斷它有沒有漏數、重復數，或者把其他物體誤認成人。

這也是為什么 DeepSeek 的視覺模式在網頁復刻、迷宮求解、復雜圖像問答這類場景中會顯得更有用。網頁復刻需要模型理解頁面里的模塊、層級和布局關系；迷宮求解需要模型持續追蹤路徑；復雜圖像問答則要求模型在多個視覺線索之間來回比對。它們共同需要的不是一句籠統的圖片描述，而是模型能夠穩定地“看圖說話”。

另一個優勢是效率。報告中提到，DeepSeek 并不是簡單依賴大量視覺 token 來彌補視覺能力，而是通過更高效的視覺 token 壓縮架構，讓模型在較低圖像 token 消耗下仍然保持較強的推理能力。報告中說，對于 800×800 的輸入圖像，其模型在 KV cache 中只保留大約 90 個條目，卻能在計數和空間推理等基準上取得有競爭力的表現。

DeepSeek 想走的路線，并不是無限提高分辨率、堆更多圖像 token，而是讓模型更有效地使用視覺信息。

但這套方法也有局限，報告中提到這類方式有三部分的局限。

首先是受輸入分辨率限制，模型在細粒度場景下的表現仍然不夠理想，有時會輸出不夠精確的視覺基元。也就是說，如果圖像里的目標非常小、細節非常密，或者需要識別的區域邊界很模糊，點和框本身也可能標得不準。視覺基元能改善指代問題，但它不能完全替代感知能力。模型首先要看清楚，才談得上指得準。

第二個局限，這種能力目前還依賴顯式觸發。報告中說，當前使用視覺基元進行思考的能力需要通過明確觸發詞來激活，未來希望模型能夠根據具體上下文，自主判斷是否調用這一機制。

這意味著，現在模型未必會在每個需要的場景里自動使用這項能力。用戶如果只是普通地問“這張圖里有多少人”“這條路能不能走通”，模型可能仍然用普通語言推理，而不是主動輸出點、框或路徑。真正理想的狀態應該是，模型自己判斷這個問題是否需要精確視覺定位。如果是計數、路徑、空間關系這類任務，它就自動拿出“手指”；如果只是描述畫面氛圍，就不必調用這套機制。

第三個局限，是拓撲推理仍然很難。報告中說，使用點作為視覺基元來解決復雜拓撲推理問題，仍然是一項艱巨挑戰，目前模型的跨場景泛化能力也有限。

這不難理解。點可以告訴模型“我現在走到哪里”，但點本身并不直接表示“這里和那里是否連通”。在迷宮里，兩個點看起來很近，中間可能隔著一堵墻；在交錯線條中，兩條線可能在視覺上相交，但實際并不是同一條路徑的延續。模型不僅要標點，還要持續判斷連通關系、路徑方向和局部幾何連續性。只要中間某一步走錯，后面的推理就可能全部偏掉。

所以，視覺基元讓模型開始能夠在圖像中定位、比較和追蹤。但要真正處理開放世界里的復雜視覺問題，還需要更強的感知能力、更穩定的自主調用機制，以及更好的跨場景泛化能力。

在視覺理解層面，DeepSeek 給出的答案是，讓圖像不再只是輸入材料，而是成為模型推理過程的一部分。模型不只是看見世界，而是開始學會在世界中找到錨點。

這不像是一個附帶的研究，更像是DeepSeek對視覺的最重要的一個不同的理解。因此這次罕見的刪除論文行為也引起不少遐想，有人認為它對于開源模型來說“太強大”了，以至于不適合發表。真相如何可能要等DeepSeek自己給出解釋了。

點個“愛心”，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.