<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek首次有了視覺能力,技術論文卻被它連夜刪掉了

      0
      分享至


      作者 | 孫芮
      郵箱 | sunrui@pingwest.com

      DeepSeek做了件罕見的事情:在終于開始灰測多模態能力后,它放出了一篇解釋背后技術的論文,但這篇論文卻在發布沒多久就又被悄悄撤掉。

      4月29日,DeepSeek研究員陳小康在X發布一條推文——現在,我們可以看見你了。配圖中,DeepSeek 標志性的鯨魚 logo 摘下眼罩,露出了眼睛。

      過去,DeepSeek 最被外界熟知的是它在文本、代碼和推理任務上的能力。但真實世界里的問題,并不總是以文字形式出現。它們可能是一張照片、一頁論文圖表、一個網頁截圖、一份復雜表格,也可能是一個需要理解空間關系和視覺細節的現實場景。

      對 DeepSeek 來說,視覺能力是讓它的推理能力從文本世界延伸到真實世界的關鍵一步。但這次灰測的視覺能力,很快被使用者們感覺到不同:它和其他模型給語言模型底座增加多模態功能不同,更像是一個單獨的模型,且不是以附庸形式定位,而是有某種原生的思考和推理能力。

      就在大家好奇心增加的時候,DeepSeek發布了一篇解釋它追求的視覺能力的論文:《Thinking with Visual Primitives》。


      Primitives是圖形學和幾何里的常用術語,Visual Primitves可以理解為那些用來描述幾何信息圖形空間信息的最基本元素,也可以稱為視覺基元。從這個題目就可以看出,DeepSeek眼里此刻最重要的“多模態”能力,依然是圍繞推理和思考,它要讓模型能在原生層面用圖形的基礎語言做更準確的思考。

      這并不是所有主流模型廠商在多模態領域的方向,這讓人意外,但這個想法非常有趣。DeepSeek再次給基礎研究提供了新的思路。

      但更加讓人意外的是,這篇論文很快就被撤下了,沒有給出任何解釋,也不確定是否會再次發布。

      所以,DeepSeek這次的視覺能力到底是怎樣的?我們結合實測、它的研究員的分享,以及這篇“消失”的論文的內容,來嘗試解釋一下它的做法。

      1

      01 當DeepSeek 的視覺能力,開始進入真實場景

      目前DeepSeek的視覺模式還在灰度測試,逐步向用戶開放中。

      從 X 上已經試用到這一功能的用戶反饋來看,DeepSeek 的視覺能力并不只是識別圖片里有什么,更重要的是,它會嘗試把圖像中的信息和已有的世界知識聯系起來。

      有用戶在X上表示DeepSeek視覺模式的世界知識非常豐富,思考過程也很有趣。他在公司附近拍了一張照片,發給DeepSeek。在DeepSeek的思考過程中可以看到,它幾乎知道我公司附近的每一棟樓,并盡量搜索正確的那棟。并且這個過程中沒有用到聯網搜索能力。


      還有用戶表示DeepSeek的網頁復刻還原能力非常好。這對設計師和產品經理來說,它可以讓視覺稿更快變成可演示的原型。以前從 Figma、截圖或參考網頁到可點擊 demo,中間需要設計師標注、開發切圖、工程師實現。現在模型能直接讀懂頁面,并生成接近真實效果的網頁,讓想法驗證的周期大幅變短。


      我實際測試了DeepSeek的視覺理解能力。我發送了一張迷宮圖讓它解答。



      DeepSeek的思考過程十分嚴謹,它用的是反向推理的方法,從終點出發,逐步反向追蹤,走到起點。為了驗證解法的可行性,DeepSeek這一路徑用正向的方式走了一遍,然后它又核算了一遍,再輸出最終答案。整個過程中,DeepSeek推理了四遍路徑的可行性。


      1

      02 多模態模型的難題,不只是看不清

      陳小康在30號發布的推文中給了更詳細的解釋:傳統的思維鏈(CoT)主要停留在語言空間里,但視覺推理需要更多能力。通過把點和框作為認知錨點,我們的模型彌合了“指代鴻溝”(Reference Gap),模擬了人類在視覺推理中常用的“指向—推理”協同機制。


      通過DeepSeek發布的報告,我們可以看到他們針對視覺理解提出了一個新的推理框架,就是使用視覺基元進行思考(Thinking with Visual Primitives)。

      什么是使用視覺基元進行思考呢?

      簡單來說,就是讓模型在看圖推理時,不再只依賴自然語言描述,而是把圖像中的點、邊界框、路徑坐標等空間標記,也作為推理過程的一部分。

      以往多模態模型面對一張圖片時,通常會用語言來組織思考。比如它會說“左邊那個人”“右上角的物體”“中間那條路”。但問題在于,這些描述在人類看來很自然,對模型來說卻并不總是精確。尤其在一張復雜圖片里,如果有很多相似的人、物體或區域,“左邊那個”“旁邊那個”很容易變得模糊,模型也可能在推理過程中把對象搞混。

      DeepSeek 在報告中把這個問題稱為“指代鴻溝”。也就是說,模型不是完全看不見,而是看見之后,很難在連續的視覺空間中穩定地指向自己正在討論的對象。

      視覺基元要解決的正是這個問題。所謂視覺基元,可以理解為模型在圖像中的“手指”。當模型數一張合照里有多少人時,它可以先用邊界框把每個人標出來,再進行統計;當模型判斷兩個物體的位置關系時,它可以先框出相關物體,再比較它們的相對位置;當模型走迷宮或追蹤一條線時,它可以用一串點記錄路徑,而不是只用語言說“往左、再往右”。

      這樣一來,模型的推理就不再懸浮在文字里,而是被錨定到圖像中的具體位置。這也是 DeepSeek 使用視覺基元進行思考最重要的變化,多模態模型的能力不只是看得更清楚,還要指得更準確。

      1

      03 DeepSeek 怎么做視覺推理

      陳小康指出,目前DeepSeek的視覺模型主要處理三類任務:計數、空間推理和拓撲推理。

      DeepSeek 的做法不是簡單讓模型看更高分辨率的圖片,而是讓模型在推理過程中使用點、框、路徑坐標這些“視覺基元”,把每一步判斷都落到圖像中的具體位置上。

      在計數任務上,DeepSeek 主要使用的是邊界框。

      報告中說,多模態大語言模型一直很難做到準確計數,尤其是在密集場景中。人類在數東西時,通常會采用一種“系統掃描和累加”的方式,比如從左到右一個個點著數。但語言模型在對象數量較多時,很難建立精確的對象對應關系。為了解決這個問題,DeepSeek 使用邊界框作為視覺基元,為每個被計數對象提供明確的視覺錨點。

      也就是說,模型不是直接憑感覺回答“有多少個”,而是先把目標對象找出來、框出來,再基于這些框進行統計。比如數一張合照里有多少人,模型會先框出圖中的每個人,再計算總數。對于更復雜的細粒度計數,比如“有幾只熊在地面上”,模型還會先找出所有熊,再逐一判斷它們是在樹上還是在地面,最后得出答案。


      報告中還把計數分成了兩類:一類是粗粒度計數,比如數“狗”“人”“車”這類普通對象;另一類是細粒度計數,比如數“白色的狗”“左邊的狗”“站在地上的熊”。后者不僅要求模型識別對象,還要判斷顏色、位置、狀態等附加條件。DeepSeek 在這里采用的是“定位—驗證—統計”的流程,讓模型先找到候選對象,再逐個判斷是否符合問題條件。

      在空間推理任務上,DeepSeek 也是先讓模型用視覺基元錨定對象,再進行關系判斷。

      報告中說,空間推理和一般視覺問答被放在同一個類別里處理,因為這類任務的共同難點是:如果只用語言描述,模型很容易出現指代模糊和語義漂移。比如“灰色金屬物體”“旁邊那個小物體”“同樣大小的紫色橡膠物體”,這些說法如果不落到具體圖像區域上,模型在推理過程中很容易把對象搞混。


      所以 DeepSeek 的方法是,讓模型先把關鍵對象框出來,再根據這些具體對象進行多步推理。報告中的例子是,模型需要判斷圖中是否存在一個紫色橡膠物體,和灰色金屬物體大小相同。模型會先定位灰色金屬球,判斷它是小物體;然后再逐一檢查其他小物體,看它們的顏色、材質、大小是否匹配。最后模型得出結論:圖中沒有符合條件的紫色橡膠物體。

      在拓撲推理任務上,DeepSeek 主要使用的是點。

      拓撲推理關心的不是某個物體是什么,而是路徑、連通性和結構關系。比如迷宮里從起點能不能走到終點,一堆交錯的線條中,某一條線最終連到哪個圖標。這類任務對多模態模型尤其困難,因為它要求模型持續跟蹤路徑,而不是看一眼就回答。

      報告中說,純語言的思維鏈很難準確描述不規則形狀的軌跡,因此使用點作為認知單元的視覺基元,特別適合處理這類問題。


      在迷宮導航任務中,DeepSeek 會讓模型先找到起點和終點,然后像做深度優先搜索一樣探索路徑。模型每走到一個關鍵位置,就用點坐標記錄下來;如果遇到死路,就回退到前一個岔路口,再嘗試另一條路徑。報告中提到,模型需要理解空間連通性和可達性,也就是判斷哪里有路、哪里被墻擋住、哪條路徑最終能到達終點。

      在線條追蹤任務中,模型也會用一串點來表示自己沿著哪條線走。報告中說,這類任務的核心挑戰是交叉點消歧:當兩條線交叉時,模型必須根據局部幾何連續性判斷哪一條才是目標線的延續,而不是被另一條線帶走。為了防止模型只是靠顏色猜,DeepSeek 還設計了所有線條顏色和粗細都一樣的樣本,迫使模型真正根據曲線連續性來追蹤路徑。

      1

      04 視覺基元并不是終點

      不過,使用視覺基元進行思考,并不意味著視覺推理問題已經被徹底解決。它最大的優勢,是讓模型的視覺推理變得更穩定,也更容易被驗證。

      這會帶來兩個直接好處。

      一是減少幻覺。模型如果要判斷“這里有沒有紫色橡膠物體”,就不能只憑語義猜測,而要先在圖中找出候選物體,再逐一排除。二是提高可解釋性。比如模型說一張圖里有 25 個人,如果它同時框出了這 25 個人,用戶就能判斷它有沒有漏數、重復數,或者把其他物體誤認成人。

      這也是為什么 DeepSeek 的視覺模式在網頁復刻、迷宮求解、復雜圖像問答這類場景中會顯得更有用。網頁復刻需要模型理解頁面里的模塊、層級和布局關系;迷宮求解需要模型持續追蹤路徑;復雜圖像問答則要求模型在多個視覺線索之間來回比對。它們共同需要的不是一句籠統的圖片描述,而是模型能夠穩定地“看圖說話”。

      另一個優勢是效率。報告中提到,DeepSeek 并不是簡單依賴大量視覺 token 來彌補視覺能力,而是通過更高效的視覺 token 壓縮架構,讓模型在較低圖像 token 消耗下仍然保持較強的推理能力。報告中說,對于 800×800 的輸入圖像,其模型在 KV cache 中只保留大約 90 個條目,卻能在計數和空間推理等基準上取得有競爭力的表現。

      DeepSeek 想走的路線,并不是無限提高分辨率、堆更多圖像 token,而是讓模型更有效地使用視覺信息。

      但這套方法也有局限,報告中提到這類方式有三部分的局限。


      首先是受輸入分辨率限制,模型在細粒度場景下的表現仍然不夠理想,有時會輸出不夠精確的視覺基元。也就是說,如果圖像里的目標非常小、細節非常密,或者需要識別的區域邊界很模糊,點和框本身也可能標得不準。視覺基元能改善指代問題,但它不能完全替代感知能力。模型首先要看清楚,才談得上指得準。

      第二個局限,這種能力目前還依賴顯式觸發。報告中說,當前使用視覺基元進行思考的能力需要通過明確觸發詞來激活,未來希望模型能夠根據具體上下文,自主判斷是否調用這一機制。

      這意味著,現在模型未必會在每個需要的場景里自動使用這項能力。用戶如果只是普通地問“這張圖里有多少人”“這條路能不能走通”,模型可能仍然用普通語言推理,而不是主動輸出點、框或路徑。真正理想的狀態應該是,模型自己判斷這個問題是否需要精確視覺定位。如果是計數、路徑、空間關系這類任務,它就自動拿出“手指”;如果只是描述畫面氛圍,就不必調用這套機制。

      第三個局限,是拓撲推理仍然很難。報告中說,使用點作為視覺基元來解決復雜拓撲推理問題,仍然是一項艱巨挑戰,目前模型的跨場景泛化能力也有限。

      這不難理解。點可以告訴模型“我現在走到哪里”,但點本身并不直接表示“這里和那里是否連通”。在迷宮里,兩個點看起來很近,中間可能隔著一堵墻;在交錯線條中,兩條線可能在視覺上相交,但實際并不是同一條路徑的延續。模型不僅要標點,還要持續判斷連通關系、路徑方向和局部幾何連續性。只要中間某一步走錯,后面的推理就可能全部偏掉。

      所以,視覺基元讓模型開始能夠在圖像中定位、比較和追蹤。但要真正處理開放世界里的復雜視覺問題,還需要更強的感知能力、更穩定的自主調用機制,以及更好的跨場景泛化能力。

      在視覺理解層面,DeepSeek 給出的答案是,讓圖像不再只是輸入材料,而是成為模型推理過程的一部分。模型不只是看見世界,而是開始學會在世界中找到錨點。

      這不像是一個附帶的研究,更像是DeepSeek對視覺的最重要的一個不同的理解。因此這次罕見的刪除論文行為也引起不少遐想,有人認為它對于開源模型來說“太強大”了,以至于不適合發表。真相如何可能要等DeepSeek自己給出解釋了。


      點個愛心,再走 吧

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      晚上7點半!中國女足將大戰東南亞勁旅,打平=小組頭名出線,劍指世界杯!

      晚上7點半!中國女足將大戰東南亞勁旅,打平=小組頭名出線,劍指世界杯!

      海闊山遙YAO
      2026-05-07 08:21:44
      FDA撤回多項證實新冠疫苗、帶狀皰疹疫苗安全性的研究

      FDA撤回多項證實新冠疫苗、帶狀皰疹疫苗安全性的研究

      新浪財經
      2026-05-06 22:27:08
      紐約這一夜,lisa四只手,卡姐穿著一般,劉雯、谷愛凌全場最佳

      紐約這一夜,lisa四只手,卡姐穿著一般,劉雯、谷愛凌全場最佳

      林雁飛
      2026-05-05 20:10:47
      荒唐的斯威士蘭:集中10萬少女貢獻國王選妃,國民平均壽命35歲

      荒唐的斯威士蘭:集中10萬少女貢獻國王選妃,國民平均壽命35歲

      春秋硯
      2026-04-25 17:15:06
      五星體育:東南亞多國同樣未官宣世界杯版權;FIFA需重新審視市場

      五星體育:東南亞多國同樣未官宣世界杯版權;FIFA需重新審視市場

      懂球帝
      2026-05-06 23:17:40
      成都這一夜,阿嬌“水桶腰、大象腿”是對畸形審美的反擊

      成都這一夜,阿嬌“水桶腰、大象腿”是對畸形審美的反擊

      健身迷
      2026-05-07 12:11:32
      面試官:你在學校用過 AI 嗎?我:禁用,被說學術不端。。他皺眉:我們這兒規定 75% 代碼靠 AI,不用才是學術不端。。

      面試官:你在學校用過 AI 嗎?我:禁用,被說學術不端。。他皺眉:我們這兒規定 75% 代碼靠 AI,不用才是學術不端。。

      程序員魚皮
      2026-05-06 14:30:21
      亞馬遜千億富豪惹眾怒,眾多明星拒出席晚宴,現場驚現尿瓶抗議!

      亞馬遜千億富豪惹眾怒,眾多明星拒出席晚宴,現場驚現尿瓶抗議!

      觀察鑒娛
      2026-05-06 09:48:09
      太寒心!鹽城龍鳳胎事件,孩子早產,老公把彩禮8.8萬驟降至3.8萬

      太寒心!鹽城龍鳳胎事件,孩子早產,老公把彩禮8.8萬驟降至3.8萬

      魔都姐姐雜談
      2026-05-06 13:19:53
      歐冠決賽數據:皇馬15冠3亞 米蘭7冠4亞 拜仁6冠5亞 利物浦6冠4亞

      歐冠決賽數據:皇馬15冠3亞 米蘭7冠4亞 拜仁6冠5亞 利物浦6冠4亞

      智道足球
      2026-05-07 08:08:01
      涉及多個職務!佛山一區發布近期人事任免

      涉及多個職務!佛山一區發布近期人事任免

      南方都市報
      2026-05-07 13:15:06
      悲催!杭州一女子嫌國企丈夫沒本事,攜42萬存款離婚,雞飛蛋打了

      悲催!杭州一女子嫌國企丈夫沒本事,攜42萬存款離婚,雞飛蛋打了

      火山詩話
      2026-04-27 06:40:09
      注意!中老年男性有性生活和沒性生活,差別居然這么大?

      注意!中老年男性有性生活和沒性生活,差別居然這么大?

      皓皓情感說
      2026-04-22 08:20:32
      人社部發布重要消息,3個信號不同尋常,一類退休人員有福了!

      人社部發布重要消息,3個信號不同尋常,一類退休人員有福了!

      丁丁鯉史紀
      2026-05-07 10:34:59
      NASA局長大笑:拿“中國先登月”嚇唬國會,好使!

      NASA局長大笑:拿“中國先登月”嚇唬國會,好使!

      觀察者網
      2026-05-07 11:48:25
      張本智和:輪到我來幫助球隊!松島輝空第4敗,賽前喊得兇被打臉

      張本智和:輪到我來幫助球隊!松島輝空第4敗,賽前喊得兇被打臉

      排球黃金眼
      2026-05-06 23:09:26
      國際原油期貨繼續重挫 美油大跌超12%

      國際原油期貨繼續重挫 美油大跌超12%

      財聯社
      2026-05-06 18:58:06
      北京薈聚的西貝老店關了!網友:昨晚還吃了!沒用完的余額怎么辦?

      北京薈聚的西貝老店關了!網友:昨晚還吃了!沒用完的余額怎么辦?

      北京商報
      2026-05-06 22:01:15
      張軍被查創下多個尷尬“紀錄”,18年前曾因酒駕被查

      張軍被查創下多個尷尬“紀錄”,18年前曾因酒駕被查

      元芳有看法
      2026-04-30 09:25:44
      WWE傳奇喊話湖人:1.65億球星該被交易

      WWE傳奇喊話湖人:1.65億球星該被交易

      賽場速報局
      2026-05-07 08:02:01
      2026-05-07 15:15:00
      硅星人 incentive-icons
      硅星人
      硅(Si)是創造未來的基礎,歡迎來到這個星球。
      3061文章數 10495關注度
      往期回顧 全部

      科技要聞

      凌晨突發!馬斯克租22萬塊GPU給“死敵”

      頭條要聞

      美國博主自發抵制:不想收錢抹黑中國

      頭條要聞

      美國博主自發抵制:不想收錢抹黑中國

      體育要聞

      阿森納巴黎會師歐冠決賽!5月31日開戰

      娛樂要聞

      小S阿雅重返大S母校,翻看大S畢業照

      財經要聞

      特朗普:美伊“很有可能”達成協議

      汽車要聞

      理想為什么不做轎車,有了解釋……

      態度原創

      游戲
      教育
      藝術
      親子
      公開課

      《FGO》大天使貞德好不好用?《FGO》奏章4貞德養成攻略

      教育要聞

      新傳考研名詞解釋:社會抗爭行為

      藝術要聞

      這位老教授筆下的青年,活力滿滿

      親子要聞

      2026年上海幼兒入園報名驗證、小學報名今起開始

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 美女视频一区二区三区| AV综合资源| 久久久精品456亚洲影院| 男女啪啪做爰高潮无遮挡| 国产互换人妻XXXXXX6| 天堂av在线免费观看| 亚洲自拍成人在线视频| 国产无遮挡裸露视频免费| 国产精品视频久久久久| 玩弄少妇肉体到高潮动态图 | 耿马| 久久精品国产欧美日韩99热| 8888四色奇米在线观看| 一级天堂| 国精产品无码| 久久精品国产蜜臀av| 国产亚洲精品成人av在线| 亚洲综合久久成人av| 亚洲乱熟女一区二区三区| 青青草国产精品亚洲| 久久波多野结衣av| 国产精品国产三级国快看| 成人午夜福利一区二区| 在线看免费无码的av天堂| 亚洲毛片ΑV无线播放一区| 欧美色欧美亚洲高清在线观看 | 久久亚洲国产成人影院| 91青青草视频在线观看的| 久久人人妻人人爽人人爽| www.色五月| 国产成人亚洲综合无码品善网| 欧美日韩成人在线观看| 国产伦一区二区三区久久| 欧美成人无码国产精品嫩草开发| 国产va| 麻豆精品视频| 免费A级毛片无码免费视频120软件| 欧洲熟妇色xxxxx欧美| 久久精品国产亚洲精品2020| 脱岳裙子从后面挺进去在线观看| 日韩无码专区|