<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek給AI裝了根賽博手指,于是它能看見了

      0
      分享至



      五一假期前一天,DeepSeek突然扔出來一份視覺多模態技術報告。

      點開之前,我心里大概是有個預期的,無非就是具體能看到多遠、看得多清楚。

      畢竟過去一年,多模態模型基本都在往這個方向卷。OpenAI講thinking with images,讓模型在推理過程中裁剪、放大、旋轉圖片;Gemini、Claude也都在想辦法讓模型處理更高分辨率、更復雜的視覺輸入。

      大家的共同假設是,只要模型看得更細,視覺推理自然就會更強。

      但DeepSeek這份報告看下來,你會發現,他們完全走上了另一條路。

      DeepSeek沒有把重點放在“讓模型看到更多像素”上,他們把注意力放在了一個更底層的問題上。

      就算模型已經看清楚了,但是它在推理過程中,你怎么能保證模型和你指的是同一個東西?

      其實這是多模態推理里最容易被忽略的死穴。

      人類看圖時,可以用手指去標記對象。比如“這個人是誰誰誰”、“那個人是誰誰誰”。但模型哪知道你說的這個是哪個?

      模型只能用語言說“左邊那個”“上面那個”“這條線”。一旦畫面復雜起來,語言指代就會漂移,推理也會跟著崩。

      于是DeepSeek就說了,那就給模型一根“手指”不就完了?

      它把點和邊界框變成模型思考時的基本單位,讓模型能夠一邊用這根賽博手指指著對象,一邊進行推理。

      01

      從連續視覺到離散符號

      DeepSeek在這份技術報告里,提出了一個很有意思的問題。他們認為,多模態模型真正難的地方,不是看見圖像,而是在連續推理過程中穩定地指向同一個視覺對象。

      就比如你跟你的朋友說“菜市場里,張老太太的那個攤位賣的菜最新鮮”。但是菜市場里老頭老太太多了去了,哪個是張老太太?

      但如果你直接用手指著說“就是那個”,你朋友就會馬上明白。

      DeepSeek將這個問題命名為“引用鴻溝”(Reference Gap)。

      過去一年,幾乎所有前沿多模態模型都在解決“感知鴻溝”(Perception Gap)這個問題。

      假如說有一張照片放在你面前,如果照片太模糊、分辨率太低,你可能看不清楚里面的小字或者遠處的細節。AI也一樣,如果輸入的圖像質量不夠、處理方式不對,它就會“看不清”,這就是感知鴻溝。

      GPT、Claude、Gemini這些模型不斷提高分辨率,引入高分辨率裁剪、動態分塊、多尺度處理,目的就是讓模型能看到更多細節。

      這個方向當然有價值,但DeepSeek在報告里指出,就算模型看得再清楚,在復雜的空間推理任務上,仍然會出現邏輯崩潰。

      問題出在自然語言本身。

      照片里有十幾只狗,你說“左邊那只狗”,那模型就沒辦法理解你說的具體是哪只。

      還有更絕的,如果你讓模型數一下照片里狗的數量,那么模型在推理過程中很容易就搞不清楚自己已經數過哪些、還有哪些沒數。

      報告中還提到了迷宮導航這樣極端的情況,純語言根本無法準確描述不規則形狀的路徑和復雜的拓撲關系。

      語言作為一種指代工具,在連續的視覺空間里天生就是模糊的。它擅長抽象概念和因果關系,但在空間定位和拓撲關系上,語言的表達能力存在根本性的局限。

      可DeepSeek本身就是個通用的語言模型,那應該怎樣解決呢?

      于是就有了文章開頭提到的這根“手指”。

      他們提出的核心概念是“視覺基元”(Visual Primitives),具體來說就是把邊界框(bounding boxes)和點(points)這兩種計算機視覺里最基礎的空間標記,提升為“思維的最小單位”。

      以前的多模態模型雖然也能畫框標注物體,但只是在最后給你看個結果,證明“我找到了”。就像考試時,你只交答案,不寫解題過程。

      也有一些研究讓AI在思考過程中畫框,但目的只是為了“看得更準”,框框只是個輔助工具。就好比你做數學題時用草稿紙,草稿紙只是幫你算得更清楚,不是解題思路的一部分。

      DeepSeek要做的完全不同。

      他們把這些空間標記直接嵌入到模型的推理過程中,讓它們成為推理的有機組成部分。模型在思考的時候,不只是用語言描述“我看到了一只狗”,還同時輸出“我看到了一只狗,它在這里:[[x1,y1,x2,y2]]”。

      這個機制被DeepSeek稱為“邊推理邊指向”(point while it reasons)。



      模型的每一步思考都錨定在圖像的具體坐標上。

      技術報告里就給了這樣一個例子:模型從起點出發,一路探索、回溯、再嘗試,最后輸出了一串完整的坐標路徑,每個坐標都對應迷宮里走過的一個點。

      這樣一來,模型就不會在推理過程中“迷路”。它不會搞不清楚自己在說什么、指什么。每個視覺對象都有了明確的空間錨點,推理過程變得可追蹤、可驗證。

      這條技術路線和OpenAI的方向形成了有趣的對比。

      OpenAI在o3和o4-mini的官方介紹里明確提到了“thinking with images”的概念,即模型可以把圖像納入推理鏈,并通過裁剪、放大、旋轉等方式處理圖像。這個方向的重點是讓圖像本身成為思維鏈的一部分,模型可以在推理過程中生成新的圖像、修改圖像、對圖像進行操作。

      OpenAI的路線強調的是通用能力,視覺、代碼、搜索、文件、工具調用一起協作。模型擁有一個強大的“視覺工作臺”,可以靈活地處理各種視覺任務。

      DeepSeek的路線則更“符號化”一點。它讓坐標進入思維鏈。模型在推理文本里顯式寫出邊界框和點的坐標,把視覺對象變成推理時可復用的錨點。

      這就導致,OpenAI的視覺推理發生在內部,用戶只能看到最終答案和必要解釋,中間的視覺處理過程是黑箱。DeepSeek則故意把中間視覺錨點顯式化,讓推理過程完全透明。

      DeepSeek這樣做,好處是推理過程更容易被訓練、檢查和打分。這也讓它更容易設計格式、質量和任務級獎勵。尤其在迷宮、路徑追蹤這類任務中,可以對路徑合法性、軌跡覆蓋度等給出更細的反饋。

      模型不只是學會輸出正確答案,更是學會了用視覺基元進行推理的方法。

      02

      效率才是核心

      DeepSeek這份報告里有一個很容易被忽略但極其重要的細節,他們的模型在處理圖像時,用的token數量遠遠少于其他前沿模型。

      報告里有一張對比圖,展示了不同模型處理一張800×800分辨率圖像時消耗的token數量。

      Gemini-3-Flash約1100個,Claude-Sonnet-4.6約870個,GPT-5.4約740個,Qwen3-VL約660個,DeepSeek約361個,并在KV緩存里只保留約90個條目。

      這個差距不是一點點。DeepSeek用的token數量只有Gemini的3分之1,KV緩存條目更是只有10分之1左右。

      這種極致的效率是怎么實現的?

      DeepSeek用了一個叫“壓縮稀疏注意力”(Compressed Sparse Attention, CSA)的機制。

      你可以這樣理解,假如說你給朋友看一張全家福,你不會說“從左數第237個像素開始有一塊紅色區域……”,你會直接說“左邊是我媽,右邊是我爸”。

      DeepSeek-ViT先把圖像壓成更少的視覺token,CSA再把這些視覺token在KV緩存中的表示進一步壓縮。

      這個機制在DeepSeek-V4-Flash模型上就使用過,現在被應用到了視覺多模態之中。

      具體的壓縮流程是這樣的。一張756×756的圖像,包含571536個像素。這些像素首先經過ViT處理,以14×14的patch size切分,生成2916個patch token。然后進行3×3的空間壓縮,把每9個相鄰的token沿著通道維度壓縮成1個,變成324個視覺token。

      這324個token進入大語言模型進行預填充。最后,CSA機制會把這些視覺token在KV緩存里再壓縮4倍,最終只保留81個條目。

      從571536個像素到81個KV緩存條目,整個壓縮比達到了7056倍。

      一般AI大廠都是在用暴力方法去堆計算資源,而DeepSeek則是在信息論層面去做取舍,只留下最直觀易懂的信息。

      其最直接的結果,就是推理速度變快了許多。



      圖像token數量直接影響模型的推理延遲。在自回歸生成過程中,每生成一個新token,模型都需要對之前所有token的KV緩存進行注意力計算。如果圖像占用了1000個token,那么每次生成都要對這1000個token做注意力。如果只占用90個,計算量就大幅減少。

      對于需要實時響應的應用場景,比如機器人視覺、自動駕駛、實時視頻分析,推理速度的提升起到了決定性作用。

      然后它內存占用得也少。

      KV緩存是大模型推理的內存瓶頸。特別是在處理長上下文或批量推理的時候,KV緩存會占用大量顯存。DeepSeek把視覺token的KV緩存壓縮到90個條目,意味著可以在同樣的硬件上處理更多圖像,或者處理更長的多輪對話。

      這對于實際部署非常重要。很多公司的多模態模型在實驗室里表現很好,但一到實際部署就遇到成本問題。每張圖片消耗的token越多,推理成本就越高,可支持的并發用戶就越少。DeepSeek的效率優勢在規模化部署時會被放大。

      同時也變相提高了模型的上下文容量。

      如果一張圖片要占用1000個token,那么在一個128k的上下文窗口里,只能放100多張圖片。如果只占用300個token,就可以放400多張。這對于需要處理多圖對話、長視頻分析、大量文檔理解的場景至關重要。

      DeepSeek的模型可以在一個對話里處理更多圖像,可以對比分析幾十張甚至上百張圖片,可以追蹤視頻里的長期變化。

      最關鍵的是訓練成本。

      雖然報告主要講推理效率,但這種壓縮機制在訓練階段同樣有效。更少的視覺token意味著更小的計算圖,更快的訓練速度,更低的硬件要求。

      DeepSeek一直以“用更少資源做出更好效果”著稱。從R1的強化學習訓練,到V4的MoE架構,再到現在的視覺多模態,這種效率優先的哲學貫穿始終。

      但這里有一個關鍵問題。壓縮會不會損失信息?

      DeepSeek并沒有否認壓縮會帶來信息損失。它的主張是,在這組空間推理和計數任務上,壓縮后的表征仍然足夠有效。

      每一步壓縮都在保留對推理最重要的信息,丟棄冗余和噪聲。

      其實前面提到的DeepSeek的視覺基元機制,它本身也是一種信息壓縮。一個邊界框用4個數字就能精確定位一個物體,一個點用2個數字就能標記一個位置。這些離散符號攜帶的信息密度遠高于原始像素。

      從實驗結果看,這種壓縮沒有損害性能,反而在某些任務上帶來了提升。

      這說明對于很多視覺推理任務,瓶頸不在于看得不夠清楚,而在于沒有找到合適的表征方式。

      這種效率優勢還證明了多模態智能不一定需要更大的模型、更多的算力、更高的成本。

      從DeepSeek時刻誕生至今,這家公司一直有一條暗線,“真正的智能不在于算力,而在于對問題本質的理解”。

      當你真正理解了視覺推理需要什么,你就不需要那么多token。當你找到了合適的表征方式,你就不需要那么大的模型。

      從這個角度看,DeepSeek的極致效率不是目的,而是副產品。真正的目的是找到視覺推理的正確范式。效率只是證明了這個范式是對的。

      03

      未竟之事

      DeepSeek在報告的局限性部分,坦誠地列出了當前方法存在的幾個問題。這些問題不是技術細節上的小瑕疵,而是指向了視覺推理的下一個階段。

      第一個問題是觸發詞依賴。

      報告里明確說,當前的“用視覺基元思考”能力需要顯式的觸發詞(explicit trigger words)才能激活。也就是說,模型還不能自然、自主地決定“什么時候該畫框、打點”。

      它意味著模型還沒有真正學會判斷什么時候需要使用視覺基元,什么時候用語言就夠了。

      理想的情況是,模型應該能根據任務的性質自主決策。但當用戶問“數一數圖里有幾只狗”的時候,模型應該自動切換到視覺基元模式,用邊界框來輔助計數。

      從技術上說,這需要在模型里建立一個元認知層。這個元認知層可以評估當前任務的復雜度,判斷純語言推理是否足夠,決定是否需要調用視覺基元。

      DeepSeek目前還沒有實現這個元認知層,但他們已經明確了方向。未來的版本可能會讓模型學會自主決定推理策略,而不是依賴外部觸發。

      第二個問題是分辨率限制。

      報告提到,受輸入分辨率限制,模型在細粒度場景下的表現還不夠好,輸出的視覺基元有時不夠精確。

      這個問題和DeepSeek的效率優先策略有關。為了控制token數量,他們限制了視覺token的范圍在81到384之間。對于超出這個范圍的圖像,會進行縮放處理。

      這種設計在大部分場景下是合理的,但在一些需要極高精度的任務上就會遇到瓶頸。比如醫療影像分析需要識別微小的病灶,工業質檢需要發現細微的瑕疵,這些場景對分辨率的要求很高。

      DeepSeek在報告里提到,這個問題可以通過整合現有的高分辨率方法來解決。也就是說,他們的視覺基元框架和傳統的高分辨率裁剪方法不是對立的,而是互補的。

      我覺得DeepSeek可以出個混合方案。

      具體就是對于大部分常規任務,使用壓縮的視覺表征和視覺基元推理,保持高效率。對于需要細粒度分析的局部區域,動態調用高分辨率裁剪,提取更詳細的視覺信息。這樣既保持了整體效率,又滿足了局部精度需求。

      這種混合方案的關鍵是讓模型學會判斷哪些區域需要高分辨率處理。于是這就又回到了剛才元認知的問題上。

      第三個問題是跨場景泛化。



      報告提到,用點作為視覺基元來解決復雜拓撲推理問題仍然很難,模型的跨場景泛化能力有限。

      這個問題在迷宮導航和路徑追蹤任務上表現得比較明顯。雖然DeepSeek在自己構建的測試集上達到了66.9%和56.7%的準確率,超過了其他模型,但這個數字本身還不夠。

      更重要的是,這些任務都是在合成數據上訓練和測試的。迷宮是用算法生成的,路徑追蹤的曲線也是程序化繪制的。當模型遇到真實世界里的拓撲推理問題時,比如在真實地圖上規劃路徑,在復雜管線圖里追蹤連接關系,表現可能會下降。

      DeepSeek的方法是通過大規模、高多樣性的數據來提升泛化能力。他們爬取了97984個數據源,經過嚴格過濾后保留了31701個,最終得到超過4000萬個樣本。在迷宮和路徑追蹤任務上,他們也設計了多種拓撲結構、視覺風格、難度等級,試圖覆蓋盡可能多的變化。

      然而數據多樣性只是泛化能力的一部分。模型是否真正理解了拓撲推理的本質?還是說它只是記住了訓練數據里的模式而已?

      另外,DeepSeek的視覺基元是一套新的表征系統,需要專門的數據格式、訓練流程、評估方法。這和現有的多模態生態不完全兼容。

      大部分多模態數據集和評測基準都是基于傳統的“圖像+文本”范式設計的,沒有考慮視覺基元。如果要在這些基準上評測DeepSeek的模型,要么需要關閉視覺基元功能,要么需要重新設計評測方法。

      其他研究者如果想復現或改進這個工作,需要重新構建整個數據和訓練流程,門檻比較高。

      DeepSeek能在報告中談及這些問題,說明他們對自己的工作有清醒的認識。

      這可能比給出完美答案更有價值。因為真正推動社會進步的,往往不是答案,而是問題。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      眼中有光,誰看了不迷糊?

      眼中有光,誰看了不迷糊?

      貴圈真亂
      2026-05-01 13:49:56
      為了得到大哥的妻子旺達,伊卡爾迪究極付出了多大的代價?

      為了得到大哥的妻子旺達,伊卡爾迪究極付出了多大的代價?

      羅氏八卦
      2026-05-01 18:05:03
      申京噴詹姆斯軟蛋哨,詹姆斯回懟:火箭全隊就你沒資格說這話

      申京噴詹姆斯軟蛋哨,詹姆斯回懟:火箭全隊就你沒資格說這話

      懂球帝
      2026-05-01 17:04:15
      A50,直線拉升!中國資產,集體爆發

      A50,直線拉升!中國資產,集體爆發

      證券時報
      2026-05-01 10:52:07
      62339人,大連英博主場上座人數再創新高,位列中超歷史第3

      62339人,大連英博主場上座人數再創新高,位列中超歷史第3

      懂球帝
      2026-05-01 20:49:19
      為華晨宇演唱會買的房,賣不出去了

      為華晨宇演唱會買的房,賣不出去了

      南風窗
      2026-05-01 20:02:27
      爺爺過世請假奔喪被公司開除,法院判了

      爺爺過世請假奔喪被公司開除,法院判了

      極目新聞
      2026-05-01 17:05:11
      “9點出發11點還沒出上?!?!假期首日現離滬+來滬雙高峰!上海人熱門“白相”好去處太鬧猛

      “9點出發11點還沒出上?!?!假期首日現離滬+來滬雙高峰!上海人熱門“白相”好去處太鬧猛

      新民晚報
      2026-05-01 20:18:37
      合同到期!CBA超級外援恐遭多支球隊哄搶,本賽季場均狂砍27+5+5

      合同到期!CBA超級外援恐遭多支球隊哄搶,本賽季場均狂砍27+5+5

      老葉評球
      2026-05-01 17:33:03
      北影30年后再聚首:陳坤老了,黃曉明精致了,意想不到的人也來了

      北影30年后再聚首:陳坤老了,黃曉明精致了,意想不到的人也來了

      往史過眼云煙
      2026-04-30 19:28:05
      擔心的事發生了,俄方提議遭特朗普拒絕,兩國總統早已留好退路?

      擔心的事發生了,俄方提議遭特朗普拒絕,兩國總統早已留好退路?

      近史博覽
      2026-05-01 13:47:03
      站臺抽煙鐵路員工向沈女士道歉,女子全網社死不敢發聲,官方回應

      站臺抽煙鐵路員工向沈女士道歉,女子全網社死不敢發聲,官方回應

      小鋭有話說
      2026-04-30 20:53:37
      太諷刺!2026勞模名單爭議大,被疑有“許家印”,評論區不留情面

      太諷刺!2026勞模名單爭議大,被疑有“許家印”,評論區不留情面

      譚談社會
      2026-05-01 14:42:03
      爆冷淘汰掘金!森林狼主帥賽后扎心懟掘金:是你們挑的我們

      爆冷淘汰掘金!森林狼主帥賽后扎心懟掘金:是你們挑的我們

      仰臥撐FTUer
      2026-05-01 14:26:14
      突發:以色列發動襲擊

      突發:以色列發動襲擊

      農民日報
      2026-05-01 18:52:20
      超級世界波!費利佩倒鉤破門,射手榜追平拉唐,鎖定賽季十佳進球

      超級世界波!費利佩倒鉤破門,射手榜追平拉唐,鎖定賽季十佳進球

      奧拜爾
      2026-05-01 20:56:34
      陳芋汐/盧為奪得跳水世界杯總決賽女子雙人10米臺冠軍

      陳芋汐/盧為奪得跳水世界杯總決賽女子雙人10米臺冠軍

      新浪財經
      2026-05-01 15:54:23
      重重抽范明耳光,用羞恥姿勢抓撒貝寧丟水里…孫楊口碑驟跌!

      重重抽范明耳光,用羞恥姿勢抓撒貝寧丟水里…孫楊口碑驟跌!

      魔都囡
      2026-05-01 08:29:48
      又是逆轉的節奏!希金斯連贏2局,第2階段不敗,擊敗墨菲將創紀錄

      又是逆轉的節奏!希金斯連贏2局,第2階段不敗,擊敗墨菲將創紀錄

      劉姚堯的文字城堡
      2026-05-01 19:26:57
      根據53年前頒布的這項法案,今天以后特朗普還能繼續打伊朗嗎?

      根據53年前頒布的這項法案,今天以后特朗普還能繼續打伊朗嗎?

      齊魯壹點
      2026-05-01 08:27:13
      2026-05-01 21:39:00
      字母榜 incentive-icons
      字母榜
      讓未來不止于大。
      2430文章數 8062關注度
      往期回顧 全部

      科技要聞

      DeepSeek發布多模態論文又連夜刪除

      頭條要聞

      74歲老人郵輪旅行登船次日突發急癥離世 家屬索賠90萬

      頭條要聞

      74歲老人郵輪旅行登船次日突發急癥離世 家屬索賠90萬

      體育要聞

      無奈!約基奇:這要在塞爾維亞 全隊早被炒了

      娛樂要聞

      馬筱梅產后身材恢復超好 現身戶外直播

      財經要聞

      GPU神話松動,AI真正的戰場變了

      汽車要聞

      限時9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

      態度原創

      本地
      藝術
      房產
      時尚
      公開課

      本地新聞

      用青花瓷的方式,打開西溪濕地

      藝術要聞

      Nikolai Vryasov:當代俄羅斯畫家

      房產要聞

      所有戶型全賣爆!??赥OP級豪宅,景觀樣板間五一全線開放!

      她們看起來氣血好足,每套搭配我都想抄

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中文幕无线码中文字蜜桃| 亚洲AV秘?成人久久无码海归| 国产精品久久国产精麻豆99网站| 精品深夜av无码一区二区| 精品超清无码视频在线观看| 高清乱码免费入口| 国产zzjjzzjj视频全免费| 亚欧洲精品在线视频免费观看| 中文字幕乱码无码人妻系列蜜桃| avの在线观看不卡| 人人狠狠综合久久亚洲| 污污网站不卡| 国产精品丝袜高跟鞋| 一区二区国产在线| 99久热这里精品免费观看| 国产精品无码专区久久久| 亚洲卡1卡2卡新区网站| 老色鬼永久精品网站| 四虎库影成人在线播放| 国产主播在线影视| 午夜国产亚洲精品一区| 东方av四虎在线观看| 男人亚洲天堂| 久久精品| 欧美综合人人做人人爱| 日本乱码在线| 亚洲人精品亚洲人成在线| 成a人片亚洲日本久久| 特大巨黑吊av在线播放| 精品国产无套在线观看| 人妻中文系列| 亚洲性无码av在线| 亚洲欧洲日产国码综合在线| 国产精品美女久久久久久大全| 亚洲午夜免费福利视频| 日韩的一区二区| 国产精品免费看久久久| 激情人妻校园春色亚洲| 亚洲av午夜福利精品一区二区| 亚洲中文字幕无码卡通动漫野外| 少妇xxxxx性开放|