<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      DeepSeek 新論文,多模態(tài)的正確打開方式

      浙江湖州人立夏的“打開方式”

      0
      分享至

      今天再來聊聊 DeepSeek 聯(lián)手北大、清華甩出的新論文 ——《Thinking with Visual Primitives》(用視覺原語思考)


      短暫發(fā)到Github后被撤回了,原因不明,趁假期看看論文都有什么巧思

      戳到了多模態(tài)的痛點

      今天的多模態(tài)大模型(MLLM)幾乎都在卷一件事:Perception Gap(感知鴻溝)

      說人話——圖看不清、看不全

      于是大家拼命往里堆視覺 token,高分辨率切片、動態(tài) patch,恨不得把每個像素都塞進上下文。GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash 處理一張 800×800 的圖,普遍要吃掉 700~1100 個視覺 token

      但 DeepSeek 團隊點出了一個更要命的問題:Reference Gap(指代鴻溝)

      什么意思?你讓模型"數(shù)一數(shù)圖里有幾只皮卡丘",它"看見了",但用文字思考的時候,根本說不清"哦那只在左上角帶帽子的、和右下角被半遮住的是不是同一只"。語言天生不擅長指代連續(xù)的視覺空間,于是越推理越亂,幻覺一層疊一層。


      這事兒很反直覺但又很對——人類自己數(shù)密集物體的時候也得用手指點一點,對吧?

      下圖是論文開頭那張對比,左邊是 KV Cache 占用,右邊是 7 個 benchmark 的平均分。這家伙 KV Cache 只用 90 條左右,分?jǐn)?shù)卻跟 Gemini-3-Flash、GPT-5.4、Claude-Sonnet-4.6 站在同一檔:


      token效率與平均得分對比 核心思路:讓"點和框"成為思考的最小單元

      DeepSeek 的解法聽起來樸素,做起來不容易:

      ? 把空間標(biāo)記(points 和 bounding boxes)從"輸出結(jié)果"提升為"思考的最小單元",和文字 token 交替出現(xiàn)在 CoT 思維鏈里

      打個比方:以前的模型像一個只會用嘴說話的人在描述一幅畫,"那個穿紅衣服的、不對是另一個、嗯左邊那個……";現(xiàn)在的模型像一個邊說話邊伸手指的人,每次提到某個對象,直接附帶一個坐標(biāo) <|point|>[[309,512]]<|/point|> 或框 <|box|>[[x1,y1,x2,y2]]<|/box|>

      邏輯就錨定在物理坐標(biāo)上了,再也不會"指著指著就忘了剛才指的是哪個"

      下圖是它的整體架構(gòu)和訓(xùn)練流程,基于 DeepSeek-V4-Flash(284B 總參 / 13B 激活的 MoE)和自研的 DeepSeek-ViT:


      模型架構(gòu)與訓(xùn)練流程

      視覺部分有幾個值得關(guān)注的工程細節(jié):

      • ViT 出口先做 3×3 空間壓縮 :每 9 個相鄰 patch token 合成 1 個,沿通道維拼接

      • Compressed Sparse Attention(CSA)繼續(xù)壓 4 倍 KV :放進 LLM 的 KV Cache 里只剩極小一部分

      • 整體壓縮比 7056× :一張 756×756 的圖,571536 個像素,最后只占 81 個 KV 條目

      這就是為什么它的 token 預(yù)算能壓到對手的 1/8,同時還把性能維持住——壓縮本來就是 DeepSeek 的看家本領(lǐng)(看過 DeepSeek-OCR 那篇的同學(xué)應(yīng)該有印象,這家公司是真的癡迷于"用更少 token 裝下更多信息")

      訓(xùn)練怎么搞:先海量灌"框",再 RL 學(xué)"點"

      這部分我讀得最仔細。DeepSeek 團隊沒用 COCO、Pixmo-Points 這類老數(shù)據(jù)集(量太小、多樣性差),而是自己抓了大規(guī)模 web 數(shù)據(jù)來標(biāo) bbox

      為什么優(yōu)先 bbox 不是 point?三個理由很硬:

      1. bbox 的標(biāo)注是確定性的 ——一個點可以落在物體的任何位置,沒有標(biāo)準(zhǔn)答案;框緊緊包住物體,標(biāo)注穩(wěn)定

      2. bbox 能泛化到 point ——左上角和右下角兩個點就能定義一個框,反過來不行

      3. bbox 信息更豐富 ——除了位置還有寬高,更適合復(fù)雜推理

      后訓(xùn)練階段是論文最有意思的部分:專家化 SFT + 專項 RL + 統(tǒng)一 RFT + On-Policy 蒸餾的四段式流水線。每個能力(計數(shù)、空間推理、迷宮、路徑追蹤)單獨訓(xùn)出一個專家,再合并蒸餾成統(tǒng)一模型

      特別是迷宮導(dǎo)航的 RL 獎勵設(shè)計,拆得很細:路徑覆蓋度、探索完整度、墻壁判斷準(zhǔn)確率、最終路徑有效性……這套機制讓模型真的學(xué)會了先標(biāo)起點和終點 → 試探性探索 → 回溯 → 給出完整路徑的人類式解題流程

      跑分成績:拓?fù)渫评眍I(lǐng)先一個身位

      直接上表,11 個 benchmark 橫向?qū)Ρ龋?/p>


      與前沿模型的對比

      我重點看這幾個數(shù)字:

      • CountQA(EM/RA@10) :64.9/74.1,比 GPT-5.4 的 48.3/60.3、Claude-Sonnet-4.6 的 34.8/46.6 高了一大截,僅次于 Gemini-3-Flash

      • Pixmo-Count :89.2,全場第一

      • DS_Spatial_Reasoning :98.7,斷崖領(lǐng)先

      • DS_Maze_Navigation(迷宮導(dǎo)航) :66.9,第二名 GPT-5.4 才 50.6

      • DS_Path_Tracing(路徑追蹤) :56.7,第二名 GPT-5.4 才 46.5

      特別值得說道的是迷宮和路徑這兩項——所有前沿大模型基本卡在 50% 上下(跟瞎猜沒差太多),DeepSeek 這套方法直接拉到 66.9% 和 56.7%

      這說明純靠語言 CoT 真做不動拓?fù)渫评?/strong>,必須給模型一根"手指頭"

      實戰(zhàn) case:邊想邊指是什么樣

      光看分?jǐn)?shù)沒感覺,看幾個實際推理過程。

      例 1:數(shù)圖里的皮卡丘

      模型一邊推理一邊在圖上畫框,把每只 Pokemon 的位置全標(biāo)出來,最后給出 6 這個答案:


      細粒度計數(shù)案例

      例 2:中文 + 世界知識 + 空間定位

      注意,論文明確說后訓(xùn)練數(shù)據(jù)里沒有中文視覺原語語料,但模型靠基座的多語言能力直接秒了一個中文世界地理問題——"這附近有 NBA 球隊嗎?" 它先框出"彩色的金門大橋",識別出舊金山,再回答勇士隊。這種跨能力涌現(xiàn)是真有意思:


      中文世界知識推理案例

      例 3:迷宮導(dǎo)航——這才是"視覺原語"真正的舞臺

      模型先用 <|point|> 標(biāo)記起點(綠菱形)和終點(紅標(biāo)簽),然后一步步在迷宮里點出探索路徑,遇到死路就回溯,最后輸出完整可達路徑或判定不可解:


      迷宮導(dǎo)航案例

      這個過程幾乎就是把人類拿手指在迷宮上比劃的動作翻譯成了 token 序列,看著就很"像在思考"

      老章的幾點觀察

      1. 這是 DeepSeek 一以貫之的"壓縮哲學(xué)"

      從 DeepSeek-OCR 的"用圖像 token 壓縮文本",到這篇的"用視覺原語壓縮思考",DeepSeek 一直在做同一件事:讓模型用更少的 token 干更多的事。這是真正在工程上摳極限的團隊,相比之下隔壁某些"暴力堆參數(shù)"的路線顯得很粗糙

      2. Reference Gap 這個問題提得相當(dāng)犀利

      之前業(yè)界一窩蜂在 Perception Gap 上卷,DeepSeek 直接把戰(zhàn)場往前推了一格。一旦你接受了"語言無法精確指代視覺空間"這個前提,就會發(fā)現(xiàn)現(xiàn)在主流多模態(tài)模型在密集計數(shù)、迷宮、復(fù)雜場景理解上的崩盤,根源都在這里

      3. 局限也別忽略

      論文自己承認(rèn)了三點:

      • 受限輸入分辨率,細粒度場景下視覺原語輸出仍有偏差

      • 當(dāng)前還得靠"觸發(fā)詞"啟動這個機制,不能自適應(yīng)判斷什么時候該用

      • 用 point 解決復(fù)雜拓?fù)渫评恚鐖鼍胺夯€不夠好

      短期內(nèi)這套范式還需要更多打磨,但方向我覺得是對的。

      4. 對開發(fā)者意味著什么

      如果你做的產(chǎn)品涉及:

      • 復(fù)雜圖表 / UI 截圖理解

      • 倉儲、零售場景的密集物體計數(shù)

      • 工業(yè)圖紙、電路圖、地圖這類需要拓?fù)渫评淼膱鼍?/p>

      • 機器人路徑規(guī)劃相關(guān)的 VLM

      那這套思路非常值得關(guān)注。理論上,未來 DeepSeek-V4-VL(如果開源的話)會讓這些場景的精度上一個臺階。

      總結(jié)

      這篇論文最大的價值不在于又跑贏了 GPT 和 Claude,而在于指出了多模態(tài)的下一道坎在哪——從"看清"走到"想清",需要讓模型獲得"指點的能力"

      技術(shù)上,DeepSeek 用極致 token 效率 + 視覺原語 CoT + 專家化訓(xùn)練流水線,給出了一條可走通的路徑。論文里展示的迷宮 case 和中文涌現(xiàn)能力,讓人有種"哎,多模態(tài)原來還可以這么玩"的感覺

      我會持續(xù)盯著,第一時間給大家?guī)砗罄m(xù)動向

      制作不易,如果這篇文章覺得對你有用,可否點個關(guān)注。給我個三連擊:點贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      賴清德專機繞路返航,4架戰(zhàn)機護航盡顯心虛

      賴清德專機繞路返航,4架戰(zhàn)機護航盡顯心虛

      音樂時光的娛樂
      2026-05-05 14:30:00
      倫敦世乒賽:8強賽對陣出爐,林詩棟3-0完成救贖,龍隊劉詩雯觀戰(zhàn)

      倫敦世乒賽:8強賽對陣出爐,林詩棟3-0完成救贖,龍隊劉詩雯觀戰(zhàn)

      晚霧空青
      2026-05-06 00:58:31
      不是文班 不是福克斯!馬刺爆冷輸球揪出水貨 33歲老將今夏恐退役

      不是文班 不是福克斯!馬刺爆冷輸球揪出水貨 33歲老將今夏恐退役

      籃球圈里的那些事
      2026-05-05 17:15:20
      五一假期結(jié)束別難過 還有45天又放假了!端午節(jié)放假通知正式出爐:6月19日-21日連放三天,不補班不調(diào)休

      五一假期結(jié)束別難過 還有45天又放假了!端午節(jié)放假通知正式出爐:6月19日-21日連放三天,不補班不調(diào)休

      每日經(jīng)濟新聞
      2026-05-05 23:40:29
      美國人的歷史課本,是怎樣寫中國的?僅有20頁,記載了6個中國人

      美國人的歷史課本,是怎樣寫中國的?僅有20頁,記載了6個中國人

      抽象派大師
      2026-05-03 00:24:53
      1958年毛澤東視察濟南,酒桌上突然猛砸杯子死盯王新亭:把你隱瞞的秘密交底吧?

      1958年毛澤東視察濟南,酒桌上突然猛砸杯子死盯王新亭:把你隱瞞的秘密交底吧?

      史海孤雁
      2026-05-05 17:07:19
      突發(fā)!趙繼偉深夜11點做出重大決定,球迷:要加盟上海或北控?

      突發(fā)!趙繼偉深夜11點做出重大決定,球迷:要加盟上海或北控?

      呀古銅
      2026-05-06 06:09:06
      2001年,夫妻簽離婚協(xié)議時發(fā)現(xiàn)沒筆,妻子獨自上樓取筆時遇刺身亡

      2001年,夫妻簽離婚協(xié)議時發(fā)現(xiàn)沒筆,妻子獨自上樓取筆時遇刺身亡

      明月清風(fēng)閣
      2026-05-05 21:25:06
      “新型霸凌”正在校園悄悄流行,孩子不敢說,但家長一定牢記這些

      “新型霸凌”正在校園悄悄流行,孩子不敢說,但家長一定牢記這些

      木言觀
      2026-05-05 07:09:57
      舌吻3小時、喊兒子小狼狗,狄鶯的畸形母愛終于反噬了

      舌吻3小時、喊兒子小狼狗,狄鶯的畸形母愛終于反噬了

      子芫伴你成長
      2026-05-02 22:50:39
      39歲何潔直播公布三婚,這姐還結(jié)啊,頭發(fā)都白了

      39歲何潔直播公布三婚,這姐還結(jié)啊,頭發(fā)都白了

      夢想總會變成真
      2026-05-05 21:36:52
      連沉7船!美軍動真格,真相曝光,德黑蘭權(quán)力失控,革命衛(wèi)隊玩火

      連沉7船!美軍動真格,真相曝光,德黑蘭權(quán)力失控,革命衛(wèi)隊玩火

      最美的巧合
      2026-05-05 16:00:24
      FIFA徹底慌了!多國集體拒高價買世界杯版權(quán),天價泡沫徹底破裂

      FIFA徹底慌了!多國集體拒高價買世界杯版權(quán),天價泡沫徹底破裂

      行者聊官
      2026-05-05 10:20:23
      比黃金貴3倍!1公斤賣165萬,以前農(nóng)村隨手扔,看看你家有嗎

      比黃金貴3倍!1公斤賣165萬,以前農(nóng)村隨手扔,看看你家有嗎

      三農(nóng)雷哥
      2026-05-04 11:49:13
      百億私募暴雷,52人近1億血汗錢被套!

      百億私募暴雷,52人近1億血汗錢被套!

      三農(nóng)老歷
      2026-05-05 05:42:41
      醫(yī)生發(fā)現(xiàn):一旦吃上降血壓藥,這幾件事就別做了,別害了自己

      醫(yī)生發(fā)現(xiàn):一旦吃上降血壓藥,這幾件事就別做了,別害了自己

      敘說醫(yī)療健康
      2026-05-06 05:00:06
      比亞迪這波降價,不只是真香,而是把一部分人直接推到了分岔路口

      比亞迪這波降價,不只是真香,而是把一部分人直接推到了分岔路口

      三農(nóng)老歷
      2026-05-05 15:01:13
      球迷態(tài)度:阿森納英超領(lǐng)跑+歐冠進決賽,本賽季結(jié)局將如何?

      球迷態(tài)度:阿森納英超領(lǐng)跑+歐冠進決賽,本賽季結(jié)局將如何?

      懂球帝
      2026-05-06 05:45:10
      曾10分鐘賣500萬桶,半個娛樂圈為它帶貨!昔日網(wǎng)紅美食要破產(chǎn)了,杭州有便利店已下架

      曾10分鐘賣500萬桶,半個娛樂圈為它帶貨!昔日網(wǎng)紅美食要破產(chǎn)了,杭州有便利店已下架

      都市快報橙柿互動
      2026-05-06 00:20:04
      吳千語住進上海別墅,裝修剛完就搬了家,中產(chǎn)生活悄悄變了樣

      吳千語住進上海別墅,裝修剛完就搬了家,中產(chǎn)生活悄悄變了樣

      孤傲何妨初
      2026-05-06 04:31:12
      2026-05-06 06:56:49
      Ai學(xué)習(xí)的老章 incentive-icons
      Ai學(xué)習(xí)的老章
      Ai學(xué)習(xí)的老章
      3372文章數(shù) 11146關(guān)注度
      往期回顧 全部

      科技要聞

      傳蘋果考慮讓英特爾、三星代工設(shè)備處理器

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      體育要聞

      全世界都等著看他笑話,他帶國米拿下冠軍

      娛樂要聞

      內(nèi)娛真情誼!楊紫為謝娜演唱會送花籃

      財經(jīng)要聞

      瀏陽煙花往事

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態(tài)度原創(chuàng)

      數(shù)碼
      親子
      藝術(shù)
      手機
      公開課

      數(shù)碼要聞

      微星“MAG 276QRDY54”27英寸顯示器發(fā)售,6299元

      親子要聞

      這個五一,帶寶寶來北海看海啦~銀灘細沙海浪,是小朋友最愛的天

      藝術(shù)要聞

      這些勞動圖畫最美!

      手機要聞

      iPhone 20周年機型或配備固態(tài)按鈕,iPhone 18再次確認(rèn)工藝降級!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 探花av| 精品无码人区一区二区| 国产强伦姧在线观看| 国产在线无码不卡播放| 自拍偷拍第一区二区三区| 亚洲综合图片区| 香港三日本8a三级少妇三级99| 2021年国产精品每日更新| 无码四区| 台湾无码一区二区| 国产精品大片中文字幕| 国产精品天堂avav在线观看| 熟女爱V| 无码字幕中文| 久久亚洲国产精品一区| A级毛片不卡免费视频观看| 日韩欧美偷拍高跟鞋精品一区| 亚洲欧美日韩一区二区三区在线| 在线天堂中文字幕| 老司机在线视频免费福利| 亚洲综合国产成人丁香五月小说 | 精品日韩欧美一区二区在线播放| 国产亚欧女人天堂AV在线| 久久精品国产乱子伦多人| 熟妇人妻无码中文字幕| 无码av天堂一区二区三区| 国产亚洲精品A在线无码| 又大又粗弄得我出好多水| 免费看无码网站成人A片| 99国产欧美另类久久久精品| 中出21p| 亚洲高清一区二区三区电影| 精品熟女少妇av免费久久| 国产精品无码专区综合网| 欧美顶级少妇作爱| 天堂无码| 日韩精品久久无码中文字幕| 国产亚洲精品超碰热| 中文字幕一区二区视频| 国产色婷婷亚洲99精品| 久久久久国产精品熟女影院|