<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek“開眼”背后的技術,公開了!

      0
      分享至

      來源:市場資訊

      (來源:智東西)


      智東西

      作者 陳駿達

      編輯 心緣

      智東西4月30日報道,今天,DeepSeek發布多模態技術報告《用視覺原語思考(Thinking with Visaul Primitives)》,詳細闡釋了昨日灰度上線的DeepSeek識圖模式背后的技術細節(DeepSeek終于能看圖了!我第一時間用它算命)。


      DeepSeek識圖模式所使用的是一個284B參數、13B激活多模態推理模型,其正式名稱尚未對外發布,基座模型是DeepSeek-V4-Flash。DeepSeek稱,這一模型的權重將整合進DeepSeek的基礎模型,并在未來發布。

      當前,傳統的思維鏈仍然停留在語言領域,但視覺推理所需要的信息更多。DeepSeek的新一代多模態推理模型的核心升級就在于,它把純粹的語言推理鏈條,升級成了一種“語言邏輯+空間坐標”交織的雙軌思維。

      當模型對著一張圖進行推理時,它是會像人一樣,直接輸出一個具體的框或者點,在圖中精準地“指”出它當下正在想的那個東西。

      DeepSeek多模態團隊負責人陳小康分享了一張動圖,形象地闡釋了這一運作機制。圖中,DeepSeek多模態模型可以在思維鏈中使用框進行定位,并在后續的推理步驟中持續引用這些被框定的視覺錨點,基于空間坐標進行下一步判斷,極大提升了視覺推理的準確性。


      ▲DeepSeek多模態模型推理過程

      在一系列高難度視覺QA任務中,這一模型的表現超過了GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash、Qwen3-VL等模型。


      較高的token效率也是這一模型的亮點。與當前主流的多模態大模型將一張圖片轉化為成百上千個視覺token不同,DeepSeek這套架構通過視覺壓縮策略,將高分辨率圖像從原始像素開始,經過ViT特征提取、空間壓縮以及稀疏注意力機制的多級處理,最終在KV緩存中僅保留約90個視覺條目,實現超7000倍的壓縮。

      這意味著模型在進行復雜空間推理時,無需在海量視覺信息中反復檢索,思考過程的每一步都較為“輕量”。


      項目地址:

      https://github.com/deepseek-ai/Thinking-with-Visual-Primitives

      技術報告:

      https://github.com/deepseek-ai/Thinking-with-Visual-Primitives/blob/main/Thinking_with_Visual_Primitives.pdf

      一、自然語言存在“指代鴻溝”,視覺標記介入有望破解

      這篇論文中,DeepSeek多模態團隊提出了對現有多模態大模型缺陷的洞察。過去,當業界談論提升視覺模型的推理能力時,幾乎所有的努力都集中在“感知鴻溝”上,也就是讓模型“看得更清楚”:通過更高分辨率的圖像切分、更精細的動態分塊,確保模型不會遺漏圖中的細節。

      但DeepSeek多模態團隊認為,即便把這一切做到極致,模型依然會在復雜的視覺推理任務中崩潰。

      自然語言在描述連續視覺空間時,天然存在一種“指代鴻溝”:當你說“左邊那個東西”時,在擁擠的場景中,這個“東西”到底指哪一個,模型無法精確鎖定。

      于是,模型的思維鏈條看似環環相扣,實則每一步都存在偏離的風險,一旦涉及到密集計數、多步空間推理或者拓撲導航這種需要逐步推理的任務,邏輯就會因為指代不清而逐漸崩塌。

      基于這個判斷,DeepSeek多模態團隊嘗試讓模型在思考時“邊想邊指”,也就是讓模型用點坐標和邊界框來“指”,把這些人類的視覺原語,變成模型思維鏈條上的最小認知單元。

      架構層面,這一多模態模型通過DeepSeek-ViT負責將圖像轉換為視覺特征,下圖右下方的文本分詞器負責處理用戶的語言指令,兩者輸入至基座模型DeepSeek-V4-Flash進行推理融合,最后由去分詞器輸出包含自然語言與視覺原語(如坐標框、區域標記)的聯合響應。這種設計使模型兼顧文本理解能力和原生視覺定位能力。


      二、篩選超4000萬個高質量樣本,對四類任務針對性優化

      要把點和框變成模型思維的一部分,首先要解決的問題,就是如何讓模型真正“學會指”。模型需要把“指”這個動作內化成一種思維習慣。

      為此,DeepSeek多模態團隊構建了一條貫穿預訓練、冷啟動和強化學習的訓練流水線。

      在預訓練階段,他們從互聯網上爬取了97984個與目標檢測相關的數據源,設計了自動化的語義和幾何質量審查機制,過濾掉亂碼標簽、不可泛化的私人實體、嚴重截斷的框以及覆蓋全圖90%面積的“巨型框”等低質量標注,最終篩選出31701個高質量數據源,總計超過4000萬個的精準樣本,先讓模型掌握基本定位能力。

      接下來是冷啟動數據構建。DeepSeek多模態團隊針對計數、空間推理、迷宮導航和路徑追蹤這四類最能體現視覺原語價值的任務,合成了一套帶有精確思考軌跡監督的數據。

      以計數任務為例,模型被明確教導,在思考時要先批量框選所有候選對象,然后再對這些錨定好的框進行逐一校驗和累加。


      ▲計數任務的一條冷啟動數據

      在迷宮任務中,模型的每一步探索都必須輸出一個點坐標來標記當前所在,一旦失誤撞墻,整個后續探索在因果上就自動失效,模型必須學會回溯。

      這種把視覺原語操作直接整合進思維鏈的做法,讓模型在冷啟動階段就建立起“指向-推理”的強耦合。

      三、采用稠密獎勵機制,視覺編碼壓縮比超7000倍

      有了冷啟動模型之后,DeepSeek多模態團隊通過一套“訓練專家再融合”的后訓練策略,將模型的能力進一步精細化。其中的創新點在于強化學習階段的獎勵模型。

      以迷宮任務為例,獎勵分解為探索進度、撞墻懲罰、路徑有效性和探索完整性等多個維度。模型每正確探索一個單元格、沒有非法穿越墻壁,都會獲得正向信號,而一旦發生撞墻,即便最終的答案為“可解”,也會被嚴格扣分。

      這種稠密的獎勵機制,讓模型必須認真對待每一個視覺原語操作,無法靠猜答案實現獎勵破解。

      為了同時掌握框定位和點指向這兩種視覺原語,該團隊還分別訓練了兩個專家模型,最后通過在線策略蒸餾將它們融合成一個統一模型,讓學生模型在自己生成的思維軌跡上,學習兩位專家老師的輸出分布。這種設計有效避免了兩種異構原語在訓練中的相互干擾。

      值得一提的是,這項工作的技術路線建立在一個高效的視覺編碼架構之上。

      首先,Vision Transformer以14×14的塊大小將圖像切分成視覺token;然后,在ViT輸出端進行3×3的空間壓縮,將每9個相鄰token沿通道維度合并為1個;最后,利用模型底座DeepSeek-V4-Flash自帶的壓縮稀疏注意力機制,將KV緩存中的視覺條目再壓縮4倍。

      以一張756×756分辨率的圖像為例,它原本會產生2916個patch token,經過三級壓縮后最終僅保留81個視覺KV條目,整體壓縮比高達7056倍。

      這種token效率意味著,模型在展開復雜的空間推理時擁有了一份“提煉好的索引”,可以拿著索引直接進行思考,從工程上就減弱了無關像素對推理鏈路的干擾。

      結語:多模態智能的“系統二”進化

      DeepSeek多模態團隊也在報告中提到了當前技術的邊界。模型在復雜拓撲推理任務上的跨場景泛化能力尚未完善,且思考中視覺基元的激活目前仍依賴顯式的觸發詞,尚未實現完全的自發調用。

      但他們也認為,這套框架為多模態社區展示了通往系統二級別的多模態智能的路徑。這一路徑沒有一味地堆高圖像分辨率,而在構建了更精準從參照指標。

      用空間坐標錨定抽象思維,讓模型像人類一樣“邊指邊想”,這本身就是一個值得繼續深挖的方向。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      不再隱忍!樊振東徹底攤牌,深夜長文炸穿全網,棄賽留洋真相大白

      不再隱忍!樊振東徹底攤牌,深夜長文炸穿全網,棄賽留洋真相大白

      李虰手工制作
      2026-05-01 07:33:04
      加快男性衰老的原因:喝酒僅排第5,排在第1的,很多男性都沒發現

      加快男性衰老的原因:喝酒僅排第5,排在第1的,很多男性都沒發現

      芹姐說生活
      2026-04-30 16:07:48
      兩連敗將是皆大歡喜,韓鵬解脫、鄭智解脫、球迷也將徹底死心

      兩連敗將是皆大歡喜,韓鵬解脫、鄭智解脫、球迷也將徹底死心

      體壇風之子
      2026-05-01 07:00:22
      好消息,凱爾特人主帥:塔圖姆能否出戰搶七大戰——“他會上場”

      好消息,凱爾特人主帥:塔圖姆能否出戰搶七大戰——“他會上場”

      好火子
      2026-05-02 01:00:18
      扎哈羅娃:俄羅斯與基輔政權不同 不會將戰士投入到毫無意義的強攻中

      扎哈羅娃:俄羅斯與基輔政權不同 不會將戰士投入到毫無意義的強攻中

      俄羅斯衛星通訊社
      2026-05-01 15:20:54
      對陣三鎮最后時刻孫銘謙禁區內被沖撞,裁判直接結束比賽離場

      對陣三鎮最后時刻孫銘謙禁區內被沖撞,裁判直接結束比賽離場

      懂球帝
      2026-05-01 22:23:26
      中國爛尾軍事工程6501:因湖南老農上山尋牛,意外被發現?

      中國爛尾軍事工程6501:因湖南老農上山尋牛,意外被發現?

      抽象派大師
      2026-05-02 00:52:13
      離譜!一班主任通知,因舉報不再布置課后作業,引發其他家長不滿

      離譜!一班主任通知,因舉報不再布置課后作業,引發其他家長不滿

      火山詩話
      2026-04-30 10:53:58
      上海一奧迪女銷售請客戶吃飯,細節被爆出,父母:臉都被丟盡了

      上海一奧迪女銷售請客戶吃飯,細節被爆出,父母:臉都被丟盡了

      娛樂圈的筆娛君
      2026-05-02 01:20:29
      表現簡直是不能更差了!掘金后場核心為什么莫名其妙變成這樣了?

      表現簡直是不能更差了!掘金后場核心為什么莫名其妙變成這樣了?

      稻谷與小麥
      2026-05-02 00:01:16
      僅差1千萬!騰訊互聯網第一寶座快被超越

      僅差1千萬!騰訊互聯網第一寶座快被超越

      快科技
      2026-05-01 21:19:04
      湯杯戰報:連爆大冷世界第2第6都輸了,梁王力助國羽大分2-0

      湯杯戰報:連爆大冷世界第2第6都輸了,梁王力助國羽大分2-0

      求球不落諦
      2026-05-01 18:07:27
      這場中東沖突的最大意外:一直上躥下跳的印度,已是徹底涼涼了

      這場中東沖突的最大意外:一直上躥下跳的印度,已是徹底涼涼了

      流史歲月
      2026-04-20 16:00:06
      懂事!劉國梁倫敦世乒賽看望國乒,王楚欽停步給劉主席王勵勤讓路

      懂事!劉國梁倫敦世乒賽看望國乒,王楚欽停步給劉主席王勵勤讓路

      818體育
      2026-05-01 21:55:54
      追夢格林:科爾兩年內做過八九次手術 他可能真的快熬不住了

      追夢格林:科爾兩年內做過八九次手術 他可能真的快熬不住了

      北青網-北京青年報
      2026-05-01 11:05:03
      上嫁吞針?這一次,和強勢婆家同住的張豆豆,給所有女生提了個醒

      上嫁吞針?這一次,和強勢婆家同住的張豆豆,給所有女生提了個醒

      她時尚丫
      2026-05-01 22:12:19
      記者:B席轉會巴薩已完成80%,球員愿降薪60%加盟

      記者:B席轉會巴薩已完成80%,球員愿降薪60%加盟

      懂球帝
      2026-05-02 03:53:13
      回國后我才敢說:印尼是我去過的所有東南亞國家中,最被低估的

      回國后我才敢說:印尼是我去過的所有東南亞國家中,最被低估的

      千秋文化
      2026-04-28 20:20:16
      兩桿破百+六桿50加,10-2大勝!吳宜澤下一關,是塞爾比還是奇跡

      兩桿破百+六桿50加,10-2大勝!吳宜澤下一關,是塞爾比還是奇跡

      曹老師評球
      2026-04-21 23:22:10
      瘋狂!種馬男星沃倫睡過12775名女友,性欲成癮纏著女友不讓下床

      瘋狂!種馬男星沃倫睡過12775名女友,性欲成癮纏著女友不讓下床

      錢小刀娛樂
      2026-04-14 10:39:13
      2026-05-02 07:44:49
      新浪財經 incentive-icons
      新浪財經
      新浪財經是一家創建于1999年8月的財經平臺
      3094979文章數 7059關注度
      往期回顧 全部

      科技要聞

      AI熱潮耗盡庫存,Mac Mini起售調高200美元

      頭條要聞

      特朗普點名批意西德三國 稱可能考慮撤軍

      頭條要聞

      特朗普點名批意西德三國 稱可能考慮撤軍

      體育要聞

      無奈!約基奇:這要在塞爾維亞 全隊早被炒了

      娛樂要聞

      馬筱梅產后身材恢復超好 現身戶外直播

      財經要聞

      GPU神話松動,AI真正的戰場變了

      汽車要聞

      限時9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

      態度原創

      藝術
      游戲
      家居
      手機
      軍事航空

      藝術要聞

      畫畫的你絕不能錯過!色塊與筆觸的激情之旅!

      《天國拯救2》打造《指環王》3A大作?官方回應來了

      家居要聞

      靈動實用 生活藝術場

      手機要聞

      iPhone 17系列成為蘋果最暢銷機型!最新財報多項數據創紀錄

      軍事要聞

      特朗普:對伊戰事結束 無限期延長停火

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 粉嫩蜜臀av一区二区三区| 亚洲尹人九九大色香蕉网站| 一本色道av久久精品+网站| 免费观看潮喷到高潮大叫网站| 2018天天拍拍天天爽视频| 国产在线精品一区二区在线观看| 欧美精品人人做人人爱视频| 日本亚洲成a人片在线观看| 九九久久精品国产| 国产精品一区久久av| 麻豆蜜桃av蜜臀av色欲av| 国产精品99中文字幕| 男人天堂手机在线| 成人人妻精品| 激情小说图片区| 久久久综合香蕉尹人综合网 | 在线无码国产精品亚洲а∨| 青草视频在线观看入口| 久青草影院在线观看国产| 96精品专区国产在线观看高清| 亚洲欧洲无卡二区视頻| 精品人妻av综合一区二区| 国产女人精品| 国产一区二区亚洲一区二区三区| 香蕉99国内自产自拍视频| 中文字幕久久久久久久系列| 曰韩欧美群交p片内射| 精品国精品无码自拍自在线| 蜜臀av在线播放| 免费无码av一区二区波多野结衣| 理论片87福利理论电影| 亚洲精品国产第一页第二页_久久精品国产亚洲a片无码_国产精品乱码一区二区三 | 精品视频无码一区二区三区| 国产91在线播放免费| 97av视频在线观看| 四虎精品成人a在线观看| 永久黄网站色视频免费| 色综合久久中文综合久久激情| 黄a无码片内射无码视频| 国产无遮挡性视频免费看| 亚洲欧美视频在线播放|