<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      從圖像到視頻的任意分割:X2SAM讓MLLM 真正看懂像素級時空世界

      0
      分享至




      本研究由中山大學、美團聯合完成,第一作者王豪為中山大學博士研究生,主要研究方向為圖像和視頻分割、開放場景視覺感知、多模態大模型等。論文共同通訊作者為梁小丹教授和藍湘源副研究員。

      如今,多模態大模型已經能夠看圖、看視頻,并回答復雜問題。但如果進一步要求模型「把畫面中的某個目標精準分割出來」,問題就變得沒有那么簡單。例如,用戶提出這樣一個需求:



      這不僅要求模型理解自然語言描述,還需要它在視頻的每一幀中持續定位同一個人,并輸出準確的像素級輪廓。傳統分割模型擅長生成高質量掩碼,但通常依賴點、框等明確提示,難以理解復雜自然語言。另一方面,現有多模態分割模型往往只面向圖像或視頻中的某一類任務,難以用一個統一模型同時處理圖像、視頻、文本提示和視覺提示。

      為了解決這一問題,來自中山大學和美團的研究團隊提出了 X2SAM,一個統一的圖像與視頻分割多模態大模型框架。它希望讓模型不僅能「看懂」圖像和視頻,還能進一步「指出」目標在每個像素上的準確位置。



      • 論文標題:X2SAM: Any Segmentation in Images and Videos
      • 論文鏈接:https://arxiv.org/abs/2605.00891
      • 項目主頁:https://wanghao9610.github.io/X2SAM
      • 項目代碼:https://github.com/wanghao9610/X2SAM

      一個模型,處理多種分割需求



      圖 1 X2SAM 模型架構圖

      X2SAM 的核心目標,是將圖像和視頻中的多種分割任務納入同一個框架。X2SAM 由多模態大模型、區域采樣模塊、Mask Encoder、Mask Decoder 和 Mask Memory 等部分組成。輸入圖像或視頻后,視覺編碼器首先提取視覺特征;多模態大模型負責理解用戶的文本指令、視覺提示以及上下文信息,并將這些語義信息轉化為可用于分割的目標表示。隨后,Mask Encoder 提取用于分割的視覺特征,Mask Decoder 根據目標表示和視覺特征生成像素級掩碼。對于視頻輸入,Mask Memory 會進一步保存歷史幀中的目標信息,并在處理當前幀時提供時序參考,使模型能夠在目標運動、遮擋或形變的情況下保持更穩定的分割結果。

      用戶既可以用文字描述目標,例如「正在滑下來的運動員」「可以倒進杯子里的物體」;也可以通過點、框或區域提示,直接告訴模型想要分割哪個對象。模型隨后根據這些提示,輸出對應的分割結果。

      在統一框架下,X2SAM 支持多類任務,包括:通用分割,開放詞匯分割,指代表達分割,推理分割,對話生成分割,視覺定位分割,以及對象級分割(包含圖像交互分割和視頻目標分割)。



      圖 2 X2SAM 支持的任務展示

      簡單來說,X2SAM 既能理解「把左邊正在喝奶的小狗分割出來」這樣的語言指令,也能根據用戶點選或框選區域的視覺指令,在圖像或視頻中找到對應目標。

      讓視頻分割更穩定:模型需要記住過去



      圖 3 Mask Memory 模塊結構圖

      視頻分割比圖像分割更難,目標會移動、被遮擋、發生形變,甚至短暫消失。如果模型只逐幀處理,很容易出現前后不一致的問題:這一幀分對了,下一幀可能就跟丟了。為此,X2SAM 引入了 Mask Memory 模塊。可以把它理解為模型的「短期記憶」:它會記錄前面若干幀中與目標相關的信息,并在處理當前幀時參考這些歷史信息。這樣一來,模型不僅能在單幀中找到目標,也能在視頻中保持對同一目標的連續追蹤,從而輸出更穩定的分割結果。

      新任務 V-VGD:點一下,模型分割整段視頻



      圖 4 視頻視覺定位分割任務展示

      論文還提出了一個新的視頻視覺定位分割任務:Video Visual Grounded Segmentation,簡稱 V-VGD。這個任務關注一個很實際的問題:如果用戶只在視頻開頭點一下或框一下某個目標,模型能不能在整段視頻中持續分割出這類目標?

      研究團隊基于 YT-VIS19 和 VIPSeg 構建了相關數據集。每個目標在首個可見幀中會獲得一個視覺提示,例如點、框或區域標注;模型需要根據這個提示,在后續視頻幀中持續找到并分割相應類別的對象。這類能力對于視頻編輯、自動標注、智能檢索等場景非常重要。例如,用戶只需要框選一次人物、車輛或商品,系統就可以自動完成后續視頻中相關目標的跟蹤與分割。

      實驗結果:圖像任務保持穩定,視頻任務表現突出



      實驗顯示,X2SAM 在圖像任務上保持了較強競爭力,同時在視頻任務上展現出明顯優勢。

      在圖像開放詞匯分割任務中,X2SAM 在 ADE20K 相關評測上取得了優于此前 SoTA 方法的結果;同時,它在其他圖像分割任務上也取得了不錯的性能表現。這說明,將模型擴展到視頻場景后,并沒有明顯削弱其處理靜態圖像的能力。

      在視頻任務上,X2SAM 的提升更加明顯:在視頻開放詞匯分割任務中,X2SAM 取得了 60.3 AP;在視頻推理分割任務中,X2SAM 達到 69.9 J&F,相比此前 SoTA 方法提升 14.2 點;在視頻對話生成分割任務中,X2SAM 取得了 75.8 mIoU,表現明顯優于此前方法;在新提出的 V-VGD 任務中,X2SAM 在多個設置下都顯著超過此前強基線方法。

      這些結果說明,X2SAM 不僅能處理單張圖片中的分割任務,也能更好地理解視頻中的目標變化、語言指令和視覺提示。

      更高效的統一訓練方式

      為了同時學習圖像和視頻中的多種任務,X2SAM 采用了統一訓練策略。相比直接將不同數據簡單混合訓練,X2SAM 的訓練方式在保持性能的同時顯著降低了計算成本。該策略將訓練成本從約 5.2K GPU hours 降至約 3.3K GPU hours,減少約 36.5%。

      這意味著,統一圖像和視頻分割并不一定需要線性增加訓練成本。通過合理設計訓練流程,模型可以更高效地學習跨模態、跨任務能力。

      統一分割模型還有哪些挑戰?

      當然,統一圖像和視頻分割仍然面臨一些挑戰。首先,聯合訓練圖像和視頻數據仍需要較高計算成本,尤其是視頻數據本身更占顯存和訓練資源。其次,當前的記憶機制仍然是固定長度的。對于很長的視頻,或者目標長時間被遮擋、外觀變化劇烈的情況,模型仍可能面臨挑戰。此外,X2SAM 是一個面向多任務的通用模型。在某些高度專門化的任務上,它可能仍不如針對單一任務深度優化的專家模型。

      未來,研究團隊計劃進一步探索更高效的訓練方法、更輕量的模型結構,以及更適合長視頻的記憶機制,讓模型在復雜視頻場景中更加穩定、可擴展。

      總結

      X2SAM 的意義在于,它將圖像分割、視頻分割、語言理解、視覺提示和時序記憶放進了同一個多模態框架中。它讓多模態大模型不只是「看懂畫面」和「回答問題」,而是進一步具備了像素級定位與分割能力。對于視頻編輯、自動標注、具身智能、機器人感知和多模態交互等場景,X2SAM 提供了一個統一而強大的分割多模態大模型方案。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      WSBK捷克站排位賽:德比斯1分33秒884獲第3名,正賽將罰退3位發車

      WSBK捷克站排位賽:德比斯1分33秒884獲第3名,正賽將罰退3位發車

      全景體育V
      2026-05-15 20:48:41
      語出驚人!世乒賽后日本男乒教練評價梁靖崑,不談球技卻直擊要害

      語出驚人!世乒賽后日本男乒教練評價梁靖崑,不談球技卻直擊要害

      胡一舸南游y
      2026-05-15 20:14:59
      侃爺老婆又穿“全透明裝”上街!不適應優雅風非要穿回去,網友:辣眼,把她抓起來!

      侃爺老婆又穿“全透明裝”上街!不適應優雅風非要穿回去,網友:辣眼,把她抓起來!

      英國報姐
      2026-05-15 21:16:54
      美國政府披露特朗普Q1交易:買入英偉達、蘋果 減持微軟、亞馬遜

      美國政府披露特朗普Q1交易:買入英偉達、蘋果 減持微軟、亞馬遜

      財聯社
      2026-05-15 15:52:12
      中國五千年最絕妙的4副對聯,寫盡人生百態,讀一遍就懂了半個人生

      中國五千年最絕妙的4副對聯,寫盡人生百態,讀一遍就懂了半個人生

      詩詞天地
      2026-05-14 05:59:32
      白人女性與黑人女性的體味差異,網友真實分享引發熱議

      白人女性與黑人女性的體味差異,網友真實分享引發熱議

      特約前排觀眾
      2025-12-22 00:20:06
      52歲謝金燕近況曝光!馬甲線鋒利如刀,背后卻藏著數不盡的坎坷

      52歲謝金燕近況曝光!馬甲線鋒利如刀,背后卻藏著數不盡的坎坷

      飄飄然的娛樂匯
      2026-05-14 21:15:11
      庫存260萬輛,難怪整體銷量下跌,車企銷量上漲,經銷商承接了

      庫存260萬輛,難怪整體銷量下跌,車企銷量上漲,經銷商承接了

      柏銘銳談
      2026-05-14 22:14:18
      一個人最大的本事,就是解決問題的能力!(深度好文)

      一個人最大的本事,就是解決問題的能力!(深度好文)

      辛東方
      2026-02-12 08:00:03
      張維為們這幾天肯定憋壞了

      張維為們這幾天肯定憋壞了

      山間聽雨
      2026-05-16 08:29:34
      38歲戴帽仍統治全場!伊布被梅西征服:足球歷史不會再有第二個他

      38歲戴帽仍統治全場!伊布被梅西征服:足球歷史不會再有第二個他

      體育閑話說
      2026-05-15 16:53:54
      1.4億歐!巴黎簽阿爾瓦雷斯!

      1.4億歐!巴黎簽阿爾瓦雷斯!

      足球王國
      2026-05-15 13:07:13
      藿香正氣水才是祛濕能手,牢記這 3 個黃金搭配,清遍全身濕氣

      藿香正氣水才是祛濕能手,牢記這 3 個黃金搭配,清遍全身濕氣

      健康之光
      2026-05-13 18:50:09
      偷偷代表國家出戰?結果0比6慘敗被外網嘲諷,原因抽象又離譜

      偷偷代表國家出戰?結果0比6慘敗被外網嘲諷,原因抽象又離譜

      17173游戲網
      2026-05-15 14:24:26
      外交部回應特朗普最新發文:特朗普總統帶領美國人民取得了重要發展成就,中美雙方可以通過加強合作,促進各自的發展振興

      外交部回應特朗普最新發文:特朗普總統帶領美國人民取得了重要發展成就,中美雙方可以通過加強合作,促進各自的發展振興

      極目新聞
      2026-05-15 16:04:18
      買下之后迅速賣出!33歲老射手無人信任,雙逆足難題仍存在

      買下之后迅速賣出!33歲老射手無人信任,雙逆足難題仍存在

      里芃芃體育
      2026-05-16 00:15:06
      1500萬潮汕人移民東南亞,當年究竟有多慘烈?| 地球知識局

      1500萬潮汕人移民東南亞,當年究竟有多慘烈?| 地球知識局

      地球知識局
      2026-05-13 07:30:17
      原來名字起太大,一般人根本壓不住!網友:教訓,老祖宗早說過了

      原來名字起太大,一般人根本壓不住!網友:教訓,老祖宗早說過了

      夜深愛雜談
      2026-04-30 21:37:49
      金曲獎來了,看完提名名單,我要說:華語樂壇完了!

      金曲獎來了,看完提名名單,我要說:華語樂壇完了!

      八卦南風
      2026-05-13 18:27:59
      女演員長相有多重要?給阿嬤的情書南枝一出場,才知啥叫靈氣逼人

      女演員長相有多重要?給阿嬤的情書南枝一出場,才知啥叫靈氣逼人

      阿纂看事
      2026-05-15 13:17:58
      2026-05-16 08:59:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13006文章數 142650關注度
      往期回顧 全部

      科技要聞

      直降千元起步!蘋果華為率先開啟618讓利

      頭條要聞

      魯比奧訪華期間回應媒體提問:中美兩國關系至關重要

      頭條要聞

      魯比奧訪華期間回應媒體提問:中美兩國關系至關重要

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      張嘉譯和老婆的差距讓人心酸

      財經要聞

      造詞狂魔賈躍亭

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      數碼
      房產
      親子
      健康
      手機

      數碼要聞

      佰維M560靈梭PCIe 5.0 SSD售價1149元起:單面低功耗設計

      房產要聞

      老黃埔熱銷之下,珠江春,為何去化僅3成?

      親子要聞

      兒童補腦DHA品牌怎么挑?神經酸+磷脂酰絲氨酸PS品牌嚴選,穩固提升理解能力

      專家揭秘干細胞回輸的安全風險

      手機要聞

      vivo雙旗艦新機曝光:主打方向各不相同,讓選擇不糾結!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中文成人无码国产亚洲| 无码精品人妻一区二区三区免费看 | 中文字幕精品亚洲四区| 日韩天堂视频| 国产三级av在线播放| 亚洲高清中文字幕在线看不卡| 日韩一区二区AV电影| 97人人草| 一本色道久久综合狠狠躁篇 | 偷窥盗摄国产在线视频| 日本中文字幕一区二区三| 中文字幕日韩熟女av| 国产精品无码久久四虎| 一本色道久久综合狠狠躁| 国产女裸体福利视频在线观看| 撸狠狠| 国产精品lululu在线观看| 亚洲精品无播放器在线看观看| 亚洲精品国产综合麻豆久久99| 一区二区三区鲁丝不卡| 尤物av无码国产在线观看| 手机看片1024你懂的自拍| 成人精品一| 日本一区二区视频免费播放| 巧家县| 丁香亚洲综合五月天婷婷| 成人国产亚洲精品天堂av| wwwwww.日本色| 国产不卡一区在线视频| 色窝视频在线在线视频| 亚洲AV无码AV在线播放| 乱码丰满人妻一二三区| 国产成人精品高清不卡在线| 国产极品尤物粉嫩在线观看| 亚洲人成亚洲精品| 国产精品国产三级国产试看| 婷婷五月综合丁香在线| 久久香蕉综合色一综合色88| 三级视频网址| 伊人久久大香线焦av综合影院| 日韩一区二区在线观看的|