<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      PixelRefer :讓AI從“看大圖”走向“看懂每個對象”

      0
      分享至



      多模態(tài)大模型(MLLMs)雖然在圖像理解、視頻分析上表現(xiàn)出色,但多停留在整體場景級理解。

      而場景級理解 ≠ 視覺理解的終點,現(xiàn)實任務(wù)(如自動駕駛、機(jī)器人、醫(yī)療影像、視頻分析)需要的是細(xì)粒度、對象級(object-level)詳細(xì)理解

      然而,當(dāng)下的研究工作,如英偉達(dá)的Describe Anything Model (DAM)局限于單個物體的描述,難以深入理解多對象屬性、交互關(guān)系及其時序演變,且犧牲了模型本身的通用理解能力。

      針對這一問題,浙江大學(xué)、達(dá)摩院、香港理工大學(xué)聯(lián)合提出了一種創(chuàng)新的解決方案PixelRefer:一個統(tǒng)一的時空像素級區(qū)域級理解框架,可實現(xiàn)任意粒度下的精細(xì)視覺指代與推理,在多項像素級細(xì)粒度理解任務(wù)取得領(lǐng)先性能表現(xiàn)。和DAM-3B相比,輕量版的2B模型推理時間加快了4倍,顯存占用減半,且訓(xùn)練數(shù)據(jù)量大大少于已有方法。



      PixelRefer能夠?qū)θ我饽繕?biāo)實現(xiàn)準(zhǔn)確語義理解以及時空物體區(qū)域理解。









      • 論文標(biāo)題:
      • PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity
      • 論文鏈接:
      • https://arxiv.org/abs/2510.23603
      • 項目網(wǎng)站鏈接:
      • https://circleradon.github.io/PixelRefer/
      • 代碼鏈接:
      • https://github.com/DAMO-NLP-SG/PixelRefer

      先驗分析:大模型“如何看懂區(qū)域”?

      為了探索解決以上問題,作者基于通用視覺基礎(chǔ)模型采用最直接的設(shè)計:將全局視覺token+像素級區(qū)域token+文本token一起喂給 LLM。當(dāng)無物體指代區(qū)域時,模型則退化成通用視覺理解任務(wù),從而實現(xiàn)區(qū)域理解的同時,保留通用模型本身的通用理解能力。

      作者對LLM內(nèi)從淺層到深層中分析視覺token、區(qū)域token以及其他類型token進(jìn)行可視化分析。本文可以發(fā)現(xiàn)從淺層到深層,答案(Ans)優(yōu)先關(guān)注像素級區(qū)域token,其attention分?jǐn)?shù)一直很高,說明物體token表征對于模型的回答起到重要的作用。此外,全局圖像token(vision)則僅在淺層中(第一層)表現(xiàn)出較高的attention分布(Answer-to-image token attention),LLM的深層則表現(xiàn)較弱,甚至沒有影響,這個在通用視覺基礎(chǔ)模型研究中也被討論到。



      淺層到深層的attention可視化

      基于此分析,作者得出兩種設(shè)計方案:

      1. 高質(zhì)量像素級物體表征很重要:對于像素級區(qū)域的表達(dá),語義豐富的區(qū)域表征直接決定像素級語義理解的質(zhì)量;
      2. 全局信息的冗余可以通過“預(yù)融合”優(yōu)化:在 LLM 深層階段,全局視覺標(biāo)記的作用顯著減弱,在深層階段反而變得冗余,說明其信息可提前注入對象標(biāo)記中,以大幅減少計算開銷。

      方法設(shè)計

      為此,作者針對像素級細(xì)粒度理解定義了兩種框架,Vision-Object Framework (a)與Object-Only Framework (b):



      PixelRefer(Vision-Object Framework)

      對于PixelRefer,作者把全局視覺token+像素級區(qū)域token+文本token一起送入 LLM,既保留場景語境,又在對象級上精細(xì)推理。關(guān)鍵在于像素級區(qū)域表征token質(zhì)量足夠高。為此,作者提出尺度自適應(yīng)對象分詞器(Scale-Adaptive Object Tokenizer, SAOT) 來生成精確、緊湊、語義豐富的對象表示。

      SAOT 圍繞兩個設(shè)計:(i)小目標(biāo)容易在patch化后丟失細(xì)節(jié);(ii)大目標(biāo)的特征冗余嚴(yán)重

      核心做法分三步:

      1. 動態(tài)尺度處理(Dynamic Object Processing)。按像素級區(qū)域大小自適應(yīng)地放大小物體、縮小大物體,并進(jìn)行上下文擴(kuò)展(在目標(biāo)周圍留出一定背景),保證既不丟細(xì)節(jié)也不過度冗余。隨后通過共享視覺編碼器取到區(qū)域級特征。
      2. 位置感知的掩碼特征抽取(Mask Feature + Relative Positional Encoding)。對區(qū)域內(nèi)的有效特征做掩碼并疊加相對坐標(biāo)投影,形成位置感知的對象token,為后續(xù)推理提供“這片語義在圖像哪里”的線索。作者還為被裁剪/擴(kuò)展后的區(qū)域加入相對位置編碼來緩解對齊歧義,使對象token具備空間感知。
      3. 冗余聚合(Abundant Feature Aggregation)。對大/同質(zhì)區(qū)域里高度相似的token,采用k-means 聚類合并,只保留n 個代表性token,既壓縮冗余又保留多視角細(xì)節(jié)。這一步實證上顯著降低了對象內(nèi)部token的相似度,提高了表示“緊致度”。




      PixelRefer-Lite (Object-Only Framework)

      該變體僅使用對象標(biāo)記進(jìn)行 LLM 推理,借助對象中心信息融合模塊(Object-Centric Infusion Module, OCI)將全局特征在前處理階段融合入對象表示中。通過 Local-to-Object 和 Global-to-Object Attention,使目標(biāo)的表征同時具備細(xì)節(jié)感知與全局語義,從而實現(xiàn)更完整的上下文融合。這樣一來,推理階段無需再使用全局視覺標(biāo)記,顯著降低顯存與時間消耗,同時保持語義一致性與理解精度。



      PixelRefer-Lite 實現(xiàn)了一個高效的推理框架,在保持高性能的同時將推理速度提升約 2–3 倍。

      數(shù)據(jù)集

      作者收集并開源了用于訓(xùn)練的兩類數(shù)據(jù)集,分別是Foundational Object Perception(140萬樣本):涵蓋物體、部件、時序關(guān)系的識別與描述以及Visual Instruction Tuning(80萬樣本):覆蓋區(qū)域QA、視頻QA、多對象關(guān)系與未來事件預(yù)測QA。



      性能結(jié)果

      • 對于圖像像素級細(xì)粒度理解benchmark



      PixelRefer在多個圖像理解benchmark上已達(dá)到SOTA水平,不論是簡單的區(qū)域識別還是詳細(xì)理解,已成為最先進(jìn)的模型,特別是在reasoning場景下,更是展現(xiàn)出了突出優(yōu)勢。

      • 對于視頻像素級細(xì)粒度理解benchmark



      在經(jīng)典的VideoRefer-Bench上,不論是視頻區(qū)域的caption還是QA,均取得了領(lǐng)先性能,展現(xiàn)了通用而又全面的能力。

      • 對于推理時間與效率的計算



      在基于圖片的benchmark DLC-Bench和基于視頻的benchmark上HC-STVG上均進(jìn)行了測評,輕量版的PixelRefer-Lite-2B模型有較大的領(lǐng)先優(yōu)勢,特別是在視頻上,相較于DAM-3B,推理時間縮短了約4倍,顯存占用減少了2倍。

      • 消融實驗:Scale-adaptive Object TokenizervsMaskPooling



      • 相較于之前簡單maskpooling的做法,作者提出的Scale-adaptive Object Tokenizer模塊有明顯的提升,特別是在小目標(biāo)理解上,在LVIS和DLC-Bench上均提升了十幾個點。

      • 消融實驗:對于區(qū)域token的表征個數(shù)



      研究意義與總結(jié)

      PixelRefer的出現(xiàn),標(biāo)志著AI視覺理解從“看懂一張圖”邁向“理解世界的細(xì)節(jié)動態(tài)”,為多模態(tài)大模型的精細(xì)化視覺理解提供了新的方向。應(yīng)用前景包括:

      • 自動駕駛的時序場景識別
      • 醫(yī)療影像的病灶級理解
      • 智能視頻剪輯與監(jiān)控
      • 多模態(tài)對話與人機(jī)交互

      未來的多模態(tài)AI,不僅會“看見世界”,更會理解世界的關(guān)系。PixelRefer的提出,正是通向通用視覺智能的一塊關(guān)鍵拼圖。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      鐵人新帥徐正源:后面我們會變成一支強(qiáng)隊,肯定會越來越好

      鐵人新帥徐正源:后面我們會變成一支強(qiáng)隊,肯定會越來越好

      懂球帝
      2026-05-07 19:53:04
      演員史可與兩個兒子以及丈夫,一家都是大塊頭

      演員史可與兩個兒子以及丈夫,一家都是大塊頭

      小椰的奶奶
      2026-05-08 03:24:18
      上觀新聞:上海海港陷入保級區(qū)是為自殺式引援還債

      上觀新聞:上海海港陷入保級區(qū)是為自殺式引援還債

      懂球帝
      2026-05-07 13:23:17
      人到中年最大的愚蠢:沉迷底層社交!

      人到中年最大的愚蠢:沉迷底層社交!

      放牛娃的遐想
      2026-05-07 08:23:27
      第一批擠爆廣東的韓國人,優(yōu)越感被徹底擊碎

      第一批擠爆廣東的韓國人,優(yōu)越感被徹底擊碎

      金錯刀
      2026-05-05 11:55:49
      NVIDIA拿下開源AI模型第一!Nemotron 3 Super擊敗Kimi、DeepSeek登頂

      NVIDIA拿下開源AI模型第一!Nemotron 3 Super擊敗Kimi、DeepSeek登頂

      快科技
      2026-05-06 16:11:13
      從52跌到1.7!30萬散戶被套,一股民持倉10年虧損148萬

      從52跌到1.7!30萬散戶被套,一股民持倉10年虧損148萬

      財經(jīng)智多星
      2026-05-03 09:27:25
      1949年,毛澤東警衛(wèi)員挨了耳光,紛紛提出罷工,汪東興一句話解決

      1949年,毛澤東警衛(wèi)員挨了耳光,紛紛提出罷工,汪東興一句話解決

      大運河時空
      2026-05-06 20:45:03
      中方動真格,西班牙跟進(jìn),阻斷令一波接一波,27國聯(lián)手圍剿美國

      中方動真格,西班牙跟進(jìn),阻斷令一波接一波,27國聯(lián)手圍剿美國

      小莜讀史
      2026-05-07 23:38:56
      學(xué)醫(yī)后才明白,預(yù)防骨質(zhì)疏松最好的習(xí)慣,不是曬太陽,而是3件事

      學(xué)醫(yī)后才明白,預(yù)防骨質(zhì)疏松最好的習(xí)慣,不是曬太陽,而是3件事

      垚垚分享健康
      2026-05-04 19:15:04
      張雪機(jī)車再奪世界冠軍,全網(wǎng)都在夸勵志,卻沒人敢說真正底牌!

      張雪機(jī)車再奪世界冠軍,全網(wǎng)都在夸勵志,卻沒人敢說真正底牌!

      音樂時光的娛樂
      2026-05-08 07:45:22
      老師多次提醒:軍校是沒有回頭路的,如果因為軍隊待遇好而報考,建議別報!

      老師多次提醒:軍校是沒有回頭路的,如果因為軍隊待遇好而報考,建議別報!

      譚老師地理大課堂
      2026-04-24 00:05:13
      五種廢品價格暴漲,家里有這五種東西的,提醒老人千萬別亂扔!

      五種廢品價格暴漲,家里有這五種東西的,提醒老人千萬別亂扔!

      我不叫阿哏
      2026-05-08 02:00:40
      中國U17,日本人浮嶋敏本身就是一個陰謀嗎

      中國U17,日本人浮嶋敏本身就是一個陰謀嗎

      中場陰謀家
      2026-05-07 22:42:37
      謝娜演唱會結(jié)束僅24小時,難堪一幕再發(fā)生,照清了內(nèi)娛的人情冷暖

      謝娜演唱會結(jié)束僅24小時,難堪一幕再發(fā)生,照清了內(nèi)娛的人情冷暖

      科學(xué)發(fā)掘
      2026-05-08 03:58:50
      為什么沒人聯(lián)合打以色列,答案很簡單:并非沒人想打,是沒人敢打

      為什么沒人聯(lián)合打以色列,答案很簡單:并非沒人想打,是沒人敢打

      究竟誰主沉浮
      2026-05-07 01:41:03
      中方沉默四天后重拳出擊,魯比奧放話二次制裁,114國拒絕簽約

      中方沉默四天后重拳出擊,魯比奧放話二次制裁,114國拒絕簽約

      云上烏托邦
      2026-05-08 00:03:38
      前體操冠軍吳柳芳回應(yīng)擦邊不體面:債沒還清,哪有資格談體面!

      前體操冠軍吳柳芳回應(yīng)擦邊不體面:債沒還清,哪有資格談體面!

      觀魚聽雨
      2026-05-06 23:04:12
      明天值得關(guān)注的這5大板塊!

      明天值得關(guān)注的這5大板塊!

      風(fēng)風(fēng)順
      2026-05-08 02:05:03
      京粵戰(zhàn)出現(xiàn)了哪些爭議哨?裁判專家:漏了北京隊2次違體,1次技犯

      京粵戰(zhàn)出現(xiàn)了哪些爭議哨?裁判專家:漏了北京隊2次違體,1次技犯

      劉哥談體育
      2026-05-08 08:01:14
      2026-05-08 09:20:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12939文章數(shù) 142645關(guān)注度
      往期回顧 全部

      科技要聞

      追趕星艦:中國商業(yè)火箭離SpaceX有多遠(yuǎn)?

      頭條要聞

      牛彈琴:一覺醒來美伊又打起來了 阿聯(lián)酋被指首次參戰(zhàn)

      頭條要聞

      牛彈琴:一覺醒來美伊又打起來了 阿聯(lián)酋被指首次參戰(zhàn)

      體育要聞

      巴黎再進(jìn)歐冠決賽,最尷尬的情況還是發(fā)生了

      娛樂要聞

      Lisa主持!寧藝卓觀看脫衣秀風(fēng)波升級

      財經(jīng)要聞

      一覺醒來,美伊又打起來了

      汽車要聞

      雷克薩斯全新純電三排SUV 全新TZ全球首發(fā)

      態(tài)度原創(chuàng)

      藝術(shù)
      手機(jī)
      游戲
      家居
      軍事航空

      藝術(shù)要聞

      21 歲徐悲鴻畫的 “天價仙女”,被網(wǎng)友罵 “生無可戀”

      手機(jī)要聞

      vivo X500系列手機(jī)蹤跡曝光:預(yù)估天璣9600芯片、7000mAh電池

      魔獸世界:時光服時光徽章價格低,存在毫無意義?玩家3000金拿下

      家居要聞

      破繭成蝶 土味精裝房爆改

      軍事要聞

      伊朗:最高領(lǐng)袖穆杰塔巴全面掌控局勢

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲综合色噜噜狠狠网站超清 | 日本一本不卡| av一区二区不卡久久| 理论片一区| 九九综合va免费看| 亚洲精品AV久久看| 中文幕无线码中文字蜜桃| 精品三级网站| 亚洲人成无码网www| www.youjizz日本| 88国产精品视频一区二区三区| 国产精品麻豆va在线播放| 亚洲综合欧美日本另类激情| 久久久久青草线蕉亚洲麻豆| 丰满少妇被猛烈进出69影院| 欧洲丰满熟女a片| 国产69久久精品一区二区| 国产又黄又爽又不遮挡视频| 青草热在线观看精品视频| 天天视频入口| 国产日韩欧美| 99久久精品国产一区| 日日婷婷夜日日天干| 狠狠摸狠狠澡| 久久福利导航| 妇女性内射冈站hdwww000| 亚洲色丰满少妇高潮18P| 久久久久AV综合网成人| 国产高清乱码女大生av| 又爽又黄又无遮挡的视频| 中文字幕一区二区三区日韩精品| 国产va在线观看| 国产精品三级片一区| 国产成人刺激视频在线观看| 呦交小U女精品视频| 亚洲一区二区黄色| 国产免费午夜福利在线观看| 亚洲精品国品乱码久久久久 | 亚洲人成一区二区不卡| 久久露脸国产精品| 亚洲人成精品久久久久|