<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      ICML 2026|首個(gè)視覺(jué)語(yǔ)言模型并行思考框架,一文解析內(nèi)在機(jī)制

      0
      分享至



      當(dāng)前,測(cè)試時(shí)擴(kuò)展范式普遍致力于增加推理長(zhǎng)度。然而,已有研究表明,隨著推理長(zhǎng)度的持續(xù)增長(zhǎng),以垂直擴(kuò)展為核心的計(jì)算范式容易陷入探索僵化等問(wèn)題。因此,從另一維度拓展推理的寬度顯得尤為重要。K2.5、Step3-VL 和 LongCat-Flash-Thinking 等模型已在推理寬度方面開(kāi)展了有益的探索。

      但另一方面,在視覺(jué)任務(wù)中,深度推理仍面臨嚴(yán)峻挑戰(zhàn):隨著推理序列的拉長(zhǎng),模型對(duì)視覺(jué)特征的注意力被不斷稀釋?zhuān)瑢?dǎo)致 “注意力漂移”,進(jìn)而引發(fā)嚴(yán)重的視覺(jué)幻覺(jué)。

      為此,我們提出了 Visual Para-Thinker:這一針對(duì)大規(guī)模視覺(jué)語(yǔ)言模型的首個(gè)并行思考框架,并分析了該并行思考框架在視覺(jué)任務(wù)中發(fā)揮作用的內(nèi)在機(jī)制。我們將 Pa-Attention(并行注意力機(jī)制)和 LPRoPE (分段學(xué)習(xí)位置編碼)機(jī)制融入到我們的方法中,從而實(shí)現(xiàn)了不同推理路徑隔離性、無(wú)偏性和可區(qū)分性。



      • 論文標(biāo)題:Visual Para-Thinker: Divide-and-Conquer Reasoning for Visual Comprehension
      • 論文鏈接: https://arxiv.org/abs/2602.13310
      • 主頁(yè)鏈接: https://github.com/xuhaoran1/Visual-Para-Thinker

      并行推理路徑:以視覺(jué)為中心劃分

      過(guò)往研究提出的并行思考范式,其核心在于通過(guò)拓展推理寬度以提升模型性能,基本原則是 “保持推理路徑的多樣性”。我們的 Visual Para-Thinker 同樣遵循這一原則。然而,針對(duì)視覺(jué)語(yǔ)言模型的特性,我們進(jìn)一步提出了一種以視覺(jué)為中心的路徑劃分方式,并認(rèn)為其本質(zhì)在于對(duì)視覺(jué) token 注意力的重新分配。由此提出了兩種視覺(jué)劃分的分配模式:塊劃分和掃描劃分



      塊劃分:這種策略是根據(jù)特定的區(qū)域子圖來(lái)劃分推理路徑的。在這個(gè)配置方面,每條路徑都會(huì)吸引獨(dú)特的視覺(jué)注意力分布,這種分布集中在指定的子區(qū)域,例如左上角、右上角、左下角或右下角等象限,如圖 (a) 所示。

      掃描劃分:這種方法通過(guò)采用不同的視覺(jué)掃描軌跡來(lái)區(qū)分推理路徑。具體而言,每條路徑代表一種獨(dú)特的視覺(jué)注意力分配,這種分配對(duì)應(yīng)于一個(gè)預(yù)定義的掃描順序,例如從左到右、從上到下、從右到左以及從下到上,如圖 (b) 所示。

      這兩種視覺(jué)劃分方式各有優(yōu)劣:塊劃分雖然能夠生成不同的子區(qū)域,但可能導(dǎo)致不同路徑之間的計(jì)算冗余;而掃描劃分雖結(jié)構(gòu)簡(jiǎn)潔,卻容易削弱路徑之間的多樣性。為此,我們采用混合訓(xùn)練策略,將兩種劃分方式生成的數(shù)據(jù)共同用于模型訓(xùn)練,以實(shí)現(xiàn)優(yōu)勢(shì)互補(bǔ)。



      塊劃分方式下不同路徑的對(duì)視覺(jué)令牌注意力分配模式可視化

      視覺(jué)并行思考框架

      基于以上兩種視覺(jué)路徑的劃分方式,我們提出了視覺(jué)并行思考框架。該框架分為并行思考階段和總結(jié)階段,并維護(hù)了不同并行推理路徑的隔離性、無(wú)偏性和可區(qū)分性

      • 并行思考階段:基于共同的上下文,通過(guò)視覺(jué)劃分這一理念,分配不同推理路徑的思考方向
      • 總結(jié)階段:將不同并行推理路徑的背景信息進(jìn)行整合,并綜合考慮這些信息以得出最終結(jié)論。



      隔離性

      為了保證推理路徑的隔離性,我們提出了Path-aware Attention (路徑感知注意力),不同于因果注意力,路徑感知注意力通過(guò)不同 < think i > 的特殊 token 實(shí)現(xiàn)不同路徑的上下文隔離范式。



      無(wú)偏性

      為了保證推理路徑的可區(qū)分性,過(guò)往的做法將不同路徑的 position id 賦予不同的區(qū)間實(shí)現(xiàn)路徑的之間的可區(qū)分性。然而,由于大語(yǔ)言模型的固有偏差,此時(shí)不同區(qū)間的 position id 存在先后順序,會(huì)出現(xiàn) loss in the middle 等現(xiàn)象,不同路徑的思考權(quán)重會(huì)存在天生的位置偏差,我們認(rèn)為這種方法因?yàn)椴荒軐⒉煌评砺窂?strong>等同看待,本質(zhì)上依然是串行思考。基于以上見(jiàn)解,我們將不同路徑的 position id 賦予相同的區(qū)間,具體來(lái)說(shuō),在并行推理階段,不同路徑的起始 token 的 position id 相同



      而在總結(jié)階段,總結(jié) token 的起始 token 則取最長(zhǎng)的推理路徑的結(jié)束 token 的 position id + 1



      這使得不同推理路徑在 Visual Para-Thinker 模型看來(lái)不存在固有的位置偏差,因而保證了無(wú)偏性。

      可區(qū)分性

      然而,上述將不同路徑的位置編碼映射為同一區(qū)間的做法僅僅保證了其無(wú)偏性,但損傷了不同路徑的可區(qū)分性。如果直接使用這種位置編碼,會(huì)導(dǎo)致 Visual Para-Thinker 混淆不同的推理路徑,導(dǎo)致最后的結(jié)果錯(cuò)誤。因而我們提出了Learnable Parallel Rotary Position Embedding (LPRoPE),具體來(lái)說(shuō),我們?cè)诓煌?token 進(jìn)行旋轉(zhuǎn)位置編碼之前,加入該 token 屬于的推理路徑的可學(xué)習(xí)位置編碼,將旋轉(zhuǎn)位置編碼和可學(xué)習(xí)的絕對(duì)位置編碼相結(jié)合,最終實(shí)現(xiàn)路徑的可區(qū)分性。



      數(shù)據(jù)與實(shí)驗(yàn)

      訓(xùn)練配方

      我們構(gòu)建了一個(gè)包含 163,000 個(gè)問(wèn)題 - 答案對(duì)的并行推理數(shù)據(jù)集,數(shù)據(jù)來(lái)源包括 LVIS、LAION、Microsoft COCO、PixMoCount、RefCOCO、RefCOCO+ 和 RefCOCOg 等。

      在我們的數(shù)據(jù)構(gòu)建框架中,Qwen3-VL-235B-A22BInstruct 充當(dāng)教師模型。我們通過(guò)在溫度為 0.1 的條件下實(shí)施一種融合了基于塊的分區(qū)和掃描順序分區(qū)的混合視覺(jué)分區(qū)策略,為每個(gè)樣本生成四條以視覺(jué)為中心的推理路徑。此外,我們還利用高溫的 Qwen3-VL-30B-A3B-Instruct 和 InternVL3 5-241B-A28B 來(lái)生成更多樣化的數(shù)據(jù)和檢查樣本。



      圖一

      實(shí)驗(yàn)結(jié)果

      我們的實(shí)驗(yàn)主要在在以視覺(jué)為中心的視覺(jué)感知類(lèi)任務(wù)中進(jìn)行,包括計(jì)數(shù)任務(wù) (Pixmo,CountBench)、視覺(jué)搜索 (V*)、幻覺(jué)任務(wù) (MMVP、HallusionBench) 及視覺(jué)定位 (RefCOCO) 等多種視覺(jué)感知任務(wù),通過(guò)開(kāi)展大量實(shí)驗(yàn)驗(yàn)證了所提方法的有效性。如圖一所示,我們的方法在 V * 任務(wù)上分別在 3B 和 7B 上獲得了 12.6 和 6.3 的提升,另一方面,在幻覺(jué)任務(wù)上 HallusionBench 上,我們的方法在 3B 和 7B 上獲得了 6.1 和 5.0 的提升。這充分驗(yàn)證了多模態(tài)并行推理在視覺(jué)感知類(lèi)任務(wù)上的提升。另一方面,在 Grounding 任務(wù)中,相比于原始的 Qwen2.5-VL,我們的方法也獲得了一定程度上的提升,這些實(shí)驗(yàn)從各個(gè)方面驗(yàn)證了我們的方法的有效性。



      圖二

      此外,我們還探討了不同視覺(jué)任務(wù)對(duì)劃分模式的偏好。以計(jì)數(shù)任務(wù)為例,其視覺(jué)注意力通常分散于圖像各處。若采用塊劃分,各路徑的計(jì)算結(jié)果可能因區(qū)域重疊而產(chǎn)生累積偏差,進(jìn)而引發(fā)幻覺(jué)。因此,在此類(lèi)任務(wù)中,我們傾向于使用掃描劃分。

      從本質(zhì)上看,塊劃分方式通過(guò)將不同圖像區(qū)域分配給不同路徑,實(shí)現(xiàn)了顯式的注意力分配;而掃描劃分方式則通過(guò)改變模型對(duì)視覺(jué) token 的注意順序與方式,形成一種隱式的注意力分配機(jī)制,最終同樣映射為多樣化的推理路徑。前者體現(xiàn)了從全局到局部的設(shè)計(jì)思路,后者則仍保留全局視角。



      塊劃分方式可能導(dǎo)致不同推理重復(fù)計(jì)算

      Visual Para-Thinker 是將并行思考框架應(yīng)用于視覺(jué)語(yǔ)言領(lǐng)域的拋磚引玉之作,之后我們會(huì)將并行思考 RL,多輪思考,Agentic RL 等方法陸續(xù)應(yīng)用在 Visual Para-Thinker 中,將 Visual Para-Thinker 實(shí)現(xiàn)更快更好的擴(kuò)展。隨著 K2.5,Step3-VL 和 LongCat-Flash-Thinking 等基座模型關(guān)注到并行思考這一范式,我們相信這一范式日后會(huì)爆發(fā)出巨大潛力。

      作者簡(jiǎn)介

      許浩然,浙江大學(xué)碩士。研究方向?yàn)?Multi-Agent、Multi-Modal、RL等。以第一/共一作者身份在 ICML、ACL、CVPR、AAAI、ICLR等國(guó)際頂級(jí)會(huì)議發(fā)表多篇論文。通訊單位為小米MiLMPlus團(tuán)隊(duì)。通訊作者為李佳澤,現(xiàn)任小米高級(jí)算法工程師,研究方向?yàn)镸ulti-Agent, Agentic RL。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      為什么說(shuō)陽(yáng)痿、跑步、心梗,成了“斬殺”中年男性的“三件套”?

      為什么說(shuō)陽(yáng)痿、跑步、心梗,成了“斬殺”中年男性的“三件套”?

      醫(yī)藥養(yǎng)生保健報(bào)社
      2026-04-28 17:59:19
      場(chǎng)均20+9+6,卻被列為可交易名單!火箭是否送走申京已有答案

      場(chǎng)均20+9+6,卻被列為可交易名單!火箭是否送走申京已有答案

      奕辰說(shuō)球
      2026-05-26 12:13:00
      一個(gè)殘忍真相:極度自律,每天鍛煉的人,不一定能長(zhǎng)壽,但是,極度自私,不為任何人、任何事操心的人可能長(zhǎng)壽

      一個(gè)殘忍真相:極度自律,每天鍛煉的人,不一定能長(zhǎng)壽,但是,極度自私,不為任何人、任何事操心的人可能長(zhǎng)壽

      品讀時(shí)刻
      2026-05-26 08:59:39
      王傳福再開(kāi)一槍?zhuān)”葋喌硝忯~(yú)洄游,車(chē)市大戰(zhàn)一觸即發(fā)

      王傳福再開(kāi)一槍?zhuān)”葋喌硝忯~(yú)洄游,車(chē)市大戰(zhàn)一觸即發(fā)

      象視汽車(chē)
      2026-05-25 07:00:07
      白酒再次被關(guān)注!醫(yī)生發(fā)現(xiàn):心梗病人喝白酒身體將迎來(lái)3個(gè)壞變化

      白酒再次被關(guān)注!醫(yī)生發(fā)現(xiàn):心梗病人喝白酒身體將迎來(lái)3個(gè)壞變化

      芹姐說(shuō)生活
      2026-05-26 14:22:42
      王楚欽媽媽談兒媳標(biāo)準(zhǔn):不要豪門(mén)不要顏值,只要這三點(diǎn)!

      王楚欽媽媽談兒媳標(biāo)準(zhǔn):不要豪門(mén)不要顏值,只要這三點(diǎn)!

      酷侃體壇
      2026-05-25 16:42:10
      保密期限終到期,中央首長(zhǎng)透露:毛岸英真相,可以向外界公開(kāi)了

      保密期限終到期,中央首長(zhǎng)透露:毛岸英真相,可以向外界公開(kāi)了

      歷史點(diǎn)行
      2026-03-29 13:38:28
      滬指、深成指跌超1%,半導(dǎo)體產(chǎn)業(yè)鏈全線(xiàn)下挫

      滬指、深成指跌超1%,半導(dǎo)體產(chǎn)業(yè)鏈全線(xiàn)下挫

      澎湃新聞
      2026-05-26 11:24:04
      同為草原獵食者,為什么鬣狗咬死獅子后會(huì)吃掉,而獅子不吃鬣狗?

      同為草原獵食者,為什么鬣狗咬死獅子后會(huì)吃掉,而獅子不吃鬣狗?

      萬(wàn)象硬核本尊
      2026-05-24 23:39:36
      法拉利首款純電來(lái)了!前蘋(píng)果設(shè)計(jì)師操刀,售價(jià)或超430萬(wàn)

      法拉利首款純電來(lái)了!前蘋(píng)果設(shè)計(jì)師操刀,售價(jià)或超430萬(wàn)

      車(chē)東西
      2026-05-26 10:06:52
      為啥越來(lái)越多男生不主動(dòng)幫女生搬行李?網(wǎng)友:最怕來(lái)一句不加微信

      為啥越來(lái)越多男生不主動(dòng)幫女生搬行李?網(wǎng)友:最怕來(lái)一句不加微信

      夜深?lèi)?ài)雜談
      2026-04-26 07:36:03
      一聲驚雷!廣州老破小的春天真的來(lái)了!

      一聲驚雷!廣州老破小的春天真的來(lái)了!

      新浪財(cái)經(jīng)
      2026-05-26 15:25:45
      廣州下場(chǎng)收二手房:環(huán)城高速內(nèi),300萬(wàn)以下,不限樓齡!

      廣州下場(chǎng)收二手房:環(huán)城高速內(nèi),300萬(wàn)以下,不限樓齡!

      廣州PLUS
      2026-05-26 11:20:40
      嗜賭成性只是冰山一角,婚內(nèi)出軌、睡有婦之夫,體壇丑聞毀三觀(guān)

      嗜賭成性只是冰山一角,婚內(nèi)出軌、睡有婦之夫,體壇丑聞毀三觀(guān)

      阿訊說(shuō)天下
      2026-04-25 11:15:04
      竇靖童:母親錢(qián)多到用不完,但窮苦潦倒的爸爸,是我現(xiàn)在最大心病

      竇靖童:母親錢(qián)多到用不完,但窮苦潦倒的爸爸,是我現(xiàn)在最大心病

      鐵錘妹妹是只貓
      2026-05-26 03:29:13
      韋國(guó)清之子公開(kāi)澄清:網(wǎng)傳韋國(guó)清阻礙粟裕平反,與事實(shí)不符

      韋國(guó)清之子公開(kāi)澄清:網(wǎng)傳韋國(guó)清阻礙粟裕平反,與事實(shí)不符

      人生錄
      2026-05-25 19:02:18
      3國(guó)腳+5外援半程墊底!津門(mén)虎深夜開(kāi)懇談會(huì):中場(chǎng)大將成救命稻草

      3國(guó)腳+5外援半程墊底!津門(mén)虎深夜開(kāi)懇談會(huì):中場(chǎng)大將成救命稻草

      體壇鑒春秋
      2026-05-26 14:44:40
      又來(lái)了!密密麻麻太嚇人!嘉定人千萬(wàn)注意!

      又來(lái)了!密密麻麻太嚇人!嘉定人千萬(wàn)注意!

      尚虹橋
      2026-05-25 15:11:59
      李連杰辟謠換心臟、換血、打干細(xì)胞:說(shuō)我死無(wú)所謂,說(shuō)一個(gè)無(wú)辜的20多歲年輕武僧,這種二次傷害對(duì)其家人非常嚴(yán)重

      李連杰辟謠換心臟、換血、打干細(xì)胞:說(shuō)我死無(wú)所謂,說(shuō)一個(gè)無(wú)辜的20多歲年輕武僧,這種二次傷害對(duì)其家人非常嚴(yán)重

      現(xiàn)代快報(bào)
      2026-05-25 09:18:38
      炸裂!阿森納 1 億鎊豪購(gòu)世界第一人!全隊(duì)徹底升級(jí)沖三冠王

      炸裂!阿森納 1 億鎊豪購(gòu)世界第一人!全隊(duì)徹底升級(jí)沖三冠王

      瀾歸序
      2026-05-26 06:28:47
      2026-05-26 16:55:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專(zhuān)業(yè)的人工智能媒體
      13085文章數(shù) 142653關(guān)注度
      往期回顧 全部

      科技要聞

      今年秋季,麒麟芯片將首次落地"邏輯折疊"

      頭條要聞

      外媒稱(chēng)伊朗愿意"將濃縮鈾移至中國(guó)" 中方回應(yīng)

      頭條要聞

      外媒稱(chēng)伊朗愿意"將濃縮鈾移至中國(guó)" 中方回應(yīng)

      體育要聞

      上賽季差點(diǎn)降入英甲,下賽季要踢英超了

      娛樂(lè)要聞

      臺(tái)媒貼臉!S媽被問(wèn)大S嗑藥當(dāng)場(chǎng)沉默

      財(cái)經(jīng)要聞

      中國(guó)鋁行業(yè)爆單 下一個(gè)“煤炭”大周期?

      汽車(chē)要聞

      涉水加強(qiáng) 福特烈馬亞馬遜限量版上市 售價(jià)39.98萬(wàn)

      態(tài)度原創(chuàng)

      家居
      游戲
      藝術(shù)
      數(shù)碼
      公開(kāi)課

      家居要聞

      生與命相依 舊公寓改造

      《逃離塔科夫》道具內(nèi)存條價(jià)格暴跌 可惜不是現(xiàn)實(shí)

      藝術(shù)要聞

      畫(huà)美,文字也美 | 日本著名畫(huà)家內(nèi)田正泰

      數(shù)碼要聞

      消息稱(chēng)AMD蘇姿豐布局Zen 7:臺(tái)積電A14工藝、力成FOPLP封裝

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产女人在线观看| 18禁网站在线| 精品久久人妻AV中文字幕| 天堂av无码av一区二区三区| 国产亚洲合集| 国产高跟鞋丝袜在线播放| 18禁裸体自慰免费观看网站| 亚洲ⅴ欧洲第一的日产av| 精品偷拍一区二区三区在| 天天爽天天爽天天爽天天爽| 亚洲大尺度无码无码专线| 蜜桃一区二区三区高清| 在线观看视频宅男国产| 亚洲中文成人中文字幕| 中文字幕日韩精品人妻| 亚洲日韩av无码不卡一区二区三区| 亚洲第一无码专区天堂| 黑人巨大精品欧美视频一区| 日韩激情无码av一区二区| 久久亚洲私人国产精品va| 亚洲无码高清一区| 国产精品一区二区三区卡| 久久国产影院| 男人猛躁进女人免费播放| 白浆视频在线观看| 肏屄欧美| 国内综合精品午夜久久资源 | 国产?熟女| 加勒比无码人妻东京热| 色多多福利视频app官网| 国产一级片内射在线视频| 亚洲高清中文字幕在线看不卡| 久久99爰这里有精品国产| 日本久久精品一区二区三区| 亚洲中文字幕av| 公车上拨开她湿润的内裤的视频| 久热精品播放视频在线观看| 国产在线拍偷自拍偷精品| 一本色道久久88| 中文字幕国产精品一区二| 影帝被狂c躁到高潮失禁在线观看|