<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

      AAAI 2026 Oral|InfiGUI-G1模型來了,刷新GUI Grounding SOTA

      0
      分享至



      隨著多模態(tài)大語言模型(MLLM)的飛速發(fā)展,能夠像人類一樣通過視覺輸入操作圖形用戶界面(GUI)的智能體(Agent)正逐漸成為現(xiàn)實(shí)。然而,在通往通用計(jì)算機(jī)控制的道路上,如何讓模型精準(zhǔn)地將自然語言指令對應(yīng)到屏幕上的具體元素 —— 即 GUI Grounding 任務(wù),依然是一大難題。

      現(xiàn)有的方法,特別是基于驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR),雖然在提升 “指得準(zhǔn)”(空間對齊)方面表現(xiàn)出色,卻往往在 “指得對”(語義對齊)上遭遇瓶頸。模型常常陷入 “自信陷阱”,在復(fù)雜的語義場景下無法通過有效探索找到正確的功能圖標(biāo)。

      針對這一痛點(diǎn),來自浙江大學(xué)、香港理工大學(xué)及 InfiX.ai 的研究團(tuán)隊(duì)提出了一種全新的自適應(yīng)探索策略優(yōu)化框架(AEPO),并推出了InfiGUI-G1系列模型。該模型通過多答案生成與自適應(yīng)獎(jiǎng)勵(lì)機(jī)制,徹底打破了傳統(tǒng) RLVR 的探索瓶頸。僅憑 3B 和 7B 的參數(shù)量,InfiGUI-G1 便在多個(gè)高難度 GUI 基準(zhǔn)測試中刷新了 SOTA,部分指標(biāo)甚至大幅超越了閉源模型。

      本文將深入介紹這項(xiàng)被 AAAI 2026 接收為 Oral 的工作,解讀其如何通過 “學(xué)會(huì)探索” 來實(shí)現(xiàn)更精準(zhǔn)的 GUI 語義理解。



      • 論文標(biāo)題:InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization
      • 論文鏈接:https://arxiv.org/abs/2508.05731
      • 代碼鏈接:https://github.com/InfiXAI/InfiGUI-G1

      從 “空間對齊” 到 “語義對齊”:被忽視的探索瓶頸

      GUI Grounding 任務(wù)的核心是將自然語言指令(如 “打開相機(jī)”)映射到屏幕上的特定元素坐標(biāo)。研究團(tuán)隊(duì)指出,這一任務(wù)可以解構(gòu)為兩個(gè)正交的維度:

      1. 空間對齊(Spatial Alignment):能否精確地定位到元素(即 “指得準(zhǔn)”)。

      2. 語義對齊(Semantic Alignment):能否識(shí)別出功能正確的元素(即 “指得對”)。

      現(xiàn)有的 RLVR 方法(如 Naive RLVR)雖然能通過優(yōu)化坐標(biāo)生成來提升定位精度,但在面對語義模糊或復(fù)雜的指令時(shí)卻顯得力不從心。

      例如,當(dāng)指令是 “使用相機(jī)搜索物體” 時(shí),屏幕上可能同時(shí)存在普通的 “相機(jī)應(yīng)用” 和具有視覺搜索功能的 “Google Lens”。缺乏深度語義理解的模型往往會(huì)自信地死磕 “相機(jī)應(yīng)用” 圖標(biāo)。由于傳統(tǒng) RL 依賴當(dāng)前策略采樣,模型會(huì)不斷重復(fù)這個(gè)高置信度的錯(cuò)誤,陷入“自信陷阱”(Confidence Trap),從而無法發(fā)現(xiàn)真正正確的 “Google Lens” 圖標(biāo),導(dǎo)致無法獲得修正語義誤解所需的學(xué)習(xí)信號(hào)。



      GUI Grounding 的主要失敗模式: (a) 空間對齊失敗,(b) 語義對齊失敗

      InfiGUI-G1:自適應(yīng)探索策略優(yōu)化(AEPO)

      為了解決這一探索效率低下的問題,InfiGUI-G1 引入了AEPO(Adaptive Exploration Policy Optimization)框架。與傳統(tǒng)的單次回答生成不同,AEPO 旨在通過更廣泛且高效的探索來捕捉低概率但正確的選項(xiàng)。

      AEPO 框架由三個(gè)協(xié)同工作的核心組件構(gòu)成:

      1.多答案生成機(jī)制(Multi-Answer Generation)傳統(tǒng)的 RL 方法通常只采樣一個(gè)動(dòng)作,一旦模型 “固執(zhí)己見” 地選錯(cuò),梯度的學(xué)習(xí)信號(hào)就會(huì)消失。AEPO 強(qiáng)制模型在一次前向傳遞中生成 N 個(gè)候選坐標(biāo)點(diǎn)。這一機(jī)制迫使模型跳出單一的高置信度預(yù)測,去探索策略分布長尾中的可能性,從而大幅增加了發(fā)現(xiàn)正確答案(如上述例子中的 Google Lens)的概率。

      2.自適應(yīng)探索獎(jiǎng)勵(lì)(Adaptive Exploration Reward, AER)僅僅生成多個(gè)答案是不夠的,如何評價(jià)這些答案的質(zhì)量至關(guān)重要。研究團(tuán)隊(duì)基于效率第一性原理(效率 = 效用 / 成本)設(shè)計(jì)了 AER 函數(shù)。

      • 動(dòng)態(tài)激勵(lì):如果模型在靠前的排名(Rank k)就找到了正確答案,給予高額獎(jiǎng)勵(lì);如果失敗,則給予較小的懲罰以鼓勵(lì)繼續(xù)探索。
      • 這種非線性的獎(jiǎng)勵(lì)設(shè)計(jì)在失敗時(shí)鼓勵(lì)模型 “廣撒網(wǎng)”,在成功時(shí)引導(dǎo)模型追求 “快準(zhǔn)狠”,實(shí)現(xiàn)了探索與利用的動(dòng)態(tài)平衡。

      3.共線懲罰(Collinear Penalty)為了防止模型通過生成近似直線的點(diǎn)來 “作弊”(簡單的線性掃描策略),研究引入了共線懲罰。如果生成的多個(gè)候選點(diǎn)在幾何上近似共線,將被視為低質(zhì)量探索并受到嚴(yán)厲懲罰。這強(qiáng)制模型在語義空間而非單純的幾何空間中進(jìn)行多樣化探索。



      AEPO 與 Naive 強(qiáng)化學(xué)習(xí)基準(zhǔn)方法的對比

      實(shí)驗(yàn)結(jié)果:小參數(shù)量實(shí)現(xiàn)性能越級

      研究團(tuán)隊(duì)在 MMBench-GUI、ScreenSpot-Pro、UI-Vision 等五個(gè)極具挑戰(zhàn)性的基準(zhǔn)上對 InfiGUI-G1(3B 和 7B 版本)進(jìn)行了全面評估。

      1.綜合性能全面領(lǐng)先:在 MMBench-GUI 基準(zhǔn)測試中,InfiGUI-G1-7B 在 Windows、iOS、Android 等多個(gè)平臺(tái)上的表現(xiàn)均刷新了開源模型的最佳成績。值得注意的是,InfiGUI-G1-7B 在部分指標(biāo)上甚至優(yōu)于參數(shù)量大得多的 Qwen2.5-VL-72B 和閉源模型 GPT-4o。

      2.攻克高難度語義理解任務(wù)ScreenSpot-Pro 基準(zhǔn)專門區(qū)分了文本類(Text)和圖標(biāo)類(Icon)任務(wù)。結(jié)果顯示,InfiGUI-G1 在更依賴語義理解的 “圖標(biāo)” 任務(wù)上提升尤為明顯。這直接證明了 AEPO 策略有效解決了語義對齊的瓶頸,讓模型真正 “看懂” 了抽象圖標(biāo)背后的功能含義,而不僅僅是進(jìn)行簡單的文本匹配。

      3.讓 “不可學(xué)習(xí)” 變得 “可學(xué)習(xí)”為了驗(yàn)證 AEPO 是否真的解決了探索難題,研究團(tuán)隊(duì)將樣本按難度分為簡單、中等和困難。實(shí)驗(yàn)發(fā)現(xiàn),InfiGUI-G1 在 “困難” 樣本(即基座模型幾乎無法答對的樣本)上的提升最為巨大,相對 Naive RLVR 基線提升了超過60%。這意味著 AEPO 成功挖掘出了那些以往因缺乏探索而被模型 “放棄” 的長尾知識(shí)。



      ScreenSpot-Pro 基準(zhǔn)測試的性能對比

      總結(jié)與展望

      InfiGUI-G1 的成功表明,GUI 智能體的性能瓶頸不僅僅在于視覺識(shí)別能力,更在于如何通過有效的強(qiáng)化學(xué)習(xí)策略來解決語義對齊問題。通過引入自適應(yīng)探索機(jī)制,InfiGUI-G1 以極高的數(shù)據(jù)效率和較小的模型規(guī)模,實(shí)現(xiàn)了超越大模型的 GUI Grounding 能力。這項(xiàng)工作為未來開發(fā)更通用、更智能的 GUI 交互助手提供了堅(jiān)實(shí)的技術(shù)基礎(chǔ)。

      目前,InfiGUI-G1 的代碼、模型權(quán)重及相關(guān)資源已在 GitHub 開源,歡迎社區(qū)進(jìn)一步研究與使用。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      權(quán)志龍穿涉種族歧視T恤登臺(tái)!公司火速道歉

      權(quán)志龍穿涉種族歧視T恤登臺(tái)!公司火速道歉

      喜歡歷史的阿繁
      2026-05-04 20:04:49
      上海浦江站橫空出世,楊浦重新崛起

      上海浦江站橫空出世,楊浦重新崛起

      城市局
      2026-05-05 15:45:17
      堂姐借我的車開了3年不還,我用備用鑰匙開走,第二天她帶人上門:我車庫里的車丟了

      堂姐借我的車開了3年不還,我用備用鑰匙開走,第二天她帶人上門:我車庫里的車丟了

      九哥哥車評
      2026-05-05 13:40:04
      煙說戒就戒?醫(yī)生提醒:能成功戒煙的人,都藏著這4種可怕特質(zhì)

      煙說戒就戒?醫(yī)生提醒:能成功戒煙的人,都藏著這4種可怕特質(zhì)

      觀星賞月
      2026-05-04 14:35:09
      看完《黑夜告白》再看《低智商犯罪》,真是沒對比就沒傷害

      看完《黑夜告白》再看《低智商犯罪》,真是沒對比就沒傷害

      往史過眼云煙
      2026-05-05 22:08:36
      聽誰的?中美禁令同時(shí)炸場!美國要罰,中國說不許認(rèn),別站錯(cuò)隊(duì)!

      聽誰的?中美禁令同時(shí)炸場!美國要罰,中國說不許認(rèn),別站錯(cuò)隊(duì)!

      小樾說歷史
      2026-05-05 11:13:32
      俄最大油港又被點(diǎn)燃!皇俄大V的悲觀預(yù)測:1917還是1991?

      俄最大油港又被點(diǎn)燃!皇俄大V的悲觀預(yù)測:1917還是1991?

      鷹眼Defence
      2026-05-03 18:44:03
      發(fā)現(xiàn)一個(gè)特點(diǎn),凡是患上糖尿病的患者,身體大多數(shù)有這幾個(gè)特征

      發(fā)現(xiàn)一個(gè)特點(diǎn),凡是患上糖尿病的患者,身體大多數(shù)有這幾個(gè)特征

      醫(yī)學(xué)科普匯
      2026-05-05 17:51:24
      開國大典前三天,毛主席一夜間撕毀所有不平等條約,列強(qiáng)全傻了!

      開國大典前三天,毛主席一夜間撕毀所有不平等條約,列強(qiáng)全傻了!

      浩渺青史
      2026-05-04 19:45:43
      司馬懿政變時(shí),曹魏還有曹操時(shí)期留下的老臣嗎?他們的立場如何?

      司馬懿政變時(shí),曹魏還有曹操時(shí)期留下的老臣嗎?他們的立場如何?

      近史談
      2026-05-05 19:21:56
      國際原油期貨結(jié)算價(jià)大幅收跌近4%

      國際原油期貨結(jié)算價(jià)大幅收跌近4%

      財(cái)聯(lián)社
      2026-05-06 02:59:08
      姆巴佩與皇馬教練組成員激烈沖突,因訓(xùn)練中被判罰越位……

      姆巴佩與皇馬教練組成員激烈沖突,因訓(xùn)練中被判罰越位……

      懂個(gè)球
      2026-05-05 23:29:25
      男子將24歲女孩撞成高位截癱,得知要賠200萬,靈機(jī)一動(dòng)將名下2套房過戶給女兒,女孩去要錢,男子:要錢沒有,要命一條!

      男子將24歲女孩撞成高位截癱,得知要賠200萬,靈機(jī)一動(dòng)將名下2套房過戶給女兒,女孩去要錢,男子:要錢沒有,要命一條!

      大愛三湘
      2026-04-28 19:39:24
      文班:我消耗了太多體力 做了一些對球隊(duì)并沒有太大幫助的事情

      文班:我消耗了太多體力 做了一些對球隊(duì)并沒有太大幫助的事情

      北青網(wǎng)-北京青年報(bào)
      2026-05-05 19:44:31
      經(jīng)常喝它增加腎衰竭風(fēng)險(xiǎn),這類飲品真心建議腎友少喝!

      經(jīng)常喝它增加腎衰竭風(fēng)險(xiǎn),這類飲品真心建議腎友少喝!

      掌上腎醫(yī)
      2026-05-05 16:04:38
      倪萍也沒想到,“離開”自己的三婚丈夫楊亞洲,已是全家人的驕傲

      倪萍也沒想到,“離開”自己的三婚丈夫楊亞洲,已是全家人的驕傲

      今夜繁星墜落
      2026-05-05 14:53:36
      美空軍加油機(jī)飛越波斯灣時(shí)發(fā)出緊急代碼7700,請求立即降落

      美空軍加油機(jī)飛越波斯灣時(shí)發(fā)出緊急代碼7700,請求立即降落

      上觀新聞
      2026-05-05 16:24:05
      我國又一款摩托車奪冠!春風(fēng)動(dòng)力在世界摩托車大獎(jiǎng)賽上大幅度領(lǐng)先

      我國又一款摩托車奪冠!春風(fēng)動(dòng)力在世界摩托車大獎(jiǎng)賽上大幅度領(lǐng)先

      科普大世界
      2026-05-05 21:57:22
      如果一個(gè)家庭長期沒酒局、沒社交,也少走親戚,只能說明這兩個(gè)問題

      如果一個(gè)家庭長期沒酒局、沒社交,也少走親戚,只能說明這兩個(gè)問題

      心理觀察局
      2026-05-04 09:23:46
      中國向聯(lián)合國發(fā)出警告:東京有提取武器級钚能力,足以制造約5500枚核彈頭!任由其右翼勢力推動(dòng)發(fā)展強(qiáng)力進(jìn)攻性武器,必將再次為禍國際社會(huì)

      中國向聯(lián)合國發(fā)出警告:東京有提取武器級钚能力,足以制造約5500枚核彈頭!任由其右翼勢力推動(dòng)發(fā)展強(qiáng)力進(jìn)攻性武器,必將再次為禍國際社會(huì)

      大風(fēng)新聞
      2026-05-04 14:05:05
      2026-05-06 05:12:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12919文章數(shù) 142642關(guān)注度
      往期回顧 全部

      科技要聞

      傳蘋果考慮讓英特爾、三星代工設(shè)備處理器

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號(hào)

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號(hào)

      體育要聞

      全世界都等著看他笑話,他帶國米拿下冠軍

      娛樂要聞

      內(nèi)娛真情誼!楊紫為謝娜演唱會(huì)送花籃

      財(cái)經(jīng)要聞

      瀏陽煙花往事

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺(tái)

      態(tài)度原創(chuàng)

      旅游
      數(shù)碼
      本地
      藝術(shù)
      親子

      旅游要聞

      女子體驗(yàn)瀑布秋千受傷后送醫(yī)途中離世 官方通報(bào)

      數(shù)碼要聞

      Sharkoon推出8kHz無線鼠標(biāo)SKILLER SGM70W,提供玻璃腳貼

      本地新聞

      用青花瓷的方式,打開西溪濕地

      藝術(shù)要聞

      AI應(yīng)用“豆包”要收費(fèi),第一批“韭菜”是誰?

      親子要聞

      這個(gè)五一,帶寶寶來北海看海啦~銀灘細(xì)沙海浪,是小朋友最愛的天

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲图片一区| 精品日本免费一区二区三区| 成年丰满熟妇午夜免费视频| 爆爽久久久一区二区又大又黄又嫩 | 日韩av一区二区三区四区| 亚洲国产成人久久一区www| 99热在线精品免费全部| 69人妻精品中文字幕| 3p视频在线观看| 91色综合综合热五月激情| 国自产拍欧美久久一本到88色鬼首页| 另类国产精品一区二区| 97香蕉久久国产超碰青草专区| 日屄影视| 国内精品视频一区二区三区| 亚洲日韩乱码一区二区三区四区| 亚洲人成电影在线| 综合久久国产九一剧情麻豆| 99热成人精品国产免国语的| 在线精品无码字幕无码av| 亚洲av免费成人精品区| 人妻精品视频| 193尤物| 同德县| 精品乱码一区二区三四五区| 制服.丝袜.亚洲.中文.综合懂| 精品一区二区三人妻视频 | 久草国产视频| 性少妇xxxx| 久久精品水蜜桃av综合天堂| 超碰人人人| 国产亚洲精品久久久久秋霞 | 国产成人高清精品免费| 国产成年码av片在线观看| 久热这里只有精品12| 日本乱码在线| 午夜精品福利影院| 久久国产乱子精品免费女| 五月婷婷丁香综合| 无码午夜福利视频一区| 内射干少妇亚洲69XXX|