<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      邁向無縫共生:大模型GUI Agent的「屏幕圖靈測試」與擬人化之路

      0
      分享至

      一個只會高效執行任務的Agent,真的能在真實的人類數字生態中存活下來嗎?

      論文作者包括來自上海交通大學的 Jiachen Zhu、Congmin Zheng、Yong Yu、Lingyu Yang、Weinan Zhang、Rong Shan、Weiwen Liu、Jianghao Lin,以及來自卡內基梅隆大學的 Zeyu Zheng。

      原論文名稱:TURING TEST ON SCREEN: A BENCHMARK FOR MOBILE GUI AGENT HUMANIZATION


      https://huggingface.co/papers/2604.09574

      https://arxiv.org/abs/2604.09574

      多模態大模型(LMMs)的出現從根本上重塑了人機交互的格局。通過賦予系統感知視覺界面并執行復雜交互的能力,我們正在見證從靜態腳本向自動化圖形用戶界面(GUI)Agent的范式轉變。這些Agent能夠模擬用戶,在移動設備APP中執行任務,使人們有望將大量數字化任務交給AI來自動化完成。

      然而,隨著Agent能力的提升,我們是否思考過:一個只會高效執行任務的Agent,真的能在真實的人類數字生態中存活下來嗎?

      01


      不可調和的矛盾:

      GUI Agent面臨的生存挑戰

      論文指出,GUI Agent的廣泛部署促成了用戶與服務提供商之間的利益沖突,并可能引發自動化Agent與數字平臺之間的動態沖突。

      ?平臺APP的注意力經濟 vs Agent的效率至上:現代數字生態系統(如平臺APP)嚴重依賴注意力經濟,用戶參與度和廣告曝光是主要的收入驅動力。相比之下,GUI Agent通常針對效率和目標進行了優化,它們會繞過廣告內容并精簡交互路徑。這種行為對現有平臺的商業模式構成了生存威脅。

      ?平臺防御與用戶體驗風險:這種利益不匹配,迫使平臺部署防御措施。例如直接進行攔截、注入噪聲,或部署廣告陷阱。這些無差別的防御帶來了嚴重的用戶體驗風險,例如可能會誤傷真實用戶,讓真實用戶無法登錄,影響體驗。

      ?真實案:一個典型的例子是近期的Doubao移動助手事件。Agent嘗試自動化跨應用任務,觸發了超級平臺(如微信)的嚴格安全協議,導致了廣泛的賬號限制和服務封鎖。

      現有的研究大多聚焦于提升Agent的任務實用性和對抗細微擾動的魯棒性,但這種視角忽略了這個更為基礎的“檢測與反檢測”范式。 為了在這個生態中實現和諧共存,Agent必須超越單純的任務準確率與效率,具備反檢測能力,即“擬人化(Humanization)”。

      因此,這引出了一個順理成章的問題:

      當數字平臺開始防御自動化腳本時,大模型GUI Agent該如何證明自己“像個人類”?又該如何科學地評估其擬人化能力?


      圖1: GUI代理與移動平臺之間的對抗格局。

      圖示展示了三個關鍵階段:

      (1)主要沖突:對抗性利益促使平臺部署諸如登錄攔截和廣告陷阱等防御措施。

      (2)屏幕圖靈測試:核心檢測機制依賴于區分自然人類軌跡和代理軌跡。

      (3)代理人性化:我們提出了一種對抗式的擬人化任務,通過提高代理的擬人化程度來繞過檢測,同時保持任務準確性,從而將原始代理轉換為擬人化的代理。

      02


      評測框架:“屏幕圖靈測試”與 AHB 基準

      面對平臺可能會部署的Agent檢測器的嚴密防守,論文將經典的圖靈測試的概念延伸到了GUI環境,提出了“屏幕上的圖靈測試(Turing Test on Screen)”。

      這種交互被建模為一個 MinMax 優化問題:

      ?檢測器(平臺側)試圖最大化人類與Agent行為之間的區分度。

      ?GUI Agent(用戶側)試圖在不降低任務準確率的情況下最小化這種區分度。

      為了量化這一過程,研究團隊構建了包含豐富動作事件和傳感器事件序列的大規模數據集,并建立了Agent擬人化基準(AHB)。AHB在兩個核心維度上對Agent進行評估:

      1、擬真度(Imitability):衡量Agent與人類行為的相似度,通過檢測算法的分類準確率(ACC)來反向量化。如果檢測器的ACC接近0.5(即隨機猜測),則標志著Agent成功通過了測試。

      2、實用性(Utility):監控任務成功率,以確保擬人化策略(如加入噪聲、延遲)不會損害Agent的功能性。

      通過初步研究,論文揭示了原生(Vanilla)Agent極易被檢測出的致命弱點:

      ?軌跡呈完美的直線:Agent的軌跡通常是僵硬的線性矢量,缺乏人類手勢的生理弧度和運動噪聲。

      ?觸控時間近乎為零:人類的點擊由于皮膚彈性呈現高斯分布(0.05秒-0.10秒),而Agent的輸入則表現為接近零的脈沖,反映了瞬間的事件注入。

      ?異常的動作間隔:人類的動作間隔服從長尾分布且峰值在零附近,而Agent由于顯著的推理開銷(如mobile-agent-e長達50-80秒),產生了足以被可靠檢測的延遲。


      圖2: 人和代理的滑動軌跡區別


      圖3:人和代理的時間間隔以及按壓時間的區別

      03


      擬人化策略與效用的權衡

      (Pareto Frontier)

      針對原生 Agent 機械化特征導致的生存危機,本研究系統性地探討了從動作生成到執行的全鏈路擬人化方法。

      ?雙層架構設計:內部注入與外部包裝: 擬人化策略可分為兩種架構:一是“內部注入(Internal Injection)”,即直接對大模型進行微調,使其原生Agent具備人類行為先驗;二是“外部包裝(External Wrapper)”,即在 Agent 生成原始動作($a_{raw}$)后,通過后處理模塊將其轉化為擬人化序列($a_{human}$)再執行。考慮到對各個Agent模型的兼容性,本研究重點評估了四種外部包裝策略。

      ?多維度擬人化算子

      • 軌跡層(Swipe):針對線性滑動問題,引入了基于 B-spline 曲線的啟發式噪聲和基于真實人類數據的“歷史軌跡匹配(History Matching)”。后者通過旋轉、縮放等仿射變換,將人類真實的運動微震和速度曲線遷移至 Agent 動作中。

      • 時間層(Interval & Tap):利用偽動作注入(Fake Actions)掩蓋推理延遲,使 Agent 在閑置期執行微小的滾動或懸停,從而將交互節奏從離散的“脈沖式”拉回到連續的人類分布。同時,通過高斯采樣模擬人類皮膚彈性帶來的長按壓(Longer Presses)效果。

      ?擬真度與實用性的帕累托前沿(Pareto Frontier):研究發現,擬人化并非簡單的“模塊累加”,而是存在深刻的性能權衡。提高擬真度(Imitability)往往會以犧牲實用性(Utility)為代價。以“偽動作注入”為例,雖然它能將基于時間間隔的檢測準確率降低至接近隨機猜測的水平(~0.52),但盲目注入的無效動作極易觸發預期外的 UI 狀態變更,導致Agent的邏輯鏈斷裂。這種現象在復雜任務中尤為明顯,構成了 Agent 設計中必須優化的帕累托前沿。

      為了驗證擬人化策略的嚴謹性,論文在附錄 C 中提供了三大核心定理的數學證明:

      ?定理 1檢測器效能的上界: 證明了對于任何給定的 Agent 策略,檢測器的最大區分能力(分類損失)受到人類分布與 Agent 分布之間Jensen-Shannon (JS) 散度的嚴格限制。這意味著,降低檢測準確率的本質就是減小兩者在行為特征空間上的分布差異。


      ?定理 2:滑策略的有效性: 證明了引入隨機平滑內核(如 B-Spline 注入的方差)可以嚴格降低最大理論可檢測性(JS 散度)。這從數學上確認了即便簡單的啟發式噪聲也能起到一定的反檢測效果。


      ?定理 3:歷史匹配的漸進優越性: 證明了隨著樣本量的增加,歷史匹配(History Matching)策略能使 Agent 的行為特征分布收斂于真實的人類分布。該策略在理論上優于單純的方差注入,是實現高度擬人化的最優路徑。


      04


      實驗結果與行為特征分析

      本研究在由 21 款 App 構成的 AHB 基準上進行了深度評測,揭示了 GUI Agent 在真實對抗環境下的表現規律。


      ?原生 Agent 的透明性: 實驗證實,未經擬人化的原生 Agent 在物理交互層面幾乎是“透明”的。在提取的 24 維統計特征下,SVM 和 XGBoost 等分類器能夠以接近 1.0 的準確率瞬時識別出Agent行為。

      ?擬人化策略的實測效能

      • 歷史匹配(History Matching)的表現始終穩居首位,在顯著降低檢測準確率的同時,成功維持了較高的任務成功率。

      • 偽動作注入表現出極強的反檢測能力,在社交媒體集群中將檢測準確率降低至 0.52 附近。然而其副作用也最為明顯,在行程規劃任務中由于干擾了 UI 邏輯,使任務成功率從 0.75 暴跌至 0.15。

      ?特征擬人的難易分層

      • 最易擬人化的特征:路徑形狀特征(如最大偏離度 maxDev)。通過數學變換,這些指標的辨識度能迅速從 0.99 降至 0.55 左右的隨機水平。

      • 最具挑戰的瓶頸:端點精度(Endpoint Precision)。Agent 為了精準點擊 UI 控件中心,其落點散布極度集中,這與人類隨意的點擊習慣形成了鮮明對比,成為目前最難擬人化的機械印記之一。

      05


      結語

      《Turing Test on Screen》不僅僅是一個技術基準,它更是數字平臺與自主Agent之間長期演化軍備競賽的序曲。它促成了一種新的生存導向設計理念的轉變:從單一追求效果與效率,轉向任務準確率與行為擬人化的雙目標優化。

      正如論文總結,隨著“屏幕上的圖靈測試”成為數字化Agent的必然要求,展現類似人類的行為細微差別不再僅僅是美學特征,而是Agent生存的功能必然性。如果我們希望未來的Agent能夠在這個充滿對抗的數字世界中無縫共生,這項研究無疑為我們提供了關鍵的行動指南。

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “農業學大寨”為啥搞不下去了?

      “農業學大寨”為啥搞不下去了?

      霹靂炮
      2026-05-15 14:08:15
      在歡迎晚宴上,特朗普罕見破例了!

      在歡迎晚宴上,特朗普罕見破例了!

      仕道
      2026-05-15 13:26:03
      國家稅務總局成都市稅務局原二級巡視員李平接受審查調查

      國家稅務總局成都市稅務局原二級巡視員李平接受審查調查

      界面新聞
      2026-05-15 15:40:24
      廣州暴雨,小孩連人帶車被沖走,外賣小哥狂奔救人!最新消息

      廣州暴雨,小孩連人帶車被沖走,外賣小哥狂奔救人!最新消息

      南方都市報
      2026-05-15 17:22:46
      中美會談已結束,特朗普專機已離京,黃仁勛說了一句不尋常的話

      中美會談已結束,特朗普專機已離京,黃仁勛說了一句不尋常的話

      麓谷隱士
      2026-05-15 10:16:15
      突發!亞太股市,全線跳水!

      突發!亞太股市,全線跳水!

      證券時報
      2026-05-15 10:52:19
      張雪機車再拿第一!WSBK捷克站自由賽:53號車手德比斯奪全場第一

      張雪機車再拿第一!WSBK捷克站自由賽:53號車手德比斯奪全場第一

      快科技
      2026-05-15 18:00:34
      央視拿下2026年美加墨世界杯版權!知名主持韓喬生喊話“妥了”,中國球迷可在家看世界杯了

      央視拿下2026年美加墨世界杯版權!知名主持韓喬生喊話“妥了”,中國球迷可在家看世界杯了

      新民晚報
      2026-05-15 15:45:13
      濮陽17歲小伙找到!遺體在河里漂8天,知情人發聲,自殺恐是必然

      濮陽17歲小伙找到!遺體在河里漂8天,知情人發聲,自殺恐是必然

      奇思妙想草葉君
      2026-05-15 11:09:57
      實力至上!馬斯克只尊重有實力的朋友,看他怎么對待雷軍和馬云的

      實力至上!馬斯克只尊重有實力的朋友,看他怎么對待雷軍和馬云的

      南方健哥
      2026-05-15 12:23:17
      馬斯克訪華像回家,母親已長住上海,兒子身價萬億她還做視頻帶貨

      馬斯克訪華像回家,母親已長住上海,兒子身價萬億她還做視頻帶貨

      青橘罐頭
      2026-05-15 14:22:09
      馬斯克轉發庫克、雷軍和他合照帖!稱在北京干著“馬斯克式”的事

      馬斯克轉發庫克、雷軍和他合照帖!稱在北京干著“馬斯克式”的事

      火山詩話
      2026-05-15 16:14:20
      讓學術能力很強的博士退學的后果是:學術圈的“杰青”保不住了

      讓學術能力很強的博士退學的后果是:學術圈的“杰青”保不住了

      必記本
      2026-05-15 12:08:25
      黃仁勛去吃炸醬面!大熱天穿皮衣,站在門口大口吃面條

      黃仁勛去吃炸醬面!大熱天穿皮衣,站在門口大口吃面條

      西樓知趣雜談
      2026-05-15 13:59:38
      中方是否同意未來購買美國石油?外交部回應

      中方是否同意未來購買美國石油?外交部回應

      澎湃新聞
      2026-05-15 15:30:31
      特朗普二兒媳穿刺繡旗袍驚艷國宴!配迪奧包包太美了,這回好驚艷

      特朗普二兒媳穿刺繡旗袍驚艷國宴!配迪奧包包太美了,這回好驚艷

      好賢觀史記
      2026-05-15 15:10:23
      何小鵬的私心,與小鵬的野心

      何小鵬的私心,與小鵬的野心

      陸玖商業評論
      2026-05-14 17:46:13
      特朗普43歲小兒媳穿旗袍赴宴,華裔設計師作品,前私教自認普通

      特朗普43歲小兒媳穿旗袍赴宴,華裔設計師作品,前私教自認普通

      譯言
      2026-05-15 12:26:05
      戛納紅毯第二彈!章澤天好美,袁姍姍嚇我一跳,周也沒扛住生圖

      戛納紅毯第二彈!章澤天好美,袁姍姍嚇我一跳,周也沒扛住生圖

      八卦南風
      2026-05-15 15:58:56
      吃完午宴,特朗普離開北京,臨走前發出邀請,魯比奧對華態度變了

      吃完午宴,特朗普離開北京,臨走前發出邀請,魯比奧對華態度變了

      生活魔術專家
      2026-05-15 17:34:14
      2026-05-15 19:59:00
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7278文章數 20751關注度
      往期回顧 全部

      科技要聞

      兩年聯姻一地雞毛,傳蘋果OpenAI瀕臨決裂

      頭條要聞

      美媒詢問是否認為現在的美國是"衰落國家" 外交部回應

      頭條要聞

      美媒詢問是否認為現在的美國是"衰落國家" 外交部回應

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      游戲
      教育
      健康
      旅游
      公開課

      LCK第二賽段:打出對位差距,HLE多點開花橫掃DK

      教育要聞

      上海外國語大學2026綜評,新增商務英語和外交學專業,同分拼校測

      專家揭秘干細胞回輸的安全風險

      旅游要聞

      首屆中國新文創市集暨潮玩游園會打造文旅消費新場景

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲制服丝袜精品久久| 无码国产精品一区二区免费97| 日韩欧美国产精品| 伊人久久免费视频| freesexparty性欧美第一次| 久久综合给合久久狠狠狠88| 久青草视频在线观看免费| 中文字幕乱码一区二区| 天堂在线观看av一区二区三区| 国产男女猛烈无遮挡免费视频网址| 国产初高中生视频在线观看| 美女色在线观看| 国产精品免费看久久久| 最近最新高清中文字幕大全2019 | 国产黑丝袜在线观看视频| 狠狠色亚洲| 亚洲精品中文字幕区| 国产成人无码精品亚洲| 国产精品久久久久9999爆乳| 国产精品成| 韩国一区二区三区精品免费| av国内精品久久久久影院| 天堂亚洲免费视频| www.com黄色| 日本一级在线播| 国产大学生粉嫩无套流白浆| 国产成人久久精品一区二区三区| 中文字幕人成无码人妻| 91老肥熟女九色老女人| 天津黄色毛片| 开鲁县| 蜜桃久久精品成人无码AV| 亚洲wwww| 99热这里有精品| 精品国产一区二区三区AV性色| 极品少妇被猛得白浆直流草莓视频| 少妇被粗大的猛烈进出| 亚洲日韩AV在线| 欧美专区第二页| 日韩欧美亚洲国产高清在线| 蜜臀久久精品亚洲一区|