網易首頁 > 網易號 > 正文申請入駐

邁向無縫共生：大模型GUI Agent的「屏幕圖靈測試」與擬人化之路

2026-04-21 18:56:33　來源: AI科技評論

廣東舉報

分享至

一個只會高效執行任務的Agent，真的能在真實的人類數字生態中存活下來嗎？

論文作者包括來自上海交通大學的 Jiachen Zhu、Congmin Zheng、Yong Yu、Lingyu Yang、Weinan Zhang、Rong Shan、Weiwen Liu、Jianghao Lin，以及來自卡內基梅隆大學的 Zeyu Zheng。

原論文名稱：TURING TEST ON SCREEN: A BENCHMARK FOR MOBILE GUI AGENT HUMANIZATION

https://huggingface.co/papers/2604.09574

https://arxiv.org/abs/2604.09574

多模態大模型（LMMs）的出現從根本上重塑了人機交互的格局。通過賦予系統感知視覺界面并執行復雜交互的能力，我們正在見證從靜態腳本向自動化圖形用戶界面（GUI）Agent的范式轉變。這些Agent能夠模擬用戶，在移動設備APP中執行任務，使人們有望將大量數字化任務交給AI來自動化完成。

然而，隨著Agent能力的提升，我們是否思考過：一個只會高效執行任務的Agent，真的能在真實的人類數字生態中存活下來嗎？

不可調和的矛盾：

GUI Agent面臨的生存挑戰

論文指出，GUI Agent的廣泛部署促成了用戶與服務提供商之間的利益沖突，并可能引發自動化Agent與數字平臺之間的動態沖突。

?平臺APP的注意力經濟 vs Agent的效率至上：現代數字生態系統（如平臺APP）嚴重依賴注意力經濟，用戶參與度和廣告曝光是主要的收入驅動力。相比之下，GUI Agent通常針對效率和目標進行了優化，它們會繞過廣告內容并精簡交互路徑。這種行為對現有平臺的商業模式構成了生存威脅。

?平臺防御與用戶體驗風險：這種利益不匹配，迫使平臺部署防御措施。例如直接進行攔截、注入噪聲，或部署廣告陷阱。這些無差別的防御帶來了嚴重的用戶體驗風險，例如可能會誤傷真實用戶，讓真實用戶無法登錄，影響體驗。

?真實案例：一個典型的例子是近期的Doubao移動助手事件。Agent嘗試自動化跨應用任務，觸發了超級平臺（如微信）的嚴格安全協議，導致了廣泛的賬號限制和服務封鎖。

現有的研究大多聚焦于提升Agent的任務實用性和對抗細微擾動的魯棒性，但這種視角忽略了這個更為基礎的“檢測與反檢測”范式。為了在這個生態中實現和諧共存，Agent必須超越單純的任務準確率與效率，具備反檢測能力，即“擬人化（Humanization）”。

因此，這引出了一個順理成章的問題：

當數字平臺開始防御自動化腳本時，大模型GUI Agent該如何證明自己“像個人類”？又該如何科學地評估其擬人化能力？

圖1: GUI代理與移動平臺之間的對抗格局。

圖示展示了三個關鍵階段：

（1）主要沖突：對抗性利益促使平臺部署諸如登錄攔截和廣告陷阱等防御措施。

（2）屏幕圖靈測試：核心檢測機制依賴于區分自然人類軌跡和代理軌跡。

（3）代理人性化：我們提出了一種對抗式的擬人化任務，通過提高代理的擬人化程度來繞過檢測，同時保持任務準確性，從而將原始代理轉換為擬人化的代理。

評測框架：“屏幕圖靈測試”與 AHB 基準

面對平臺可能會部署的Agent檢測器的嚴密防守，論文將經典的圖靈測試的概念延伸到了GUI環境，提出了“屏幕上的圖靈測試（Turing Test on Screen）”。

這種交互被建模為一個 MinMax 優化問題：

?檢測器（平臺側）試圖最大化人類與Agent行為之間的區分度。

?GUI Agent（用戶側）試圖在不降低任務準確率的情況下最小化這種區分度。

為了量化這一過程，研究團隊構建了包含豐富動作事件和傳感器事件序列的大規模數據集，并建立了Agent擬人化基準（AHB）。AHB在兩個核心維度上對Agent進行評估：

1、擬真度（Imitability）：衡量Agent與人類行為的相似度，通過檢測算法的分類準確率（ACC）來反向量化。如果檢測器的ACC接近0.5（即隨機猜測），則標志著Agent成功通過了測試。

2、實用性（Utility）：監控任務成功率，以確保擬人化策略（如加入噪聲、延遲）不會損害Agent的功能性。

通過初步研究，論文揭示了原生（Vanilla）Agent極易被檢測出的致命弱點：

?軌跡呈完美的直線：Agent的軌跡通常是僵硬的線性矢量，缺乏人類手勢的生理弧度和運動噪聲。

?觸控時間近乎為零：人類的點擊由于皮膚彈性呈現高斯分布（0.05秒-0.10秒），而Agent的輸入則表現為接近零的脈沖，反映了瞬間的事件注入。

?異常的動作間隔：人類的動作間隔服從長尾分布且峰值在零附近，而Agent由于顯著的推理開銷（如mobile-agent-e長達50-80秒），產生了足以被可靠檢測的延遲。

圖2: 人和代理的滑動軌跡區別

圖3:人和代理的時間間隔以及按壓時間的區別

擬人化策略與效用的權衡

（Pareto Frontier）

針對原生 Agent 機械化特征導致的生存危機，本研究系統性地探討了從動作生成到執行的全鏈路擬人化方法。

?雙層架構設計：內部注入與外部包裝：擬人化策略可分為兩種架構：一是“內部注入（Internal Injection）”，即直接對大模型進行微調，使其原生Agent具備人類行為先驗；二是“外部包裝（External Wrapper）”，即在 Agent 生成原始動作（$a_{raw}$）后，通過后處理模塊將其轉化為擬人化序列（$a_{human}$）再執行。考慮到對各個Agent模型的兼容性，本研究重點評估了四種外部包裝策略。

?多維度擬人化算子：

軌跡層（Swipe）：針對線性滑動問題，引入了基于 B-spline 曲線的啟發式噪聲和基于真實人類數據的“歷史軌跡匹配（History Matching）”。后者通過旋轉、縮放等仿射變換，將人類真實的運動微震和速度曲線遷移至 Agent 動作中。
時間層（Interval & Tap）：利用偽動作注入（Fake Actions）掩蓋推理延遲，使 Agent 在閑置期執行微小的滾動或懸停，從而將交互節奏從離散的“脈沖式”拉回到連續的人類分布。同時，通過高斯采樣模擬人類皮膚彈性帶來的長按壓（Longer Presses）效果。

?擬真度與實用性的帕累托前沿（Pareto Frontier）：研究發現，擬人化并非簡單的“模塊累加”，而是存在深刻的性能權衡。提高擬真度（Imitability）往往會以犧牲實用性（Utility）為代價。以“偽動作注入”為例，雖然它能將基于時間間隔的檢測準確率降低至接近隨機猜測的水平（~0.52），但盲目注入的無效動作極易觸發預期外的 UI 狀態變更，導致Agent的邏輯鏈斷裂。這種現象在復雜任務中尤為明顯，構成了 Agent 設計中必須優化的帕累托前沿。

為了驗證擬人化策略的嚴謹性，論文在附錄 C 中提供了三大核心定理的數學證明：

?定理 1：檢測器效能的上界：證明了對于任何給定的 Agent 策略，檢測器的最大區分能力（分類損失）受到人類分布與 Agent 分布之間Jensen-Shannon (JS) 散度的嚴格限制。這意味著，降低檢測準確率的本質就是減小兩者在行為特征空間上的分布差異。

?定理 2：平滑策略的有效性：證明了引入隨機平滑內核（如 B-Spline 注入的方差）可以嚴格降低最大理論可檢測性（JS 散度）。這從數學上確認了即便簡單的啟發式噪聲也能起到一定的反檢測效果。

?定理 3：歷史匹配的漸進優越性：證明了隨著樣本量的增加，歷史匹配（History Matching）策略能使 Agent 的行為特征分布收斂于真實的人類分布。該策略在理論上優于單純的方差注入，是實現高度擬人化的最優路徑。

實驗結果與行為特征分析

本研究在由 21 款 App 構成的 AHB 基準上進行了深度評測，揭示了 GUI Agent 在真實對抗環境下的表現規律。

?原生 Agent 的透明性：實驗證實，未經擬人化的原生 Agent 在物理交互層面幾乎是“透明”的。在提取的 24 維統計特征下，SVM 和 XGBoost 等分類器能夠以接近 1.0 的準確率瞬時識別出Agent行為。

?擬人化策略的實測效能：

歷史匹配（History Matching）的表現始終穩居首位，在顯著降低檢測準確率的同時，成功維持了較高的任務成功率。
偽動作注入表現出極強的反檢測能力，在社交媒體集群中將檢測準確率降低至 0.52 附近。然而其副作用也最為明顯，在行程規劃任務中由于干擾了 UI 邏輯，使任務成功率從 0.75 暴跌至 0.15。

?特征擬人的難易分層：

最易擬人化的特征：路徑形狀特征（如最大偏離度 maxDev）。通過數學變換，這些指標的辨識度能迅速從 0.99 降至 0.55 左右的隨機水平。
最具挑戰的瓶頸：端點精度（Endpoint Precision）。Agent 為了精準點擊 UI 控件中心，其落點散布極度集中，這與人類隨意的點擊習慣形成了鮮明對比，成為目前最難擬人化的機械印記之一。

結語

《Turing Test on Screen》不僅僅是一個技術基準，它更是數字平臺與自主Agent之間長期演化軍備競賽的序曲。它促成了一種新的生存導向設計理念的轉變：從單一追求效果與效率，轉向任務準確率與行為擬人化的雙目標優化。

正如論文總結，隨著“屏幕上的圖靈測試”成為數字化Agent的必然要求，展現類似人類的行為細微差別不再僅僅是美學特征，而是Agent生存的功能必然性。如果我們希望未來的Agent能夠在這個充滿對抗的數字世界中無縫共生，這項研究無疑為我們提供了關鍵的行動指南。

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.