![]()
![]()
GUI Agent,重新定義人機交互自動化。
1.發布背景
進入2026年,OpenClaw的橫空出世,宣告全球人工智能正式從Chat時代走到了Act時代,各主要廠商不再只做Agent,而是推動Agent成為AI時代新的超級入口,GUI Agent也成為這一探索中最重要的路徑之一。GUI Agent正在引發繼“命令行”到“圖形界面”之后的第三次人機交互革命,其核心是通過UI直接進行操作,從“人操作機器”轉向“機器理解并執行人的意圖”,使操作系統回歸“用戶意圖執行者”的本質。
隨著產業探索的深入,從業者逐漸意識到,當前以API為核心路徑的Agent路線存在難以逾越的障礙,一是覆蓋率瓶頸,API Agent高度依賴API接口,初步估計全球當前僅有不到5%的軟件開放了完整的API接口,這使得Agent在數量巨大的“黑盒”軟件面前寸步難行;二是認知維度確缺失,多數API Agent僅能在數據層面進行交互,丟失了界面布局、圖標隱喻等關鍵的視覺上下文信息;三是跨生態協作割裂,受限于接口壁壘,傳統Agent往往淪為單一軟件內的“半自動”工具,難以處理跨平臺、跨應用的長鏈路復雜任務。這就造成了當前Agent多數是“半自動”智能體,重復、繁瑣的跨軟件操作還需要人工完成。總的來說,以API為主要路徑的Agent仍然沒辦法克服當前計算機行業發展留下來的弊病,即無法對碎片化的數據進行多模態、大規模、跨平臺、自動化的調用和整理,并且最終實現智能化的輸出。
在短期無法重構全球軟件生態的前提下,直接通過圖形界面完成感知與操作,成為繞開接口壁壘、實現規模化自動化的重要實現路徑。GUI Agent是一種基于多模態大模型,能夠模擬人類用戶,通過視覺感知和模擬操作,直接與多端圖形用戶界面進行交互的智能體。它的優勢在于擺脫了對API接口和RPA腳本的依賴,通過強大的視覺語義理解,打破了應用間的數據圍墻,實現了真正的跨App、跨平臺、跨生態操作。GUI Agent的出現,將智能設備從刻板的“代碼執行者”進化為靈活的“意圖代理人”,從根本上重塑了人機交互范式,是人類通往通用人工智能道路上的里程碑式跨越。
北京庭宇科技有限公司是全球領先的邊緣智算基礎設施服務商,成立于2019年,始終致力于構建以邊緣智算為核心的AI全棧基礎設施生態,為智能時代提供核心算力支撐。庭宇運營著國內最大的分布式GPU算力池,構建了覆蓋全國超1500個縣市及東南亞的高性能邊緣節點網絡,基礎設施已深度賦能云桌面、AI Agent等多元場景,技術實力與市場占有率持續領先。
2024年,庭宇科技就開始了在GUI Agent領域的探索,并且在2025年10月發布了GUI Agent產品Lybic,成為國內發布的首個基于邊緣智算架構的GUI Agent產品。Lybic補足了庭宇科技在Agentic OS領域的拼圖,使庭宇科技形成了以“邊緣云-GUI Agent-云手機/電腦”為主的產品體系,初步構建了以邊緣智算為核心的AI全棧基礎設施生態。Lybic以庭宇科技的邊緣智算為底座,以沙箱為保障的運行環境,配合“全模型+全工具鏈”的開放生態,形成了“毫秒級延時、高安全保障、全場景適應”的產品優勢,有效解決了GUI Agent運行過程中面臨的延遲長、精度差、安全保障低的痛點。
《跨OS GUI智能體基礎設施白皮書》由庭宇科技和鑄基計劃聯合發布,提出了對GUI Agent的發展現狀、技術路徑、落地場景及未來前景提出的研判與思考。希望通過本白皮書,與全球從業者共同探討這一變革性技術的未來,為推動全球通用人工智能的發展貢獻庭宇科技力量,實現庭宇科技“讓算力無處不在,讓智能觸手可及”的使命。
2.核心亮點
本白皮書總結了GUI Agent的概念、發展阻礙、技術架構和核心實現、產品形態和場景落地、未來與展望。
本白皮書基于庭宇科技近年在GUI Agent領域的思考、探索和實踐,深度剖析了GUI Agent的市場格局、技術演進路徑及關鍵落地場景。我們希望通過本白皮書,為全球從業者提供一份可參考的“落地指南”,并致力于通過持續深耕邊緣AI基礎設施,推動通用人工智能早日普惠千行百業。
人工智能的演進將經歷算法階段、模型階段、智能體階段和智能體生態階段四個階段,其中算法階段的核心特征是主要解決“如何計算”的問題,由統計學和傳統的機器學習算法驅動,智能體階段的核心特征是大模型不再是一個簡單的Chatbot,而是可以主動完成任務的智能助理,智能體生態階段的核心特征是AI將從單體智能走向多智能體協作和智能體工作流。不同的 Agent扮演不同的角色(如程序員、測試員)共同完成龐大的工程。
GUI Agent是人機交互自動化的范式革命。人機交互經歷了三次浪潮,分別是CLI階段、GUI階段、GUI Agent階段,GUI Agent正在引發繼“命令行”到“圖形界面”之后的第三次人機交互革命,其核心是從“人操作機器”轉向“機器理解并執行人的意圖”,最終將消滅“應用孤島”,使操作系統回歸‘用戶意圖執行者“的本質。主要表現在交互邏輯革命、用戶角色革命、能力邊界革命、生態模式革命四個方面。
GUI Agent驅動因素由Agent面臨的智能化困境和大模型底層技術的突破進展兩方面組成。在 Agent面臨的智能化困境方面,“API覆蓋率不足”造成的“長尾軟件孤島”、傳統RPA維護成本過高、跨應用跨生態造成的碎片化工作流、復雜軟件使用和學習門檻較高是傳統Agent面臨的最大阻礙;在大模型底層技術的突破進展方面,VLM視覺理解能力飛躍,從“鑒賞”到“操作”的進化和LLM實現從“直覺式反應”到“深思熟慮”的進化是讓GUI Agent得以實現的關鍵因素。
GUI Agent組成包括感知模塊、決策與規劃模塊、執行模塊、反饋優化模塊等四個最重要的模塊,同時底層沙盒環境也是GUI Agent安全可控的良好保障。基于各個模塊設計邏輯的不同,GUI Agent形成了端到端視覺大模型、代碼生成路徑、多智能體協作路徑三大主流技術路徑。本報告基于實踐經驗,將每個模塊的核心內容、困難和挑戰、技術考量維度、技術解決方案進行詳細的展開和解釋,期望能夠與行業從業者交流和討論。
詳細介紹了GUI Agent可能的產品形態和落地場景,包括手機、電腦、OS生態和人機自動化交互具體場景的可能性。同時,提出了未來GUI Agent的發展可能性、面臨的困難和挑戰。
關注公眾號「甲子光年」,后臺回復“GUI Agent”,獲得高清版完整PDF。或者點擊文末“閱讀原文”,進入甲子光年官網下載。
3.報告正文
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
關注公眾號「甲子光年」,后臺回復“GUI Agent”,獲得高清版完整PDF。或者點擊文末“閱讀原文”,進入甲子光年官網下載。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
關注公眾號「甲子光年」,后臺回復“GUI Agent”,獲得高清版完整PDF。或者點擊文末“閱讀原文”,進入甲子光年官網下載。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.