網易首頁 > 網易號 > 正文申請入駐

跨OS GUI智能體基礎設施白皮書——重新定義人機交互自動化｜甲子光年智庫

2026-04-13 20:05:28　來源: 甲子光年

北京舉報

分享至

GUI Agent，重新定義人機交互自動化。

1.發布背景

進入2026年，OpenClaw的橫空出世，宣告全球人工智能正式從Chat時代走到了Act時代，各主要廠商不再只做Agent，而是推動Agent成為AI時代新的超級入口，GUI Agent也成為這一探索中最重要的路徑之一。GUI Agent正在引發繼“命令行”到“圖形界面”之后的第三次人機交互革命，其核心是通過UI直接進行操作，從“人操作機器”轉向“機器理解并執行人的意圖”，使操作系統回歸“用戶意圖執行者”的本質。

隨著產業探索的深入，從業者逐漸意識到，當前以API為核心路徑的Agent路線存在難以逾越的障礙，一是覆蓋率瓶頸，API Agent高度依賴API接口，初步估計全球當前僅有不到5%的軟件開放了完整的API接口，這使得Agent在數量巨大的“黑盒”軟件面前寸步難行；二是認知維度確缺失，多數API Agent僅能在數據層面進行交互，丟失了界面布局、圖標隱喻等關鍵的視覺上下文信息；三是跨生態協作割裂，受限于接口壁壘，傳統Agent往往淪為單一軟件內的“半自動”工具，難以處理跨平臺、跨應用的長鏈路復雜任務。這就造成了當前Agent多數是“半自動”智能體，重復、繁瑣的跨軟件操作還需要人工完成。總的來說，以API為主要路徑的Agent仍然沒辦法克服當前計算機行業發展留下來的弊病，即無法對碎片化的數據進行多模態、大規模、跨平臺、自動化的調用和整理，并且最終實現智能化的輸出。

在短期無法重構全球軟件生態的前提下，直接通過圖形界面完成感知與操作，成為繞開接口壁壘、實現規模化自動化的重要實現路徑。GUI Agent是一種基于多模態大模型，能夠模擬人類用戶，通過視覺感知和模擬操作，直接與多端圖形用戶界面進行交互的智能體。它的優勢在于擺脫了對API接口和RPA腳本的依賴，通過強大的視覺語義理解，打破了應用間的數據圍墻，實現了真正的跨App、跨平臺、跨生態操作。GUI Agent的出現，將智能設備從刻板的“代碼執行者”進化為靈活的“意圖代理人”，從根本上重塑了人機交互范式，是人類通往通用人工智能道路上的里程碑式跨越。

北京庭宇科技有限公司是全球領先的邊緣智算基礎設施服務商，成立于2019年，始終致力于構建以邊緣智算為核心的AI全棧基礎設施生態，為智能時代提供核心算力支撐。庭宇運營著國內最大的分布式GPU算力池，構建了覆蓋全國超1500個縣市及東南亞的高性能邊緣節點網絡，基礎設施已深度賦能云桌面、AI Agent等多元場景，技術實力與市場占有率持續領先。

2024年，庭宇科技就開始了在GUI Agent領域的探索，并且在2025年10月發布了GUI Agent產品Lybic，成為國內發布的首個基于邊緣智算架構的GUI Agent產品。Lybic補足了庭宇科技在Agentic OS領域的拼圖，使庭宇科技形成了以“邊緣云-GUI Agent-云手機/電腦”為主的產品體系，初步構建了以邊緣智算為核心的AI全棧基礎設施生態。Lybic以庭宇科技的邊緣智算為底座，以沙箱為保障的運行環境，配合“全模型+全工具鏈”的開放生態，形成了“毫秒級延時、高安全保障、全場景適應”的產品優勢，有效解決了GUI Agent運行過程中面臨的延遲長、精度差、安全保障低的痛點。

《跨OS GUI智能體基礎設施白皮書》由庭宇科技和鑄基計劃聯合發布，提出了對GUI Agent的發展現狀、技術路徑、落地場景及未來前景提出的研判與思考。希望通過本白皮書，與全球從業者共同探討這一變革性技術的未來，為推動全球通用人工智能的發展貢獻庭宇科技力量，實現庭宇科技“讓算力無處不在，讓智能觸手可及”的使命。

2.核心亮點

本白皮書總結了GUI Agent的概念、發展阻礙、技術架構和核心實現、產品形態和場景落地、未來與展望。

本白皮書基于庭宇科技近年在GUI Agent領域的思考、探索和實踐，深度剖析了GUI Agent的市場格局、技術演進路徑及關鍵落地場景。我們希望通過本白皮書，為全球從業者提供一份可參考的“落地指南”，并致力于通過持續深耕邊緣AI基礎設施，推動通用人工智能早日普惠千行百業。

人工智能的演進將經歷算法階段、模型階段、智能體階段和智能體生態階段四個階段，其中算法階段的核心特征是主要解決“如何計算”的問題，由統計學和傳統的機器學習算法驅動，智能體階段的核心特征是大模型不再是一個簡單的Chatbot，而是可以主動完成任務的智能助理，智能體生態階段的核心特征是AI將從單體智能走向多智能體協作和智能體工作流。不同的 Agent扮演不同的角色（如程序員、測試員）共同完成龐大的工程。

GUI Agent是人機交互自動化的范式革命。人機交互經歷了三次浪潮，分別是CLI階段、GUI階段、GUI Agent階段，GUI Agent正在引發繼“命令行”到“圖形界面”之后的第三次人機交互革命，其核心是從“人操作機器”轉向“機器理解并執行人的意圖”，最終將消滅“應用孤島”，使操作系統回歸‘用戶意圖執行者“的本質。主要表現在交互邏輯革命、用戶角色革命、能力邊界革命、生態模式革命四個方面。

GUI Agent驅動因素由Agent面臨的智能化困境和大模型底層技術的突破進展兩方面組成。在 Agent面臨的智能化困境方面，“API覆蓋率不足”造成的“長尾軟件孤島”、傳統RPA維護成本過高、跨應用跨生態造成的碎片化工作流、復雜軟件使用和學習門檻較高是傳統Agent面臨的最大阻礙；在大模型底層技術的突破進展方面，VLM視覺理解能力飛躍，從“鑒賞”到“操作”的進化和LLM實現從“直覺式反應”到“深思熟慮”的進化是讓GUI Agent得以實現的關鍵因素。

GUI Agent組成包括感知模塊、決策與規劃模塊、執行模塊、反饋優化模塊等四個最重要的模塊，同時底層沙盒環境也是GUI Agent安全可控的良好保障。基于各個模塊設計邏輯的不同，GUI Agent形成了端到端視覺大模型、代碼生成路徑、多智能體協作路徑三大主流技術路徑。本報告基于實踐經驗，將每個模塊的核心內容、困難和挑戰、技術考量維度、技術解決方案進行詳細的展開和解釋，期望能夠與行業從業者交流和討論。

詳細介紹了GUI Agent可能的產品形態和落地場景，包括手機、電腦、OS生態和人機自動化交互具體場景的可能性。同時，提出了未來GUI Agent的發展可能性、面臨的困難和挑戰。

關注公眾號「甲子光年」，后臺回復“GUI Agent”，獲得高清版完整PDF。或者點擊文末“閱讀原文”，進入甲子光年官網下載。

3.報告正文

關注公眾號「甲子光年」，后臺回復“GUI Agent”，獲得高清版完整PDF。或者點擊文末“閱讀原文”，進入甲子光年官網下載。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.