大家好,我是袋鼠帝。
上次給大家分享了一個 CUA 的開源項目,能讓 AI Agent 直接操控電腦界面,相當于把任何 App 都變成 Agent 的 Skill。反響還不錯。
![]()
但評論區有兩個比較多的反饋:
太耗 token 了。
截圖上云,安全嗎?
說實話,這兩個問題,我自己用下來也發現了,GUI 操作確實耗 token:
模型要持續截屏、理解界面、定位元素、執行操作,每一步都在燒token。
特別是在全自動編程流程里,有數據表明,GUI 測試消耗的 token 甚至占到整體的一半以上,是最大的單項開銷。
而且每一幀截圖都要上傳到云端模型去處理,企業級場景下確實有隱私顧慮。
前兩天我偶然挖到了一個開源模型,叫 Mano-P
https://github.com/MININGLAMP-AI/MANO-P
![]()
它天生就是為 GUI 操作設計的,而且是端側模型:可以在你自己的 Mac 上本地運行,截圖和任務數據不出設備。
有72B版本,最小也有 4B 參數版本,本地一臺 Mac 就能跑。
不花 token,不上云,私密性拉滿,聽起來挺完美的。
但其實還有一個很現實的問題:本地跑模型,雖然不耗 token 了,但效率怎么樣?速度怎么樣?會不會跑起來就把電腦卡住了?
這也是本地跑模型一直以來最頭疼的問題之一。
不過,我最近挖到的另一個開源框架 Cider,恰好解決了這事(下面會簡單介紹)。
![]()
ok萬事俱備,就差效果了。
所以我想親手試試:4B端側小模型 + 本地推理加速,跑 GUI 操作,到底行不行?
先說 Mano-P 是什么。
是一個開源的端側 GUI-VLA(視覺-語言-動作)Agent 模型。
簡單來說,它能夠像人一樣看屏幕,并操作電腦。
開源不久(應該才半個月不到)在GitHub 有1.3k Star了。
目前開源了兩個尺寸:Mano-P 1.0-72B 和 Mano-P 1.0-4B。
72B 大模型在 OSWorld Benchmark 的專項排行里排第一,成功率 58.2%,超過第二名 13 個百分點,但 72B 需要通過高配設備來跑。
4B 是專門為端側設計的輕量版,可以直接跑在 Mac mini / MacBook 上,量化后峰值內存才 4.3GB。
我的電腦配置有限,所以這次部署的是 4B。但在 CUA 任務上的準確率也已經跟云端大模型相當了,訓練數據的底子很扎實:20,000+ 條瀏覽器操作軌跡、40,000+ 條桌面操作軌跡,覆蓋 300 萬+ 動作。
它的核心能力是純視覺驅動,不依賴 CDP 協議,不解析 HTML,直接"看"屏幕截圖來理解界面、定位元素、執行點擊和輸入。
這意味著它不局限于瀏覽器,桌面軟件、3D 應用、專業工具、甚至游戲界面,理論上都能操作。
這一點非常關鍵。之前用 Playwright 這類工具做瀏覽器自動化,本質上是在操作 DOM 樹。碰到 Canvas 渲染的頁面、Flash 游戲、或者非瀏覽器的桌面應用,直接GG。
![]()
再說說 Cider:我挖到的另一個開源框架。
前面說了,Mano-P 解決了 token 和隱私問題。但本地跑模型,速度和效率是繞不開的坎。
Cider 是一個基于 Apple MLX 生態的推理加速框架,解決的就是這個問題:
讓模型在 Mac 上跑得更快、更省內存。
因為它真正調用了 Apple GPU 的 INT8 計算能力。
Apple 的 M 系列芯片其實原生支持 INT8 計算,但 MLX(Apple 自己的 AI 框架)一直沒把這個能力完全用上,只做了權重量化,沒做激活量化。
![]()
Cider 補齊了這塊,它是第一個在 Apple GPU 上實現硬件加速 INT8 TensorOps 的框架。
實測下來,W8A8 模式比 MLX 原生的 W4A16 快 1.4 到 1.9 倍。
而且 Cider 不只是給某一個模型用的,Qwen、Llama、Mistral 這些主流開源模型都能接入使用。
安裝其實越來越簡單了。
我用 Codex 幫我自動裝的,全程幾乎沒動手
Mano-P和Cider都是讓Codex幫忙安裝的
![]()
![]()
官方推薦的硬件:Apple M4 芯片 + 32GB 內存的 Mac mini 或 MacBook
對了它還有一個skill,也讓codex幫忙安裝一下
https://clawhub.ai/hanningwang/mano-cua
![]()
4B 模型跑起來還是輕松的,完全不卡。
好,環境搭好了。也通過skill把Mano-P接入Codex了(也可以接入別的Agent,比如Claude Code等...)。
接下來看看 Mano-P 的效果到底如何。
1、自動瀏覽小紅書并互動
先來試一個稍微復雜的經典任務。
小紅書的 UI 是挺復雜的:信息流、彈窗、多種交互方式混在一起。
我讓 Mano-P 去搜 AI 話題->瀏覽前三個帖子->點贊->并評論。
這個任務我只是抱著試一試的態度,結果 Mano-P 竟然圓滿完成了,有點意外。
讓我驚喜的是一個細節是,第一個帖子打開的時候是已經點贊的狀態,它一進來就習慣性地點了點贊按鈕,實際上是把點贊取消了。但它很快意識到不對,立馬又把點贊重新點了回來。
這說明它不是在機械執行,而是能根據界面的視覺反饋來判斷操作是否正確,并自動糾偏。這個能力對于 GUI Agent 來說非常關鍵。
這種自動互動的能力其實還有個很實際的用途:比如你想做 X(Twitter)的冷啟動,去各個大 V 下面點贊、評論、轉發來增加曝光,這種重復性高的任務,拿GUI Agent來跑就很合適。
2、用 tiktok-gen 做 E2E 測試
然后我嘗試了一個開發者場景。
我自己有一個開源項目 tiktok-gen(營銷短視頻生成平臺)
https://github.com/kangarooking/tiktok-gen
![]()
之前做 GUI 測試都是自己手動點,登錄、上傳、生成、驗證,一套流程走下來挺費勁的。
這次我想試試讓 Codex + Mano-P 配合來跑。
Codex 負責調度和監督,Mano-P 負責 GUI 操作打開項目前端->測試注冊、登錄->資產中心上傳圖片和音頻素材->文案素材生成->最后產出一份測試報告。
整個過程里,Codex 像個監工,Mano-P 是主要干活的。
4B 小模型的 GUI 操作能力確實不錯,但偶爾會跑偏或者卡住,這時候 Codex 作為監督者就能及時糾偏,把任務拉回正軌。
我甚至覺得這個組合比單獨用 Codex 的 CUA 效果更好。我之前試過 Codex 自己做 GUI 操作,速度倒是快一些,但也會跑偏。而且沒有另一個 AI 幫它糾偏,出了問題只能自己死磕。
之前就遇到過,讓Codex自己去qq音樂搜周杰倫的歌,結果它在哪里輸入周杰倫的拼音,死活找不到。。
還有一個更大的優點:整個過程不需要用到 Codex 的視覺能力。
視覺理解這塊完全由 Mano-P 在本地完成,Codex 只負責安排任務和糾偏。這意味著截圖不會上傳到云端,能省不少 token,私密性也更好。
整個過程除了慢一點,穩是真的穩。
慢的原因我總結了一下,主要是三個:一是 Codex 本身的思考耗時;二是我本地配置一般,沒達到 Mano-P 官方推薦的 M5 芯片 + 32GB 內存;三是 Codex 和 Mano-P 之間的信息同步還不夠絲滑,這塊也占了一部分耗時。
也希望開源作者能繼續優化這一點。
以下是Codex的原話,Codex是沒有參與GUI的查看和執行的
![]()
3、玩游戲
再來個有趣的。我也一直想試試,讓大模型玩掃雷,反正我小時候是沒玩明白過,只知道亂點
我之前試過用 Playwright(最好用的瀏覽器自動化 MCP 工具之一)去操作 4399 上的掃雷,完全做不到。
原因很簡單:4399 的游戲界面是 Canvas 渲染的,Playwright 操作的是 DOM 樹,在 Canvas 面前直接失效,它根本"看不到"游戲里的格子和數字。
但 Mano-P 是純視覺路線,肯定是能操作的
所以我讓它打開 4399->搜索掃雷->進入游戲->開始玩。
結果挺有意思的:它一步一步打開了 4399,搜索到掃雷,順利進入了游戲界面。游戲確實能玩上,能點擊到掃雷的方塊。
但說實話,它并不太理解掃雷的游戲邏輯,玩得比較隨機,沒有根據數字去推理哪些格子安全
不過 Playwright 做不到的事,4B 小模型通過純視覺還是能做。
「最后」
我想說,Mano-P 4B雖然游戲玩得菜,但頁面操作這塊,還是挺專業的
頁面元素定位、按鈕點擊、表單填寫、跨步驟任務執行,這些它都能做得不錯。
Mano-P 4B更適合的定位是:自動化執行給定的 GUI 任務,而不是全程獨立思考怎么做。
搭配一個聰明的大模型(比如接入 Codex 配合 GPT-5.5)一起用,效果最好。
回到開頭的那兩個痛點:token 成本和數據安全。
Mano-P + Cider 的組合,確實一定程度上解決了這兩個問題。本地 GUI 操作不花或少花 token,數據不出設備,這不是安全協議上寫的"我們承諾不看你的截圖數據",而是物理上數據就沒出過你的電腦。
然后端側 AI 的方向也越來越清晰了:端側模型不需要具備通用性,而是在某一個具體場景深耕、打穿。
更私密、更省錢、更可控,以及在 GUI 操作這件事上,它不一定比大模型差。
如果你有 M4 Mac,推薦自己跑跑看。
如果你也嘗試了一些有意思的 Case,歡迎評論區聊聊~
能看到這里的都是鳳毛麟角的存在!
如果覺得不錯,隨手點個贊、在看、轉發三連吧~
如果想第一時間收到推送,也可以給我個星標?
謝謝你耐心看完我的文章~
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.