<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      本地4B開源模型,把任何App當Skill用!告別token焦慮,私密性強~

      0
      分享至

      大家好,我是袋鼠帝。

      上次給大家分享了一個 CUA 的開源項目,能讓 AI Agent 直接操控電腦界面,相當于把任何 App 都變成 Agent 的 Skill。反響還不錯。


      但評論區有兩個比較多的反饋:

      太耗 token 了。

      截圖上云,安全嗎?

      說實話,這兩個問題,我自己用下來也發現了,GUI 操作確實耗 token:

      模型要持續截屏、理解界面、定位元素、執行操作,每一步都在燒token。

      特別是在全自動編程流程里,有數據表明,GUI 測試消耗的 token 甚至占到整體的一半以上,是最大的單項開銷。

      而且每一幀截圖都要上傳到云端模型去處理,企業級場景下確實有隱私顧慮。

      前兩天我偶然挖到了一個開源模型,叫 Mano-P

      https://github.com/MININGLAMP-AI/MANO-P


      它天生就是為 GUI 操作設計的,而且是端側模型:可以在你自己的 Mac 上本地運行,截圖和任務數據不出設備。

      有72B版本,最小也有 4B 參數版本,本地一臺 Mac 就能跑。

      不花 token,不上云,私密性拉滿,聽起來挺完美的。

      但其實還有一個很現實的問題:本地跑模型,雖然不耗 token 了,但效率怎么樣?速度怎么樣?會不會跑起來就把電腦卡住了?

      這也是本地跑模型一直以來最頭疼的問題之一。

      不過,我最近挖到的另一個開源框架 Cider,恰好解決了這事(下面會簡單介紹)。


      ok萬事俱備,就差效果了。

      所以我想親手試試:4B端側小模型 + 本地推理加速,跑 GUI 操作,到底行不行?

      先說 Mano-P 是什么。

      是一個開源的端側 GUI-VLA(視覺-語言-動作)Agent 模型。

      簡單來說,它能夠像人一樣看屏幕,并操作電腦。

      開源不久(應該才半個月不到)在GitHub 有1.3k Star了。

      目前開源了兩個尺寸:Mano-P 1.0-72B 和 Mano-P 1.0-4B。

      72B 大模型在 OSWorld Benchmark 的專項排行里排第一,成功率 58.2%,超過第二名 13 個百分點,但 72B 需要通過高配設備來跑。

      4B 是專門為端側設計的輕量版,可以直接跑在 Mac mini / MacBook 上,量化后峰值內存才 4.3GB。

      我的電腦配置有限,所以這次部署的是 4B。但在 CUA 任務上的準確率也已經跟云端大模型相當了,訓練數據的底子很扎實:20,000+ 條瀏覽器操作軌跡、40,000+ 條桌面操作軌跡,覆蓋 300 萬+ 動作。

      它的核心能力是純視覺驅動,不依賴 CDP 協議,不解析 HTML,直接"看"屏幕截圖來理解界面、定位元素、執行點擊和輸入。

      這意味著它不局限于瀏覽器,桌面軟件、3D 應用、專業工具、甚至游戲界面,理論上都能操作。

      這一點非常關鍵。之前用 Playwright 這類工具做瀏覽器自動化,本質上是在操作 DOM 樹。碰到 Canvas 渲染的頁面、Flash 游戲、或者非瀏覽器的桌面應用,直接GG。


      再說說 Cider:我挖到的另一個開源框架。

      前面說了,Mano-P 解決了 token 和隱私問題。但本地跑模型,速度和效率是繞不開的坎。

      Cider 是一個基于 Apple MLX 生態的推理加速框架,解決的就是這個問題:

      讓模型在 Mac 上跑得更快、更省內存。

      因為它真正調用了 Apple GPU 的 INT8 計算能力。

      Apple 的 M 系列芯片其實原生支持 INT8 計算,但 MLX(Apple 自己的 AI 框架)一直沒把這個能力完全用上,只做了權重量化,沒做激活量化。


      Cider 補齊了這塊,它是第一個在 Apple GPU 上實現硬件加速 INT8 TensorOps 的框架。

      實測下來,W8A8 模式比 MLX 原生的 W4A16 快 1.4 到 1.9 倍。

      而且 Cider 不只是給某一個模型用的,Qwen、Llama、Mistral 這些主流開源模型都能接入使用。

      安裝其實越來越簡單了。

      我用 Codex 幫我自動裝的,全程幾乎沒動手

      Mano-P和Cider都是讓Codex幫忙安裝的



      官方推薦的硬件:Apple M4 芯片 + 32GB 內存的 Mac mini 或 MacBook

      對了它還有一個skill,也讓codex幫忙安裝一下

      https://clawhub.ai/hanningwang/mano-cua


      4B 模型跑起來還是輕松的,完全不卡。

      好,環境搭好了。也通過skill把Mano-P接入Codex了(也可以接入別的Agent,比如Claude Code等...)。

      接下來看看 Mano-P 的效果到底如何。


      1、自動瀏覽小紅書并互動

      先來試一個稍微復雜的經典任務。

      小紅書的 UI 是挺復雜的:信息流、彈窗、多種交互方式混在一起。

      我讓 Mano-P 去搜 AI 話題->瀏覽前三個帖子->點贊->并評論。

      這個任務我只是抱著試一試的態度,結果 Mano-P 竟然圓滿完成了,有點意外。

      讓我驚喜的是一個細節是,第一個帖子打開的時候是已經點贊的狀態,它一進來就習慣性地點了點贊按鈕,實際上是把點贊取消了。但它很快意識到不對,立馬又把點贊重新點了回來。

      這說明它不是在機械執行,而是能根據界面的視覺反饋來判斷操作是否正確,并自動糾偏。這個能力對于 GUI Agent 來說非常關鍵。

      這種自動互動的能力其實還有個很實際的用途:比如你想做 X(Twitter)的冷啟動,去各個大 V 下面點贊、評論、轉發來增加曝光,這種重復性高的任務,拿GUI Agent來跑就很合適。


      2、用 tiktok-gen 做 E2E 測試

      然后我嘗試了一個開發者場景。

      我自己有一個開源項目 tiktok-gen(營銷短視頻生成平臺)

      https://github.com/kangarooking/tiktok-gen


      之前做 GUI 測試都是自己手動點,登錄、上傳、生成、驗證,一套流程走下來挺費勁的。

      這次我想試試讓 Codex + Mano-P 配合來跑。

      Codex 負責調度和監督,Mano-P 負責 GUI 操作打開項目前端->測試注冊、登錄->資產中心上傳圖片和音頻素材->文案素材生成->最后產出一份測試報告。

      整個過程里,Codex 像個監工,Mano-P 是主要干活的。

      4B 小模型的 GUI 操作能力確實不錯,但偶爾會跑偏或者卡住,這時候 Codex 作為監督者就能及時糾偏,把任務拉回正軌。

      我甚至覺得這個組合比單獨用 Codex 的 CUA 效果更好。我之前試過 Codex 自己做 GUI 操作,速度倒是快一些,但也會跑偏。而且沒有另一個 AI 幫它糾偏,出了問題只能自己死磕。

      之前就遇到過,讓Codex自己去qq音樂搜周杰倫的歌,結果它在哪里輸入周杰倫的拼音,死活找不到。。

      還有一個更大的優點:整個過程不需要用到 Codex 的視覺能力。

      視覺理解這塊完全由 Mano-P 在本地完成,Codex 只負責安排任務和糾偏。這意味著截圖不會上傳到云端,能省不少 token,私密性也更好。

      整個過程除了慢一點,穩是真的穩。

      慢的原因我總結了一下,主要是三個:一是 Codex 本身的思考耗時;二是我本地配置一般,沒達到 Mano-P 官方推薦的 M5 芯片 + 32GB 內存;三是 Codex 和 Mano-P 之間的信息同步還不夠絲滑,這塊也占了一部分耗時。

      也希望開源作者能繼續優化這一點。

      以下是Codex的原話,Codex是沒有參與GUI的查看和執行的



      3、玩游戲

      再來個有趣的。我也一直想試試,讓大模型玩掃雷,反正我小時候是沒玩明白過,只知道亂點

      我之前試過用 Playwright(最好用的瀏覽器自動化 MCP 工具之一)去操作 4399 上的掃雷,完全做不到。

      原因很簡單:4399 的游戲界面是 Canvas 渲染的,Playwright 操作的是 DOM 樹,在 Canvas 面前直接失效,它根本"看不到"游戲里的格子和數字。

      但 Mano-P 是純視覺路線,肯定是能操作的

      所以我讓它打開 4399->搜索掃雷->進入游戲->開始玩。

      結果挺有意思的:它一步一步打開了 4399,搜索到掃雷,順利進入了游戲界面。游戲確實能玩上,能點擊到掃雷的方塊。

      但說實話,它并不太理解掃雷的游戲邏輯,玩得比較隨機,沒有根據數字去推理哪些格子安全

      不過 Playwright 做不到的事,4B 小模型通過純視覺還是能做。

      「最后」

      我想說,Mano-P 4B雖然游戲玩得菜,但頁面操作這塊,還是挺專業的

      頁面元素定位、按鈕點擊、表單填寫、跨步驟任務執行,這些它都能做得不錯。

      Mano-P 4B更適合的定位是:自動化執行給定的 GUI 任務,而不是全程獨立思考怎么做。

      搭配一個聰明的大模型(比如接入 Codex 配合 GPT-5.5)一起用,效果最好。

      回到開頭的那兩個痛點:token 成本和數據安全。

      Mano-P + Cider 的組合,確實一定程度上解決了這兩個問題。本地 GUI 操作不花或少花 token,數據不出設備,這不是安全協議上寫的"我們承諾不看你的截圖數據",而是物理上數據就沒出過你的電腦。

      然后端側 AI 的方向也越來越清晰了:端側模型不需要具備通用性,而是在某一個具體場景深耕、打穿。

      更私密、更省錢、更可控,以及在 GUI 操作這件事上,它不一定比大模型差。

      如果你有 M4 Mac,推薦自己跑跑看。

      如果你也嘗試了一些有意思的 Case,歡迎評論區聊聊~

      能看到這里的都是鳳毛麟角的存在!

      如果覺得不錯,隨手點個贊、在看、轉發三連吧~

      如果想第一時間收到推送,也可以給我個星標?

      謝謝你耐心看完我的文章~

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      我臥底邊境六年終于回家,飯桌上父親用摩斯密碼敲擊桌子:趕快跑

      我臥底邊境六年終于回家,飯桌上父親用摩斯密碼敲擊桌子:趕快跑

      千秋文化
      2026-05-14 20:24:09
      何穗這些年變化也太大了,今昔對比,簡直不敢相信竟是同一個人

      何穗這些年變化也太大了,今昔對比,簡直不敢相信竟是同一個人

      草莓信箱
      2026-05-14 10:04:37
      水谷隼深夜怒批張本智和:別再丟人了!賽前狂言只會讓國乒痛下殺手!

      水谷隼深夜怒批張本智和:別再丟人了!賽前狂言只會讓國乒痛下殺手!

      最愛乒乓球
      2026-05-16 06:05:03
      瑞士版“萊斯特城”奪冠后離奇崩盤:單場狂丟8球震驚歐壇

      瑞士版“萊斯特城”奪冠后離奇崩盤:單場狂丟8球震驚歐壇

      星耀國際足壇
      2026-05-16 22:14:02
      廣廈關鍵先生!孫銘徽12+8獻兩記制勝三分 助攻全場最高

      廣廈關鍵先生!孫銘徽12+8獻兩記制勝三分 助攻全場最高

      醉臥浮生
      2026-05-16 21:45:58
      英偉達H200獲批賣10家中國公司,但貨能不能到還得看中方臉色

      英偉達H200獲批賣10家中國公司,但貨能不能到還得看中方臉色

      別打我我投降
      2026-05-14 18:51:05
      1952年許世友返鄉,不顧老母親下跪勸阻,掏出槍對準三叔:斃了你

      1952年許世友返鄉,不顧老母親下跪勸阻,掏出槍對準三叔:斃了你

      云端小院
      2026-05-12 06:41:03
      意大利官方證實:馬爾代夫潛水,5人身亡

      意大利官方證實:馬爾代夫潛水,5人身亡

      南方都市報
      2026-05-16 22:13:28
      50℃的生存考驗:當印度變成“空調外機”,這個國家還能生存多久

      50℃的生存考驗:當印度變成“空調外機”,這個國家還能生存多久

      阿訊說天下
      2026-05-14 12:06:36
      “余生好好走”,知名央視主持人王小丫,病床上的留言字字催淚

      “余生好好走”,知名央視主持人王小丫,病床上的留言字字催淚

      近史談
      2026-03-31 18:57:49
      涉嫌嚴重違紀違法,趙儀衡被查

      涉嫌嚴重違紀違法,趙儀衡被查

      都市快報橙柿互動
      2026-05-16 20:49:21
      海底撈男童燙傷協商破裂轉訴訟,同類案已有先判:餐廳30%家長70%

      海底撈男童燙傷協商破裂轉訴訟,同類案已有先判:餐廳30%家長70%

      千言娛樂記
      2026-05-16 13:37:16
      金價、銀價大跌才剛開始

      金價、銀價大跌才剛開始

      東方豪俠
      2026-05-16 17:30:58
      “給兒子吃得大腦缺氧了!”一頓全碳水早餐,暴露了寶媽的低認知

      “給兒子吃得大腦缺氧了!”一頓全碳水早餐,暴露了寶媽的低認知

      妍妍教育日記
      2026-05-14 13:30:26
      劉大錘曝鹿晗關曉彤分手一年多:鹿晗不去以前和關曉彤常去的地方

      劉大錘曝鹿晗關曉彤分手一年多:鹿晗不去以前和關曉彤常去的地方

      君笙的拂兮
      2026-05-15 09:14:30
      一只蒼蠅困死整個大陸?無法種地不能養馬,這才是非洲的窮根!

      一只蒼蠅困死整個大陸?無法種地不能養馬,這才是非洲的窮根!

      朝子亥
      2026-05-16 15:15:03
      萬萬沒想到,在特朗普離開北京之前,中美竟訂下“三年之約”!

      萬萬沒想到,在特朗普離開北京之前,中美竟訂下“三年之約”!

      老詩才是我的外號
      2026-05-16 15:31:17
      特朗普訪華不按常理出牌,有3件事很重要,中方這次沒讓步!

      特朗普訪華不按常理出牌,有3件事很重要,中方這次沒讓步!

      滄海一書客
      2026-05-16 18:21:47
      后臺最硬女神探,遇到破不了的案,直接冤枉路人死刑!

      后臺最硬女神探,遇到破不了的案,直接冤枉路人死刑!

      莫地方
      2026-05-16 01:40:03
      西決對陣出爐:馬刺深入狼窩大勝而歸,活塞與騎士連續兩輪搶七

      西決對陣出爐:馬刺深入狼窩大勝而歸,活塞與騎士連續兩輪搶七

      燒體壇
      2026-05-16 12:16:37
      2026-05-16 22:51:00
      袋鼠帝 incentive-icons
      袋鼠帝
      持續分享AI實踐干貨,走超級個體崛起之路
      83文章數 73關注度
      往期回顧 全部

      科技要聞

      漲的是車價,要的是老命

      頭條要聞

      波、德美軍部署被叫停 學者:將改變俄烏周邊軍事現狀

      頭條要聞

      波、德美軍部署被叫停 學者:將改變俄烏周邊軍事現狀

      體育要聞

      馬刺2號,少年老成,這集看過?

      娛樂要聞

      謝霆鋒北京街頭騎行被偶遇,側顏帥炸

      財經要聞

      造詞狂魔賈躍亭

      汽車要聞

      大五座SUV卷王!樂道L80上市 租電15.68萬元起

      態度原創

      親子
      時尚
      本地
      手機
      公開課

      親子要聞

      萬達二樓挺不錯的少兒培訓,想給我閨女安排一次。

      女人不管年紀多大,都可以備好一件經典條紋T恤,減齡又舒適

      本地新聞

      用蘇繡的方式,打開江西婺源

      手機要聞

      華為nova 16十周年放大招:Ultra退場 Pro Max接棒

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 美女福利视频一区二区| 永久免费男同AV无码入口| 一区二区三区无码免费看| 中文字幕?自拍| 亚洲口爆| 国产免费踩踏调教视频| 亚洲一区尤物| 成年女人黄小视频| 亚洲精品国产V片在线观看| 2021在线精品自偷自拍无码| 精品国产片一区二区三区| 中文字幕无码家庭乱欲| 精品一区二区三区免费爱| 人妻中文无码就熟专区| 视频一区二区 国产视频| 自拍偷拍亚洲一区| 曰韩高清砖码一二区视频| 最新国产福利在线观看精品| 久久综合香蕉国产蜜臀av| 国产视频一区二区三区视频| www.尤物.com| 成人区人妻精品一区| 99久热这里精品免费观看| 国产饥渴孕妇在线播放| 成人精品老熟妇一区二区| 超碰免费在线观看| 国产在线精品一区二区高清不卡| 成人精品视频一区二区| 精品国产肉丝袜在线拍国语| 亚洲乱理伦片在线观看中字| 每日av| 色欲人妻无码| 国产福利影院在线观看| av在线播放无码线| 国产网友愉拍精品视频手机| 日本理伦片午夜理伦片| 国内大量揄拍人妻精品視頻| 久久99久久99久久综合| 免费高清欧美一区二区三区| 免费欧洲美女牲交视频| 亚洲天堂av中文字幕|