網易首頁 > 網易號 > 正文申請入駐

國產雙開源：讓Mac成為你的私人AI工作站

2026-05-06 14:14:46　來源: 機器之心Pro

河北舉報

分享至

編輯｜panda、+0

2026 年 3 月底，Ollama 發布了一則更新公告：其 Mac 版本的底層推理引擎，將從沿用多年的 llama.cpp 切換為蘋果的 MLX 框架。

這條消息在開發者社區引發了激烈討論，原因很簡單：數字太好看了。在搭載 M5 芯片的 Mac 上，切換到 MLX 后，prefill 速度提升超過 57%，生成速度接近翻倍，部分場景下，生成第一個 token 的等待時間（TTFT）縮短至原先的四分之一。一位開發者在社區里寫道，他的 Mac 的「解碼速度提升了 93%」。

為什么性能提升如此之大？背后的原因其實并不神秘。Apple Silicon 采用的是統一內存架構，即 CPU、GPU 共享同一塊物理內存，數據無需在不同存儲池之間搬運。MLX 正是為這種架構專門設計的框架，因此天然獲得了傳統框架在 Mac 上得不到的底層優勢。

從 M5 芯片開始，蘋果還在每個 GPU 核心里嵌入了專門的矩陣乘法單元 Neural Accelerator，通過 Metal 4 的 TensorOps API 來調用，這是蘋果首次在 GPU 層面提供可編程的、專屬于 AI 推理的硬件加速。

Ollama 的這次選擇，實際上是在向整個開發者生態發出一個明確信號：Apple Silicon + MLX 正在成為本地 AI 推理的主流路線，Mac 開始從「連接云端的終端」變成「獨立運行 AI 的工作站」。基于此，用戶甚至可以完全離線地使用 OpenClaw 和 Hermes Agent 等智能體。

然而，當這場遷徙熱潮稍稍退去，一個更細節的問題浮出水面。MLX 目前支持的量化模式 W4A16 和 W8A16 只對模型「權重」進行了量化壓縮，計算過程中的「激活值」仍然以 FP16 格式運行。這意味著，蘋果專門為 INT8 運算設計的 Neural Accelerator 硬件，在現有 MLX 框架下并沒有被完整調動。性能強勁又昂貴的硬件，用了一半，閑了一半。

就在這個時間節點，明略科技以兩個開源項目遞出了答案。一個叫Cider，一個叫Mano-P

Cider：為蘋果補齊端側 AI 生態

Cider 是明略科技自研并開源的端側推理加速框架，構建于 MLX 之上，專為 macOS 與 Apple Silicon 設計。

倉庫地址：https://github.com/Mininglamp-AI/cider

如果把 Apple Silicon 的推理過程想象成一條工廠流水線，MLX 目前的做法是：把原材料（模型權重）壓縮成較小的規格運來，但到了加工環節（計算），還是用原來的精密工具在正常精度下操作。

Cider 的做法則是把加工環節本身也換成了適配壓縮材料的專用工具：不僅讓權重以更低精度存儲，還讓計算過程直接在 INT8 精度下執行，并借助 Metal 4 的 TensorOps API 調用 Apple GPU 里那塊專門為此設計的硬件。

具體來說，Cider 提供了 MLX 原生框架缺失的兩種量化推理模式。

其一是 W8A8：權重和激活值同時量化至 INT8，直接利用 Apple GPU 的 TensorOps 完成矩陣乘法，計算結束后再反量化回 FP16 輸出。

其二是 W4A8：在 W8A8 的基礎上進一步將權重壓縮至 INT4，權重內存占用較 W8A8 減半。兩種模式均以「融合算子」（fused kernel）實現，將量化、矩陣乘法、反量化三個步驟合并為一次 GPU 調度，避免了中間結果在顯存里多次搬運的開銷。

目前，W8A8/W4A8 激活量化功能在 Apple M5 Pro 上已穩定支持，M1-M4 則不支持。

再來看看實測數據。在單算子層面，以 10240 × 2560 的矩陣規模在 Apple M5 Pro 上進行測試，W8A8（Per-channel）模式相比原生 MLX W8A16 方案展現出顯著的速度優勢：在序列長度 M=1024 時速度提升 1.82 倍，M=4096 時提升 1.84 倍，而達到 M=8192 時則提升了 1.86 倍。

在真實 VLM 模型的端到端測試中，以 Qwen3-VL-2B 進行 chunked prefill 推理，W8A8 模式下整體 prefill 加速約 57%~61%。

這組數字之所以值得關注，還有一個維度：精度損失極小。以 Qwen3-8B 為例，W8A8（Per-channel）量化后的困惑度（PPL）為 9.756，與 FP16 原始精度（9.726）相比，差距僅為 0.03；同時其整體 Prefill 耗時從 FP16 的 179.9 秒大幅縮短至 123.5 秒，提速約 45%。也就是說，用極小的精度代價，換來了遠超原精度方案的推理速度——這在量化領域并不常見。

Cider 并非某一個模型的專屬工具，其服務對象涵蓋了整個 MLX 生態。只要模型已經適配 MLX，開發者只需一行代碼即可接入 Cider 加速：convert_model(model)。

Qwen、Llama、Mistral 等主流開源模型，以及 Qwen3-VL 等 VLM 模型，均可直接受益，接入過程無需修改模型結構。對于 VLM 場景，Cider 還內置了 OpenAI 兼容的推理服務接口，開發者可以直接在本地部署一個支持圖文輸入的推理服務，無需額外適配即可對接現有工具鏈；這對于需要在本地處理截圖、文檔或產品圖的企業應用來說，是一個開箱即用的能力。但需要注意的是，針對 VLM 模型，為避免影響視覺編碼器的精度，官方建議僅對 VLM 中的語言模型部分調用convert_model(language_model)。

值得一提的是，Cider 的量化加速僅作用于 prefill 階段，decode 階段會自動回落到原始權重進行推理，切換零開銷，對輸出質量無任何影響。

Cider 還包含一個實驗性模塊，方向更為大膽。在 Apple 芯片的推理過程中，GPU 和 CPU 是主要的計算單元，而神經網絡引擎（ANE，Apple Neural Engine）幾乎全程閑置。Cider 的實驗性 ANE+GPU 異構并行模塊，嘗試在 prefill 階段將線性層的矩陣運算按輸出維度拆分，ANE 負責約 65% 的通道，GPU 負責剩余 35%，兩者并行運行后合并結果。在 M4 芯片上的 Qwen3-VL-2B prefill 的同步測試中，這種方案相比純 GPU 推理帶來了約 3%~17% 的速度提升。

這個探索仍處于早期階段，尚未實現 MLX 慣用的延遲求值（lazy evaluation），且目前僅在 M4 上經過驗證。但它揭示了一個更長遠的意圖：Mac 上每一塊算力單元都可以用起來。我們十分期待明略團隊未來能基于這一方向，帶來更多突破性的研究發現與技術成果。

Mano-P：讓你的 Mac 長出「手」

與 Cider 同步開源的，還有明略科技的 GUI-VLA 智能體模型 Mano-P 1.0。其中，Mano 是西班牙語里「手」的意思，P 代表 Private。其項目頁面寫到：「我們相信，個體和組織都能夠創造屬于自己的私有 AI，人機協同的美好世界即將到來。」

倉庫地址：https://github.com/Mininglamp-AI/Mano-P

Mano-P 的核心能力是通過純視覺理解，讓 AI 直接看懂屏幕并操作圖形界面（GUI），不依賴 CDP 協議或 HTML 解析，不局限于瀏覽器場景，桌面軟件、Web 系統乃至更復雜的專業工具均可覆蓋。

在全自動編程流水線中，它最直接的價值是替代人工完成 GUI 測試：Claude Code 寫完代碼，Mano-P 接手打開界面、點擊驗證、反饋結果，整個軟件開發閉環不再需要人類介入。要知道，在常規的全自動編程流水線中，GUI 測試消耗的云端 token 占比超過 50%，Mano-P 端側模型將這部分開銷直接歸零。

在 OSWorld 基準測試中，Mano-P 1.0-72B 以 58.2% 的成功率位列所有專用 GUI 智能體模型全球第一，領先第二名逾 13 個百分點；在 WebRetriever Protocol I 上，以 41.7 分超越 Gemini 2.5 Pro Computer Use（40.9）和 Claude 4.5 Computer Use（31.3）。

端側方面，4B 量化模型在 Apple M4 Pro 上可實現 476 tokens/s prefill 和 76 tokens/s 解碼、峰值內存僅 4.3GB，一臺搭載 M4 芯片、32GB 內存的 Mac mini 即可本地運行，所有截圖與任務數據不出設備。相比標準 PyTorch CPU 推理，其端側推理提速 60 倍以上，且 8-bit 量化與全精度輸出保持一致，坐標偏差嚴格控制在 1 像素以內。

而在 Apple M5 Pro + Cider 推理 SDK 組合下，Mano-P 1.0-4B 啟用 Cider 的 W8A8 激活量化后，同一輸入下 prefill 時間從 2.839s 降到 2.519s，prefill 約加速 12.7%。

Mano-P 與 Cider 配合落地的效果，也經過了一輪真實任務的嚴格測試。明略科技圍繞其端到端自動化應用構建流水線 Mano-AFK 構建的五個 Web 應用（涵蓋差旅分賬、訂單管理、家庭記賬等場景），設計了一套包含 100 條任務的 CUA 基準，每條任務都區分「無 bug 版本」和「預注入 bug 版本」，考察模型能否正確判斷應用是否可用。在搭載 MacBook Pro M5（16GB 內存）的設備上，Mano-P 在 W8A16 模式下準確率為 58.0%，而接入 Cider 的 W8A8 模式下準確率為 54.0%。

數據說明了一個值得正視的工程細節：在 16GB 內存的設備上，W8A8 模式需要同時保留原始權重與 INT8 權重，內存占用近似翻倍，在內存偏緊的情況下可能引發換頁，抵消 prefill 階段的加速收益。

官方建議在內存余量超出模型體積 4GB 以上的設備（如 32GB 或更高配置）上使用 W8A8，以充分發揮 Cider 的加速優勢——這恰恰也是 Mano-P 推薦的標準硬件配置。這組數據的意義，不是說明 W8A8 在所有場景下都優于 W8A16，而是說明 Cider 與 Mano-P 的組合在真實任務中已經可以端到端跑通，性能的邊界和適配條件也已經有了明確的工程結論。

文中視頻鏈接：https://mp.weixin.qq.com/s/eLN0bUO-hGAxEwPFQ7zsjg

本視頻展示 Mano-AFK 與 Cider 推理加速 SDK 的聯合能力。Mano-AFK 從一句自然語言需求出發，自主完成需求澄清、架構設計、代碼生成、本地部署，并在 E2E 測試環節調用由 Cider 加速的本地 Mano-P 視覺模型驅動真實瀏覽器完成 GUI 自動化測試；測試失敗時自動定位缺陷、修復代碼并重新驗證，直至交付可運行的應用。Cider 提供 INT8 激活量化原語，讓 Mano-P 在 Apple Silicon 上獲得顯著的 prefill 加速，整個「構建-測試-修復」閉環完全在本地執行，兼顧自主性、隱私與性能。

Mano-P 以 Apache 2.0 協議開源，支持商業使用與二次開發，完整技術棧（含訓練方法、剪枝與量化方案）同樣將后續開源，賦能廣大企業或開發者基于自己的數據訓練定制化 GUI Agent 模型。

更多詳情可見我們之前的專題報道《全球第一，13 個 SOTA！我們找到了龍蝦界掌管 GUI 的神》。

Cider + Mano-P = 快且實用的 Private AI

單獨看 Cider，它是一個面向開發者的推理加速工具，受益的是所有跑在 Mac 上的 MLX 模型。單獨看 Mano-P，它是一個 GUI 智能體，價值在于特定的自動化場景。

但把兩者放在一起，指向的是同一件事：Private AI——讓 AI 真正屬于使用它的人，而不是服務提供商。

這個理念，在明略科技此前對 Mano-P 的闡述中已經有過完整表達，彼時稱為 Personal AI。「AI for personal，不是說每個人可以用 AI，是每個人可以做 AI」。這句話的核心是 AI 的所有權問題。當所有人都調用同一個云端模型，AI 只是一種服務；而當模型跑在你自己的設備上、適應你的數據和場景，AI 才能成為真正意義上「屬于你的工具」。

Private AI 是這一理念的延續和深化：Private 不只意味著私密，更意味著私有：數據私有、推理私有、能力私有。

Cider 解決的是「速度」問題：讓端側推理足夠快，讓本地運行不再是對云端的妥協，而是一個真實的工程選項。
Mano-P 解決的是「場景」問題：證明端側 AI 可以在一個具體的、高價值的場景里真正可用。

兩者疊加，才讓「數據零上云」從安全口號變成可以被實際部署的工程方案：不調 API，不傳截圖，不花一分錢，成本可控、離線可用、數據完全自主。純視覺感知與極速本地推理的結合，讓數據隱私從一種承諾變成了物理隔離的必然。端側不是縮水版 AI，而是下一階段 AI 落地的重要形態！

這也是 Apple Silicon 生態里值得關注的一個位置。Apple 自身在 MLX 方向上持續加碼；在剛結束的 ICLR 2026 大會上，Apple 在展位演示的核心內容之一，正是 MLX 在 MacBook Pro M5 上的本地 LLM 推理能力。

而 Cider 做的事，是在 Apple 官方生態已經建好的地基上，補齊了官方框架尚未覆蓋的那一層：讓 Apple 自家芯片里的專用硬件，被更充分地利用起來。用明略科技自己的說法：「我們擁抱了 Apple 的官方開源生態，并且比 Apple 原生框架把硬件潛能激發得更徹底。」

基于 Private AI 的未來……

在我們之前對明略集團副總裁，多模態首席科學家趙晨旭的采訪中，他描述了一個即將到來的使用場景：假設你有一個公司內部的保密系統，需要讓 AI 幫你操作。現有的方式，是把賬號密碼以明文寫進 AI 的記憶文件里，安全隱患顯而易見。

但如果模型跑在本地，就有了另一種可能：直接通過自然語言告訴它「把這個密碼記進你的參數」，模型自動觸發學習流程，把這段信息訓練進自己的權重，而不是存成可以被讀取的明文。你再問它密碼，它說不知道；讓它去登錄，它卻能做到。

這套能力，明略科技將其稱為Auto Agent Learning。據了解，這也是他們即將公布的下一個技術方向。

Auto Agent Learning 要解決的核心問題是：如何讓一個跑在本地的小模型，能夠在用戶自己的設備上，用自然語言持續更新參數，進而適應用戶的私有場景、工作習慣和專屬數據。

正如前文在探討 Private AI 時所提及的，這不僅是隱私保護，更是對 AI 所有權的重新定義：你將告別傳統的 AI 服務調用模式，轉為培養一個完全專屬的智能體；因為模型是基于你的個人數據與習慣進行本地演進的，它真正實現了從「屬于你」向「更懂你」的跨越。它會跟著你的使用場景持續成長，最終蛻變為最契合你個人需求的專屬形態。

Cider 和 Mano-P 是這條路上已經落地的兩步棋。Cider 讓本地推理足夠快，讓模型能在你的蘋果設備上快速響應；Mano-P 讓模型能看懂屏幕、操作界面，打通從「理解」到「行動」的最后一步。兩者都以開源協議發布，向更廣泛的開發者遞出了邀請。

而 Auto Agent Learning 是這條路上下一塊被等待著放下的棋子。

當模型跑在用戶自己的設備上，當它能夠在用戶場景里持續學習和進化，Private AI 才會從一個概念變成可以被每個人真正擁有的東西。

Private AI 無疑是未來不可忽視的重要趨勢之一，令人欣慰的是，我們已經在這條通往個人專屬智能的道路上，看到了先行者的身影。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.