網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

在24GB M4 MacBook上跑本地大模型：Qwen 3.5-9B實(shí)測(cè)40 tokens/s，支持工具調(diào)用

2026-05-11 11:54:09　來(lái)源: 開源中國(guó)

廣東舉報(bào)

分享至

開發(fā)者 jola 分享了自己在M4 MacBook Pro（24GB 內(nèi)存）上運(yùn)行本地大語(yǔ)言模型的完整實(shí)踐經(jīng)驗(yàn)。在經(jīng)歷了多次模型選型、量化配置和前端適配的試錯(cuò)后，他最終搭建出了一套「不需要聯(lián)網(wǎng)、能在筆記本上流暢運(yùn)行」的本地 AI 工作流——核心模型是Qwen 3.5-9B（Q4_K_S 量化版），在 LM Studio 中跑出了約40 tokens/秒的生成速度，同時(shí)支持思維鏈（thinking）和工具調(diào)用（tool use）。

M4 MacBook Pro本地運(yùn)行大模型

選型之路：不是「能裝下」就能用

本地部署大模型的第一道坎是選型。jola 嘗試過(guò)多種方案：Ollama、llama.cpp、LM Studio，各自有不同的模型兼容性和配置 quirks。模型方面，他先后測(cè)試了 Qwen 3.6 Q3、GPT-OSS 20B、Devstral Small 24B 以及 Gemma 4B——前幾個(gè)雖然理論上能在 24GB 內(nèi)存中加載，但實(shí)際運(yùn)行中「基本不可用」；Gemma 4B 能跑，但在工具調(diào)用場(chǎng)景下表現(xiàn)糟糕。

真正讓他滿意的是Qwen 3.5-9B @ Q4_K_S。這個(gè)量化版本在壓縮后仍能保留足夠的推理能力，同時(shí)留出足夠內(nèi)存給日常運(yùn)行的 Electron 應(yīng)用和其他開發(fā)工具。更關(guān)鍵的是，它支持128K 的上下文窗口，對(duì)于代碼分析和文檔閱讀場(chǎng)景非常實(shí)用。

配置細(xì)節(jié)：Thinking 模式與代碼優(yōu)化參數(shù)

在 LM Studio 中，jola 為代碼和精確任務(wù)場(chǎng)景推薦了一組參數(shù)配置：

temperature=0.6
top_p=0.95
top_k=20
min_p=0.0
presence_penalty=0.0
repetition_penalty=1.0

啟用 thinking 模式還需要在 Prompt Template 底部手動(dòng)添加{%- set enable_thinking = true %}。這些細(xì)節(jié)說(shuō)明，本地模型的「可用性」不僅取決于硬件和模型本身，前端推理引擎的配置同樣關(guān)鍵。

前端接入：Pi 與 OpenCode

模型跑起來(lái)后，jola 將其接入了兩個(gè)開發(fā)向 AI 前端：

Pi的配置相對(duì)簡(jiǎn)潔，通過(guò)~/.pi/agent/models.json指向 LM Studio 的本地 OpenAI-compatible API（http://localhost:1234/v1），并在 settings 中開啟hideThinkingBlock來(lái)隱藏思維鏈的干擾輸出。

OpenCode的配置則更加明確，指定了 131072 的上下文長(zhǎng)度和 32768 的最大輸出 token 數(shù)，同時(shí)開啟 tools 支持。

jola 的個(gè)人感受是 Pi 更輕快，但配置過(guò)程容易讓人陷入「調(diào)參陷阱」——花太多時(shí)間打磨工具設(shè)置，反而擠占了實(shí)際開發(fā)的時(shí)間。

與 SOTA 模型的差距：不是替代品，是另一種工作方式

jola 非常坦誠(chéng)地指出了本地模型與云端 SOTA 模型的差距：Qwen 3.5-9B（Q4）無(wú)法獨(dú)立完成復(fù)雜的多步驟任務(wù)，容易分心、陷入循環(huán)、誤解需求。如果你期望像使用 Claude 或 GPT-4 那樣「一句話生成整個(gè)應(yīng)用」，本地模型會(huì)讓你失望。

但 jola 發(fā)現(xiàn)了一個(gè)意想不到的好處：本地模型迫使你保持更高的參與度。與 SOTA 模型合作時(shí)，開發(fā)者很容易不自覺地將所有認(rèn)知負(fù)擔(dān)外包給 AI；而本地模型需要更明確的指令、更細(xì)致的引導(dǎo)，反而讓開發(fā)者始終處于思考和規(guī)劃的核心位置。它更像一個(gè)「研究助理、橡皮鴨、以及擁有即時(shí)回憶能力的編程語(yǔ)言專家」，而不是一個(gè)能替你思考的「全棧外包」。

對(duì)于擁有 24GB 內(nèi)存的 M 系列 MacBook 用戶來(lái)說(shuō)，這套方案提供了一個(gè)切實(shí)可行的「離線 AI 助手」選項(xiàng)。它不需要訂閱費(fèi)、不依賴網(wǎng)絡(luò)、不將數(shù)據(jù)發(fā)送到第三方服務(wù)器——代價(jià)是你必須接受它的能力上限，并愿意付出更多的交互精力。在大模型越來(lái)越「黑箱化」和「云端化」的今天，這種「可控但有限」的本地方案，或許代表了一種值得保留的替代路徑。

參考來(lái)源：jola.dev - Running local models on an M4：https://jola.dev/posts/running-local-models-on-m4

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.