開發(fā)者 jola 分享了自己在M4 MacBook Pro(24GB 內(nèi)存)上運(yùn)行本地大語(yǔ)言模型的完整實(shí)踐經(jīng)驗(yàn)。在經(jīng)歷了多次模型選型、量化配置和前端適配的試錯(cuò)后,他最終搭建出了一套「不需要聯(lián)網(wǎng)、能在筆記本上流暢運(yùn)行」的本地 AI 工作流——核心模型是Qwen 3.5-9B(Q4_K_S 量化版),在 LM Studio 中跑出了約40 tokens/秒的生成速度,同時(shí)支持思維鏈(thinking)和工具調(diào)用(tool use)。
![]()
M4 MacBook Pro本地運(yùn)行大模型
選型之路:不是「能裝下」就能用
本地部署大模型的第一道坎是選型。jola 嘗試過(guò)多種方案:Ollama、llama.cpp、LM Studio,各自有不同的模型兼容性和配置 quirks。模型方面,他先后測(cè)試了 Qwen 3.6 Q3、GPT-OSS 20B、Devstral Small 24B 以及 Gemma 4B——前幾個(gè)雖然理論上能在 24GB 內(nèi)存中加載,但實(shí)際運(yùn)行中「基本不可用」;Gemma 4B 能跑,但在工具調(diào)用場(chǎng)景下表現(xiàn)糟糕。
真正讓他滿意的是Qwen 3.5-9B @ Q4_K_S。這個(gè)量化版本在壓縮后仍能保留足夠的推理能力,同時(shí)留出足夠內(nèi)存給日常運(yùn)行的 Electron 應(yīng)用和其他開發(fā)工具。更關(guān)鍵的是,它支持128K 的上下文窗口,對(duì)于代碼分析和文檔閱讀場(chǎng)景非常實(shí)用。
配置細(xì)節(jié):Thinking 模式與代碼優(yōu)化參數(shù)
在 LM Studio 中,jola 為代碼和精確任務(wù)場(chǎng)景推薦了一組參數(shù)配置:
- temperature=0.6
- top_p=0.95
- top_k=20
- min_p=0.0
- presence_penalty=0.0
- repetition_penalty=1.0
啟用 thinking 模式還需要在 Prompt Template 底部手動(dòng)添加{%- set enable_thinking = true %}。這些細(xì)節(jié)說(shuō)明,本地模型的「可用性」不僅取決于硬件和模型本身,前端推理引擎的配置同樣關(guān)鍵。
前端接入:Pi 與 OpenCode
模型跑起來(lái)后,jola 將其接入了兩個(gè)開發(fā)向 AI 前端:
Pi的配置相對(duì)簡(jiǎn)潔,通過(guò)~/.pi/agent/models.json指向 LM Studio 的本地 OpenAI-compatible API(http://localhost:1234/v1),并在 settings 中開啟hideThinkingBlock來(lái)隱藏思維鏈的干擾輸出。
OpenCode的配置則更加明確,指定了 131072 的上下文長(zhǎng)度和 32768 的最大輸出 token 數(shù),同時(shí)開啟 tools 支持。
jola 的個(gè)人感受是 Pi 更輕快,但配置過(guò)程容易讓人陷入「調(diào)參陷阱」——花太多時(shí)間打磨工具設(shè)置,反而擠占了實(shí)際開發(fā)的時(shí)間。
與 SOTA 模型的差距:不是替代品,是另一種工作方式
jola 非常坦誠(chéng)地指出了本地模型與云端 SOTA 模型的差距:Qwen 3.5-9B(Q4)無(wú)法獨(dú)立完成復(fù)雜的多步驟任務(wù),容易分心、陷入循環(huán)、誤解需求。如果你期望像使用 Claude 或 GPT-4 那樣「一句話生成整個(gè)應(yīng)用」,本地模型會(huì)讓你失望。
但 jola 發(fā)現(xiàn)了一個(gè)意想不到的好處:本地模型迫使你保持更高的參與度。與 SOTA 模型合作時(shí),開發(fā)者很容易不自覺地將所有認(rèn)知負(fù)擔(dān)外包給 AI;而本地模型需要更明確的指令、更細(xì)致的引導(dǎo),反而讓開發(fā)者始終處于思考和規(guī)劃的核心位置。它更像一個(gè)「研究助理、橡皮鴨、以及擁有即時(shí)回憶能力的編程語(yǔ)言專家」,而不是一個(gè)能替你思考的「全棧外包」。
對(duì)于擁有 24GB 內(nèi)存的 M 系列 MacBook 用戶來(lái)說(shuō),這套方案提供了一個(gè)切實(shí)可行的「離線 AI 助手」選項(xiàng)。它不需要訂閱費(fèi)、不依賴網(wǎng)絡(luò)、不將數(shù)據(jù)發(fā)送到第三方服務(wù)器——代價(jià)是你必須接受它的能力上限,并愿意付出更多的交互精力。在大模型越來(lái)越「黑箱化」和「云端化」的今天,這種「可控但有限」的本地方案,或許代表了一種值得保留的替代路徑。
參考來(lái)源:jola.dev - Running local models on an M4:https://jola.dev/posts/running-local-models-on-m4
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.