網易首頁 > 網易號 > 正文申請入駐

8G 內存的手機，能跑多大的模型？｜MiniCPM-V 4.6 開源

2026-05-13 12:07:42　來源: 賽博禪心

北京舉報

分享至

端側模型

面壁的 MiniCPM-V 4.6 今天開源，1.3B 大小

這是 MiniCPM 系列的模型，能夠輕松跑在主流手機中，支持多模態

架構是 SigLIP2-400M 視覺編碼器加 Qwen3.5-0.8B 語言模型。多模態綜合能力在同尺寸模型中排第一，與原版的 Qwen3.5-0.8B 相比，有以下核心突破：

基于 vLLM 的 token 吞吐量，是 Qwen3.5-0.8B 的 1.5 倍
在 AA 評測中，以 2.5% 的token量，超過了Qwen3.5-0.8B

然后，今天就能把這款端側模型，下載到手機里：http://testflight.apple.com/join/yNKyFZwW

以上為該模型的簡明信息，下面的內容，則是能成為大家的飯桌談資

8G 內存，能跑多大的模型？
為什么模型需要量化，怎么進行換算？
未來幾年，為啥我們只能跑 1B 的端側模型？
端側模型的技術實現，有哪些要點？

模型占多少內存

我盡量用簡單的語言，解釋模型尺寸和內存占用的關系，這里我先放一張圖，幫助大家直觀理解，在常見的 int4 量化下，不同尺寸的模型要多少內存

在上面的圖里，你會發現模型的內存占用分為兩塊：模型權重 + KV Cache。前者是模型裝載所需要的內存，而后者則是上下文長度所需要的內存，咱們分開來說

模型權重

模型訓練完之后，默認用 16 位浮點數（FP16）存儲。對于純粹的語言模型來說，一個參數占 2 個字節，1.3B 參數就是 2.6GB，8B 參數就是 16GB

對于 DeepSeek R1 這個模型，它的默認大小是 671B，也就是需要 1342 GB 內存的顯卡才能跑起來...等等！這似乎和大家的記憶不對，看之前很多人拿著 192 GB 的 Mac 就跑起來 R1 了，這是怎么回事兒？

這里用到了一種手段，叫量化：減少參數的儲存位數，把模型權重壓小

比如 FP16 用 16 位存一個小數，能表示 65,536 種不同的值，現在給他壓到 8 位（Q8 或 INT8），只能表示 256 種值，存儲空間減半。壓到 4 位（Q4 或 INT4），只能表示 16 種值，空間再減半；當然，還可以繼續還可以繼續壓到 3 位、2 位...那么，量化代價是什么？精度下降得越來越快，也就是變笨了

誒...好像在看到量化的時候，大家好像對于精度的說法好像不太一樣，比如 4-bit 量化，有的地方說什么 int4，有的地方說什么 Q4，這特么又是什么東西？其實這是兩套常見標準，同一個精度等級、不同工具鏈里，叫的不同名字：

Q 系列（Q2、Q3、Q4、Q5、Q8）是 llama.cpp 和 Ollama 用的 GGUF 格式，手機和 PC 本地部署走這條路
INT 系列（INT4、INT8）是 vLLM 和 TensorRT 用的標準整數量化，云端部署走這個

雖然不是等價，但這些東西大致是屬于同一檔的：Q4_K_M 對應的是 INT4，Q8_0 則是對應 INT8

此外比如 AWQ 和 GPTQ，也是 4-bit 量化，原理不同但精度等級和 INT4 / Q4 一樣.... Q4、INT4、AWQ、GPTQ 四個名字會以為是四種不同的東西，但他們都是 4-bit 量化，區別在實現方式和適配的推理框架，這里我做了一個精度對照表，給大家看看

而在往下的這張表，則是列了從 2-bit 到 FP16，不同參數的模型，能吃掉多少內存

KV Cache

在我們調用模型的時候，總能看到模型有個「最大上下文」，為什么要有這個限制呢？甚至有些 MaaS 平臺，在上下文過長的時候，還會額外進行收費，這又是為什么呢？

原理其實可以用一句話解釋：長上下文，會有更多的 KV Cache，會占用更多的內存，推理會更高

KV Cache 是啥呢？在模型跑起來之后，所有的上下文信息，都會以 token 的形式在內存里存一份 Key 和一份 Value，用來做注意力計算，然后不斷的推導出下一個 Token 是什么。因此，上下文越長，占的內存就越大

對了，大模型生成 Token 的原理之前有聊過，沒印象的可以來這里復習：

這里我做了一張圖，直觀比較一下不同長度上下文的話，會占據多少內存

當然，上面這些是按典型 dense Transformer 結構做的近似估算，實際 KV Cache 會隨層數、KV heads、head dim、GQA/MQA 結構、batch size 和 KV dtype 變化，這里就不展開了

除了常規的文本 KV Cache 外，多模態模型還有一些額外開銷，就是視覺 token。這個東西和文本一樣占 KV Cache，數量取決于圖片分辨率和壓縮方式

手機只跑得動 1B

那么問題回來了，現在一部主流的手機，能跑得下多大的模型呢？

現在的主打款手機，比如 iPhone 17，運行內存（RAM）通常是 8 GB 左右。在這里，系統和常駐的 App 通常會吃掉一半多的內存，能分給大模型的也就是 2～3GB。對著看上面的內存表，1.3B 的模型還是非常夠吃的，2B 開始可能就會緊張了

對于主流新機來說，2B 以內的模型，是當下唯一的選擇

如果把視角放寬，希望大多數人都能用上端側算力，哪又將如何呢？對于最廣泛存在的中端手機，本身只有大概 6GB RAM，1B 可能就是唯一的選擇

或許有的朋友可能會問：以后大家的運行內存，會不會大一些？啊哈哈哈哈哈哈，最近半年 DDR5 內存價格漲的親媽不認，各廠商比如三星、海力士、鎂光等等的都把產能丟去了做 AI 用的 HBM，短時間似乎也不太可能有更多的消費級內存流出

也就是說：未來兩年內存都不太會寬裕，那么手機上能跑的多模態模型大概就是 1～2B

順便吐槽下...這兩天谷歌 Pixel 11 配置曝光，由于內存不夠用的，標準版 RAM 從 12GB 砍到 8GB，Pro 系列從 16GB 降到 12GB。同一時間，國內多家手機廠商也在今年 3 月調了價

更大但更快

回過頭來讓我們在仔細看看 MiniCPM-V 4.6 這款 1.3B 的模型，在 vLLM 上跑高并發測試（256 張 1344×1344 圖片并發），單卡 token 吞吐量達到 2624 token/s。處理 3136×3136 分辨率的高清大圖，首次響應延遲 75.7ms，并且對于高分辨率的圖片，支持優化還很不錯

首響延遲隨分辨率變化

高并發吞吐量

根據公開的 40 多項 benchmark，MiniCPM-V 4.6 綜合能力在 1B 級別排第一，多數圖文理解任務領先

綜合性能 Instruct 對比

Artificial Analysis Intelligence Index

此外，這個模型還有個 Thinking 版本，開啟后在數學和邏輯任務上有額外提升

與這個這個模型一起發布的，還有個 arXiv peper，是面壁聯合清華一起發的，在這里：https://arxiv.org/abs/2605.08985

這個 Paper 里有幾個發現，我也給摘出來

切片編碼比全局編碼好 在做了大量對照實驗后，研究團隊發現，在全局編碼下，文字、圖表這類精細元素容易被全局信息稀釋。切片編碼讓編碼器專注于每個小區域內的細粒度模式，分辨率越高優勢越大

LLaVA-UHD v4 架構

把壓縮從 ViT 外面搬到 ViT 里面，能夠有效的降低浮點運算 研究團隊把一個 4 倍壓縮模塊插到 ViT 的第 6 層之后。從第 7 層開始，后面所有層只需要處理原來 1/4 的 token。視覺編碼階段的浮點運算量從 3555G 降到 1573G，減了 55.8%。疊加 4 倍的 post-ViT MLP 壓縮后，總共是 16 倍壓縮

不要隨機初始化，而是參數復用：直接隨機的話，會炸；但如果把壓縮模塊的注意力投影、MLP 權重全部從相鄰的預訓練層拷貝過來。這樣壓縮模塊從第一步訓練開始就在預訓練的表征流形上工作，不需要從零學習

還有一點就是：16 倍壓縮，在云端高并發場景，能夠發揮很大價值，快手 2025 年推出的 OneRec 推薦大模型，處理短視頻的封面圖、字幕、OCR、ASR 這些多模態信息時，用的就是上一代 MiniCPM-V-8B。OneRec 上線后承接了快手短視頻推薦主場景 25% 的請求量

快手 OneRec 論文

OneRec tokenizer 架構

4090 就能微調

考慮到這個 1.3B 的模型實在是太小了，所以 4090 就能進行全量微調

所以吧...如果你正在讀書，現在有正當的理由去買 4090 了 hhhhhh

為了方便大家上手，面壁在微調這塊，提供了多種量化格式的預量化模型，以及部署教程也放出來了：

→ vLLM：github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/vllm/minicpm-v4_6_vllm_zh.md

→ llama.cpp：github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/llama.cpp/minicpm-v4_6_llamacpp.md

→ Ollama：github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/ollama/minicpm-v4_6_ollama_zh.md

→ iOS TestFlight：testflight.apple.com/join/yNKyFZwW

最后

MiniCPM-V 這個系列的模型，參數量從 2.8B 做到 8B 再壓到 1.3B，也算是見證了行業的趨勢，現在內存越來越貴，這種小尺寸的模型，還是值得一看的

以及，MiniCPM 這套東西，雖然媒體聲量不大，但實際上非常多的車機在用，包括不僅限于吉利、上汽大眾、廣汽、馬自達、紅旗等等...

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.