端側模型
面壁的 MiniCPM-V 4.6 今天開源,1.3B 大小
這是 MiniCPM 系列的模型,能夠輕松跑在主流手機中,支持多模態
架構是 SigLIP2-400M 視覺編碼器加 Qwen3.5-0.8B 語言模型。多模態綜合能力在同尺寸模型中排第一,與原版的 Qwen3.5-0.8B 相比,有以下核心突破:
基于 vLLM 的 token 吞吐量,是 Qwen3.5-0.8B 的 1.5 倍
在 AA 評測中,以 2.5% 的token量,超過了Qwen3.5-0.8B
然后,今天就能把這款端側模型,下載到手機里:http://testflight.apple.com/join/yNKyFZwW
![]()
以上為該模型的簡明信息,下面的內容,則是能成為大家的飯桌談資
8G 內存,能跑多大的模型?
為什么模型需要量化,怎么進行換算?
未來幾年,為啥我們只能跑 1B 的端側模型?
端側模型的技術實現,有哪些要點?
模型占多少內存
我盡量用簡單的語言,解釋模型尺寸和內存占用的關系,這里我先放一張圖,幫助大家直觀理解,在常見的 int4 量化下,不同尺寸的模型要多少內存
![]()
在上面的圖里,你會發現模型的內存占用分為兩塊:模型權重 + KV Cache。前者是模型裝載所需要的內存,而后者則是上下文長度所需要的內存,咱們分開來說
模型權重
模型訓練完之后,默認用 16 位浮點數(FP16)存儲。對于純粹的語言模型來說,一個參數占 2 個字節,1.3B 參數就是 2.6GB,8B 參數就是 16GB
對于 DeepSeek R1 這個模型,它的默認大小是 671B,也就是需要 1342 GB 內存的顯卡才能跑起來...等等!這似乎和大家的記憶不對,看之前很多人拿著 192 GB 的 Mac 就跑起來 R1 了,這是怎么回事兒?
這里用到了一種手段,叫量化:減少參數的儲存位數,把模型權重壓小
比如 FP16 用 16 位存一個小數,能表示 65,536 種不同的值,現在給他壓到 8 位(Q8 或 INT8),只能表示 256 種值,存儲空間減半。壓到 4 位(Q4 或 INT4),只能表示 16 種值,空間再減半;當然,還可以繼續還可以繼續壓到 3 位、2 位...那么,量化代價是什么?精度下降得越來越快,也就是變笨了
誒...好像在看到量化的時候,大家好像對于精度的說法好像不太一樣,比如 4-bit 量化,有的地方說什么 int4,有的地方說什么 Q4,這特么又是什么東西?其實這是兩套常見標準,同一個精度等級、不同工具鏈里,叫的不同名字:
Q 系列(Q2、Q3、Q4、Q5、Q8)是 llama.cpp 和 Ollama 用的 GGUF 格式,手機和 PC 本地部署走這條路
INT 系列(INT4、INT8)是 vLLM 和 TensorRT 用的標準整數量化,云端部署走這個
雖然不是等價,但這些東西大致是屬于同一檔的:Q4_K_M 對應的是 INT4,Q8_0 則是對應 INT8
此外比如 AWQ 和 GPTQ,也是 4-bit 量化,原理不同但精度等級和 INT4 / Q4 一樣.... Q4、INT4、AWQ、GPTQ 四個名字會以為是四種不同的東西,但他們都是 4-bit 量化,區別在實現方式和適配的推理框架,這里我做了一個精度對照表,給大家看看
![]()
而在往下的這張表,則是列了從 2-bit 到 FP16,不同參數的模型,能吃掉多少內存
![]()
KV Cache
在我們調用模型的時候,總能看到模型有個「最大上下文」,為什么要有這個限制呢?甚至有些 MaaS 平臺,在上下文過長的時候,還會額外進行收費,這又是為什么呢?
原理其實可以用一句話解釋:長上下文,會有更多的 KV Cache,會占用更多的內存,推理會更高
KV Cache 是啥呢?在模型跑起來之后,所有的上下文信息,都會以 token 的形式在內存里存一份 Key 和一份 Value,用來做注意力計算,然后不斷的推導出下一個 Token 是什么。因此,上下文越長,占的內存就越大
對了,大模型生成 Token 的原理之前有聊過,沒印象的可以來這里復習:
這里我做了一張圖,直觀比較一下不同長度上下文的話,會占據多少內存
![]()
當然,上面這些是按典型 dense Transformer 結構做的近似估算,實際 KV Cache 會隨層數、KV heads、head dim、GQA/MQA 結構、batch size 和 KV dtype 變化,這里就不展開了
除了常規的文本 KV Cache 外,多模態模型還有一些額外開銷,就是視覺 token。這個東西和文本一樣占 KV Cache,數量取決于圖片分辨率和壓縮方式
手機只跑得動 1B
那么問題回來了,現在一部主流的手機,能跑得下多大的模型呢?
現在的主打款手機,比如 iPhone 17,運行內存(RAM)通常是 8 GB 左右。在這里,系統和常駐的 App 通常會吃掉一半多的內存,能分給大模型的也就是 2~3GB。對著看上面的內存表,1.3B 的模型還是非常夠吃的,2B 開始可能就會緊張了
對于主流新機來說,2B 以內的模型,是當下唯一的選擇
![]()
如果把視角放寬,希望大多數人都能用上端側算力,哪又將如何呢?對于最廣泛存在的中端手機,本身只有大概 6GB RAM,1B 可能就是唯一的選擇
或許有的朋友可能會問:以后大家的運行內存,會不會大一些?啊哈哈哈哈哈哈,最近半年 DDR5 內存價格漲的親媽不認,各廠商比如三星、海力士、鎂光等等的都把產能丟去了做 AI 用的 HBM,短時間似乎也不太可能有更多的消費級內存流出
也就是說:未來兩年內存都不太會寬裕,那么手機上能跑的多模態模型大概就是 1~2B
順便吐槽下...這兩天谷歌 Pixel 11 配置曝光,由于內存不夠用的,標準版 RAM 從 12GB 砍到 8GB,Pro 系列從 16GB 降到 12GB。同一時間,國內多家手機廠商也在今年 3 月調了價
更大但更快
回過頭來讓我們在仔細看看 MiniCPM-V 4.6 這款 1.3B 的模型,在 vLLM 上跑高并發測試(256 張 1344×1344 圖片并發),單卡 token 吞吐量達到 2624 token/s。處理 3136×3136 分辨率的高清大圖,首次響應延遲 75.7ms,并且對于高分辨率的圖片,支持優化還很不錯
![]()
首響延遲隨分辨率變化
![]()
高并發吞吐量
根據公開的 40 多項 benchmark,MiniCPM-V 4.6 綜合能力在 1B 級別排第一,多數圖文理解任務領先
![]()
綜合性能 Instruct 對比
![]()
Artificial Analysis Intelligence Index
此外,這個模型還有個 Thinking 版本,開啟后在數學和邏輯任務上有額外提升
![]()
與這個這個模型一起發布的,還有個 arXiv peper,是面壁聯合清華一起發的,在這里:https://arxiv.org/abs/2605.08985
![]()
這個 Paper 里有幾個發現,我也給摘出來
切片編碼比全局編碼好 在做了大量對照實驗后,研究團隊發現,在全局編碼下,文字、圖表這類精細元素容易被全局信息稀釋。切片編碼讓編碼器專注于每個小區域內的細粒度模式,分辨率越高優勢越大
![]()
LLaVA-UHD v4 架構
把壓縮從 ViT 外面搬到 ViT 里面,能夠有效的降低浮點運算 研究團隊把一個 4 倍壓縮模塊插到 ViT 的第 6 層之后。從第 7 層開始,后面所有層只需要處理原來 1/4 的 token。視覺編碼階段的浮點運算量從 3555G 降到 1573G,減了 55.8%。疊加 4 倍的 post-ViT MLP 壓縮后,總共是 16 倍壓縮
不要隨機初始化,而是參數復用:直接隨機的話,會炸;但如果把壓縮模塊的注意力投影、MLP 權重全部從相鄰的預訓練層拷貝過來。這樣壓縮模塊從第一步訓練開始就在預訓練的表征流形上工作,不需要從零學習
還有一點就是:16 倍壓縮,在云端高并發場景,能夠發揮很大價值,快手 2025 年推出的 OneRec 推薦大模型,處理短視頻的封面圖、字幕、OCR、ASR 這些多模態信息時,用的就是上一代 MiniCPM-V-8B。OneRec 上線后承接了快手短視頻推薦主場景 25% 的請求量
![]()
快手 OneRec 論文
![]()
OneRec tokenizer 架構
4090 就能微調
考慮到這個 1.3B 的模型實在是太小了,所以 4090 就能進行全量微調
所以吧...如果你正在讀書,現在有正當的理由去買 4090 了 hhhhhh
為了方便大家上手,面壁在微調這塊,提供了多種量化格式的預量化模型,以及部署教程也放出來了:
→ vLLM:github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/vllm/minicpm-v4_6_vllm_zh.md
→ llama.cpp:github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/llama.cpp/minicpm-v4_6_llamacpp.md
→ Ollama:github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/ollama/minicpm-v4_6_ollama_zh.md
→ iOS TestFlight:testflight.apple.com/join/yNKyFZwW
最后
MiniCPM-V 這個系列的模型,參數量從 2.8B 做到 8B 再壓到 1.3B,也算是見證了行業的趨勢,現在內存越來越貴,這種小尺寸的模型,還是值得一看的
以及,MiniCPM 這套東西,雖然媒體聲量不大,但實際上非常多的車機在用,包括不僅限于吉利、上汽大眾、廣汽、馬自達、紅旗等等...
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.