網易首頁 > 網易號 > 正文申請入駐

清華系團隊出手！一張 4090 即可「爆改」，1.3B小鋼炮震撼開源

2026-05-13 12:11:23　來源: 新智元

北京舉報

分享至

新智元報道

編輯：YHluck

【新智元導讀】端側多模態，卷出新天花板。僅1.3B，性能反超，效率翻倍，一張4090就能「爆改」。剛剛，清華系團隊面壁智能開源了新一代「小鋼炮」MiniCPM-V 4.6，再次證明了在端側AI領域，中國團隊已然站在世界前沿。

想象一下：你將一支筆放進裝滿水的玻璃杯，用手機拍下照片，然后問它：「這個現象的原因是什么」？

幾秒鐘后，手機屏幕上出現了「光的折射」的準確回答和原理解釋，視覺問答表現驚人：

還有機票識別，文字提取精準：

整個過程絲滑流暢，沒有聯網，沒有等待云端服務器的響應，不產生天價token賬單。

而實現這一切的，不是云端某個需要排隊等API的千億參數模型，而是一個剛剛開源、僅有1.3B的「小鋼炮」——MiniCPM-V 4.6。

5月11日，「國產端側大模型擔當」面壁智能聯合清華大學、OpenBMB開源社區正式開源了新一代端側多模態大模型MiniCPM-V 4.6。

MiniCPM-V 4.6一經發布，立即給1B量級多模態模型重新劃定了起跑線，給日趨白熱化的端側AI賽道投下了一枚重磅炸彈！

它不僅在性能上全面超越了阿里 Qwen3.5-0.8B和谷歌Gemma4-E2B-it等同級對手，更在效率上實現了驚人的「反超」——參數更大，跑得卻更快。

這波操作，直接打破了行業里「小尺寸=閹割版」的常規認知。

MiniCPM-V 4.6用扎實硬核的數據向行業證明：1B級模型，也可以是性能強悍、足以在端云兩棲部署的工業級武器。

此外，在尺寸上，MiniCPM-V 4.6是MiniCPM-V系列模型上有史以來參數規模最小的模型，只有1B左右，但智能密度卻為同尺寸模型范圍內最高，這再次驗證了面壁智能在2024年提出并登上Nature子刊的「密度定律」。

根據Artificial Analysis（AA）榜單評測，MiniCPM-V 4.6 1.3B（非推理版本）的運行僅消耗5.4M token量，僅為Qwen3.5-0.8B（非推理版本，101M）的1/19、Qwen 3.5-0.8B（推理版本，233M）的1/43：

Hugging Face：

https://huggingface.co/openbmb/MiniCPM-V-4.6

GitHub：

https://github.com/OpenBMB/MiniCPM-V

Modelscope：

https://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6

Web Demo：

https://huggingface.co/spaces/openbmb/MiniCPM-V-4.6-Demo

APP Demo：

https://github.com/OpenBMB/MiniCPM-V-Apps

性能越級，效率反超

體感是最終標準

Talk is cheap，直接上數據。

在多個主流Benchmark上，MiniCPM-V 4.6的表現突出一個「反常識」。

無論是做通用圖文理解、解數學題，還是搞文檔OCR，它的Instruct版和Thinking版基本都是亂殺局，全面碾壓Qwen3.5-0.8B與Gemma4-E2B-it。

在更看綜合實力的Artificial Analysis（AA）榜單上，MiniCPM-V 4.6的得分也表現出色，領先Mistral 3 3B、Qwen 3.5-0.8B等在內的一眾模型一個身位，成為了1B多模態大模型賽道的「新科狀元」！

但真正讓技術圈高潮的，是它的效率！

推理吞吐量：直接干到1.5倍

拿一張4090跑高并發，MiniCPM-V 4.6處理高清圖的吞吐量是Qwen3.5-0.8B 的1.5倍。

什么概念？一樣的服務器成本，你能扛住過去1.5倍的用戶流量。對于SaaS服務來說，這就是赤裸裸的利潤。

首響延遲（TTFT）：延遲曲線被拉直了！

處理31362的超高清大圖，它的首響延遲比對手快了2.2倍。更驚人的是，當圖片分辨率暴漲49倍，它的延遲增長居然不到2.5倍。

這條幾乎被「拉直」的延遲曲線，意味著你的4090無論加載多大的圖，用戶體感都差不多——一個字，穩！

這兩個維度共同指向同一個結論：MiniCPM-V 4.6用更短的視覺序列和更小的 KV-Cache，把端側體感與云側ROI同時推到了新的高度。

對端側產品而言，這意味著流暢；對云端工業場景而言，這意味著同等成本下的吞吐翻倍。

參數更大，跑得更快，這聽起來就像是物理學不存在了。但這背后，是兩個非常硬核的架構創新。

技術深扒：這效率「外掛」是怎么開的？

為什么一個比Qwen3.5-0.8B參數更大的模型，反而跑得更快？

答案藏在MiniCPM-V 4.6的兩項核心架構創新里：一個是ViT架構創新，另一個是4倍/16倍混合視覺token壓縮率。

ViT架構重構

LLaVA-UHD v4開路

傳統ViT（視覺編碼器）在編碼圖像時，會讓大量冗余視覺token一路跑完全程，造成顯著的算力浪費。

就像個耿直的打工人，收到一堆視覺Token（圖像信息塊），不管有用沒用、全部拉通處理一遍，計算量巨大。

而MiniCPM-V 4.6不當「老實人」，采用了面壁智能聯合清華大學自研的LLaVA-UHD v4技術，在 ViT 內部很早就把沒用的Token給優化掉了，提前完成視覺token的壓縮，算力直接節省約50%！

也就是說，僅在圖像編碼這一環節，MiniCPM-V 4.6就比傳統ViT路線少跑了一半的開銷，且性能不掉點。

這也是為什么 MiniCPM-V 4.6雖然參數比Qwen3.5-0.8B略大，卻在推理效率上實現反超的根本原因。

具體是怎么做到的？

主要是LLaVA-UHD v4圍繞兩個方向做了優化：如何更高效地看高清大圖，以及如何更早地減少視覺Token帶來的計算負擔。

一是「切片大法」：不傻乎乎地處理整張高清大圖，而是先切成小塊，分而治之。這樣Attention計算量就不會隨分辨率指數爆炸。MiniCPM-V 4.6的研究團隊做了不同尺寸和不同數據量的模型試驗，證明切片相比于全局編碼不掉點——這實際是一個「反常識」的技術突破。

二是「提前壓縮」：最關鍵的一步。在ViT剛開始工作沒多久，就用一個精巧的壓縮模塊（Intra-ViT Early Compressor）把Token數量壓下來。這樣一來，后續ViT層的計算開銷節省75%+。

LLaVA-UHD v4 論文鏈接：https://huggingface.co/papers/2605.08985

通過這一設計，視覺Token壓縮可以穩定地前移到 ViT 淺層，在大幅降低后續計算量的同時，仍然保持較好的圖像表征質量和下游任務表現。

這就是MiniCPM-V 4.6「效率反超」的秘密武器：在最耗算力的環節，只干最該干的活。

4倍/16倍混合壓縮

給足開發者選擇權

視覺token壓縮率，影響的是顯存占用、首響延遲、推理吞吐、功耗這些核心效率指標，壓縮率越高，響應速度就越快。

市面上的多模態大模型，絕大部分都焊死在了固定的4倍壓縮上。而MiniCPM-V系列從2024年起就率先支持16倍壓縮，此前支持在4倍/16倍中二選一，但這次MiniCPM-V 4.6實現了魚和熊掌可兼得：

4倍模式（精度更高）：適合高要求識別任務，如文檔解析、密集文字識別等。跑文檔識別、醫療影像這種任務，一個像素都不能錯。
16倍模式（速度更快）：跑手機端實時交互、云端高并發API，速度就是生命線。

這個設計，讓同一個模型既能塞進手機里做你的隨身AI，又能部署在云端扛住千萬級日活。兩全其美，開發者便無需做取舍。

這可不是PPT技術。快手的推薦大模型OneRec，扛下主場景25%的流量，就采用了MiniCPM-V系列模型。16倍壓縮的工業級實戰能力，已經被真金白銀驗證過了。

論文地址：

https://arxiv.org/abs/2502.18965

只需一張 4090

為「魔改」而生的開源生態

技術再牛，部署和微調不行、開發者照樣不買賬。

面壁智能這次直接把開發者體驗拉滿了。

最炸裂的一點是：一張消費級的RTX 4090，就能完整跑下全量微調！

這意味著什么？無論是獨立開發者、小團隊還是學術圈，多模態模型的定制化開發，都能用得起MiniCPM-V 4.6，門檻從「服務器集群」直接降到了「一臺高性能PC」。這才是真正的AI普惠！

配套的工具鏈也安排得明明白白！

MiniCPM-V 4.6實現了與當前主流開源生態的全面無縫對接，讓開發者徹底告別繁瑣的環境配置：

微調：原生支持最火的LLaMA-Factory和ms-swift——

微調框架

LLaMA-Factory：

MiniCPM-V-CookBook/finetune/finetune_minicpmv46_zh.md at main · OpenSQZ/MiniCPM-V-CookBook

ms-swift：

MiniCPM-V-CookBook/finetune/finetune_minicpmv46_zh.md at main · OpenSQZ/MiniCPM-V-CookBook

推理：vLLM、SGLang、llama.cpp、Ollama全家桶無縫銜接——

推理框架：

vLLM：

https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/vllm/minicpm-v4_6_vllm_zh.md

SGLang：

https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/sglang/minicpm-v4_6_sglang_zh.md

llama.cpp：

https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/llama.cpp/minicpm-v4_6_llamacpp.md

Ollama：

https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/ollama/minicpm-v4_6_ollama_zh.md

極低的顯存占用、極高的并發吞吐量、完備的上下游工具鏈——可以說MiniCPM-V 4.6天生就是為了被「魔改」而生，是開發者用于構建高并發計算、極速響應的垂直應用的高性價比多模態底座。

它把最硬核的底層優化做完，把最靈活的改造空間留給了社區。

附端側部署指南：

https://github.com/tc-mb/MiniCPM-V-edge-demo/blob/main/README_zh.md

從「被抄襲」到「定義者」

端側 AI 的中國敘事

從2024年4月的V 2.0算起，MiniCPM-V已經走過了6代。

截至2026年3月，MiniCPM-V系列在開源社區累計下載量已接近3000萬，多次霸榜GitHub Trending與HuggingFace趨勢榜。

在產業落地端，已先后服務于聯想、吉利、上汽大眾、廣汽、馬自達、紅旗等廠商，覆蓋汽車、PC、手機、智能家居等多場景。

回顧面壁智能的MiniCPM-V系列，你會發現一條非常清晰的進化路徑——追求極致的「智能密度」。

也就是，用最小的代價，干最智能的事。

從2024年面壁智能密度定律登上《Nature子刊》，到MiniCPM-V2.5被斯坦福研究團隊「套殼」引發全球關注，再到今天MiniCPM-V 4.6用1.3B模型重新定義端側效率，面壁智能已經變成端側AI賽道的最大「定義者」。

MiniCPM-V 4.6的發布，不只是一個更強的模型，更是一個信號：端側AI的「妥協」時代，正在結束。

MiniCPM-V 4.6證明了：1B多模態模型可以又強又快又省，也可以同時擔任端側最佳基座和云端高并發利器。

面壁在做的事情，從來不是卷參數、卷榜單。

他們在用一種近乎偏執的方式，把AI能力塞進每一塊你能想到的屏幕里——手機、平板、車載屏、智能家居面板、工廠質檢終端……凡是有屏幕、有芯片的地方，都是他們想覆蓋的場景。這便是所謂「智周萬物」。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

從零到千萬：一個中國開源操作系統的全球崛起之路

智東西 2025-11-25 17:27:09
0 跟貼 0
AI摳圖GitHub爆火！實測3款開源工具：快是真快，糙也是真糙

雷科技 2026-05-13 20:07:54
0 跟貼 0

這不是一個關于AI的故事，這是一個關于你的故事

孤獨大腦 2026-03-12 15:28:05
0 跟貼 0

00后小孩哥10天AI編程，陳天橋24小時砸3000萬！靠大四作業當上CEO

36氪 2026-03-08 17:24:08
26 跟貼 26
國產GPU組了個開源局，把SGLang等核心開發者都搖來了！

量子位 2026-05-14 17:49:23
0 跟貼 0

馬斯克承認落后，xAI推出首款編程智能體，劍指行業頂流Claude Code

華爾街見聞官方 2026-05-15 05:46:52
0 跟貼 0

大模型的魅力在于突發涌現的能力

量子位 2025-12-11 03:38:02
0 跟貼 0
荒野求生（機器狗全自主版），2025ATEC挑戰真實戶外無遙操

量子位 2025-12-08 19:24:34
0 跟貼 0

00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
Agent輸出到底該用誰？卡帕西轉發：試試讓AI輸出HTML

量子位 2026-05-13 07:19:50
0 跟貼 0
大神程序員蒸餾自己，用16個skill給AI注入軟件工程之魂

量子位 2026-05-12 03:08:58
0 跟貼 0
新華三集團總裁兼首席執行官于英濤：中國有機會成為AI落地的領先市場

經濟觀察報 2026-05-14 17:46:46
0 跟貼 0
亦莊機器人馬拉松現場名場面合集

量子位 2026-04-20 00:34:54
0 跟貼 0
對談樓天城：Harness會成為AI時代最關鍵的能力之一

量子位 2026-05-06 15:41:08
0 跟貼 0
AI Agent是科技革命中的一次真正的范式轉移

量子位 2026-04-03 22:52:35
0 跟貼 0
讓你的龍蝦秒變電影《Her》里的Samantha

量子位 2026-03-23 20:37:07
0 跟貼 0
MIT研究生用NotebookLM兩天學完一學期課程

量子位 2026-03-22 10:50:49
0 跟貼 0
如何點亮小龍蝦的牛馬技能包?

量子位 2026-03-18 12:51:26
0 跟貼 0
騰訊，把AI塞入一切

36氪 2026-05-14 18:42:19
0 跟貼 0
百度沈抖自曝：老忘吃藥，用AI做了個小程序

量子位 2026-03-27 11:25:23
0 跟貼 0
Anthropic的AI讀心術，讓人類讀懂大模型在想啥

量子位 2026-05-10 23:00:57
0 跟貼 0
安心養蝦！從OpenClaw 看云上AI安全落地路徑

量子位 2026-04-18 19:55:39
0 跟貼 0
這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
博士生如何用龍蝦做知識管理？歡迎圍觀！

量子位 2026-03-26 23:23:30
0 跟貼 0
LLM數據量大管飽，機器人數據卻連1%的起跑線都沒夠到？

量子位 2026-04-13 20:54:19
0 跟貼 0
陶哲軒：AI不能全用，深度思考不行

量子位 2026-03-19 01:35:49
0 跟貼 0
打破AI體驗天花板，聯發科成了Agent跨端生態“鋪路人”

智東西 2026-05-14 19:11:53
0 跟貼 0
Hassabis狂贊！谷歌爆改50年鼠標，指哪AI打哪，連提示詞都省了

新智元 2026-05-15 08:08:24
0 跟貼 0
WWE 2K26 1.10補丁：AI終于不演了，創建模式大修

晚星歸航2 2026-05-15 07:49:09
1 跟貼 1
這只蝸牛追著你跑46小時，一死就永遠封禁

碳基打工人 2026-05-15 02:14:58
0 跟貼 0
美國政府25年前免費發的域名，現在去哪了？

賽博蘭博 2026-05-15 02:16:24
0 跟貼 0
日軍"小鋼炮"秘密被我軍發現后，在投降書上寫下：勿將用于日本！

鑒史錄 2026-05-12 17:56:38
40 跟貼 40
云端三峽橫空出世，大國基建實力盡顯

好奇的老八 2026-05-12 11:07:54
1 跟貼 1
下一代GR Yaris動力升級，你準備好錢包了嗎？

味健的汽車 2026-05-14 12:40:11
0 跟貼 0
兩男人能并躺：新車掀起生活場景大戰

幫寧工作室 2026-05-14 16:16:14
0 跟貼 0
學習教育：打開云端門，推開群眾門，轉動聯動門，三扇門，新局面

愛寫作的老于 2026-05-14 11:31:48
0 跟貼 0
大眾首款電動GTI定檔5月15日：222馬力+模擬換擋

灰度測試中 2026-05-14 06:56:03
0 跟貼 0
如何把一塊普普通通的金屬變成漂亮的晶體？

哇喔科學 2026-05-12 17:19:20
8 跟貼 8
師傅在河里打撈廢鐵，結果吸到了鋼架構柱子上，技術不到位

卡卡愛生活 2026-05-13 10:34:23
39 跟貼 39
銅陵郊區：云端宣講傳孝道榜樣力量潤心田

金臺資訊 2026-05-14 16:35:02
0 跟貼 0

新智元

AI產業主平臺領航智能+時代

15214文章數 66868關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

藝術

游戲

家居

公開課

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

清華系團隊出手！一張 4090 即可「爆改」，1.3B小鋼炮震撼開源

兩年聯姻一地雞毛，傳蘋果OpenAI瀕臨決裂

歡迎宴會座位公開:馬斯克黃仁勛與中國企業家同桌吃飯

歡迎宴會座位公開:馬斯克黃仁勛與中國企業家同桌吃飯

爭議抽象天王山，和季后賽最穩定中鋒

何九華官宣當爸！全程不提孩子媽

特朗普的北京時刻

雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

態度原創

“67歲自然懷孕”的天賜媽媽，現狀曝光：7年前的預言，正在應驗

花園里，花叢中

萬字解析：大叔蘿莉的組合為什么經久不衰？"/> 主站 商城 論壇 自運營 登錄 注冊 萬字解析：大叔蘿莉的組合為什么經久不衰？ 神堡薛師傅 2026-0...

精神奢享 對話塔尖需求

雙零重力座椅/AI智能體/調光天幕啟境GT7內飾發布

萬字解析：大叔蘿莉的組合為什么經久不衰？"/> 主站商城論壇自運營登錄注冊萬字解析：大叔蘿莉的組合為什么經久不衰？神堡薛師傅 2026-0...

精神奢享對話塔尖需求