<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      8G 內存的手機,能跑多大的模型?|MiniCPM-V 4.6 開源

      0
      分享至

      端側模型

      面壁的 MiniCPM-V 4.6 今天開源,1.3B 大小

      這是 MiniCPM 系列的模型,能夠輕松跑在主流手機中,支持多模態

      架構是 SigLIP2-400M 視覺編碼器加 Qwen3.5-0.8B 語言模型。多模態綜合能力在同尺寸模型中排第一,與原版的 Qwen3.5-0.8B 相比,有以下核心突破:

      • 基于 vLLM 的 token 吞吐量,是 Qwen3.5-0.8B 的 1.5 倍

      • 在 AA 評測中,以 2.5% 的token量,超過了Qwen3.5-0.8B

      然后,今天就能把這款端側模型,下載到手機里:http://testflight.apple.com/join/yNKyFZwW


      以上為該模型的簡明信息,下面的內容,則是能成為大家的飯桌談資

      • 8G 內存,能跑多大的模型?

      • 為什么模型需要量化,怎么進行換算?

      • 未來幾年,為啥我們只能跑 1B 的端側模型?

      • 端側模型的技術實現,有哪些要點?

      模型占多少內存

      我盡量用簡單的語言,解釋模型尺寸和內存占用的關系,這里我先放一張圖,幫助大家直觀理解,在常見的 int4 量化下,不同尺寸的模型要多少內存


      在上面的圖里,你會發現模型的內存占用分為兩塊:模型權重 + KV Cache。前者是模型裝載所需要的內存,而后者則是上下文長度所需要的內存,咱們分開來說

      模型權重

      模型訓練完之后,默認用 16 位浮點數(FP16)存儲。對于純粹的語言模型來說,一個參數占 2 個字節,1.3B 參數就是 2.6GB,8B 參數就是 16GB

      對于 DeepSeek R1 這個模型,它的默認大小是 671B,也就是需要 1342 GB 內存的顯卡才能跑起來...等等!這似乎和大家的記憶不對,看之前很多人拿著 192 GB 的 Mac 就跑起來 R1 了,這是怎么回事兒?

      這里用到了一種手段,叫量化:減少參數的儲存位數,把模型權重壓小

      比如 FP16 用 16 位存一個小數,能表示 65,536 種不同的值,現在給他壓到 8 位(Q8 或 INT8),只能表示 256 種值,存儲空間減半。壓到 4 位(Q4 或 INT4),只能表示 16 種值,空間再減半;當然,還可以繼續還可以繼續壓到 3 位、2 位...那么,量化代價是什么?精度下降得越來越快,也就是變笨了

      誒...好像在看到量化的時候,大家好像對于精度的說法好像不太一樣,比如 4-bit 量化,有的地方說什么 int4,有的地方說什么 Q4,這特么又是什么東西?其實這是兩套常見標準,同一個精度等級、不同工具鏈里,叫的不同名字:

      • Q 系列(Q2、Q3、Q4、Q5、Q8)是 llama.cpp 和 Ollama 用的 GGUF 格式,手機和 PC 本地部署走這條路

      • INT 系列(INT4、INT8)是 vLLM 和 TensorRT 用的標準整數量化,云端部署走這個

      雖然不是等價,但這些東西大致是屬于同一檔的:Q4_K_M 對應的是 INT4Q8_0 則是對應 INT8

      此外比如 AWQ 和 GPTQ,也是 4-bit 量化,原理不同但精度等級和 INT4 / Q4 一樣.... Q4、INT4、AWQ、GPTQ 四個名字會以為是四種不同的東西,但他們都是 4-bit 量化,區別在實現方式和適配的推理框架,這里我做了一個精度對照表,給大家看看


      而在往下的這張表,則是列了從 2-bit 到 FP16,不同參數的模型,能吃掉多少內存


      KV Cache

      在我們調用模型的時候,總能看到模型有個「最大上下文」,為什么要有這個限制呢?甚至有些 MaaS 平臺,在上下文過長的時候,還會額外進行收費,這又是為什么呢?

      原理其實可以用一句話解釋:長上下文,會有更多的 KV Cache,會占用更多的內存,推理會更高

      KV Cache 是啥呢?在模型跑起來之后,所有的上下文信息,都會以 token 的形式在內存里存一份 Key 和一份 Value,用來做注意力計算,然后不斷的推導出下一個 Token 是什么。因此,上下文越長,占的內存就越大

      對了,大模型生成 Token 的原理之前有聊過,沒印象的可以來這里復習:

      這里我做了一張圖,直觀比較一下不同長度上下文的話,會占據多少內存


      當然,上面這些是按典型 dense Transformer 結構做的近似估算,實際 KV Cache 會隨層數、KV heads、head dim、GQA/MQA 結構、batch size 和 KV dtype 變化,這里就不展開了

      除了常規的文本 KV Cache 外,多模態模型還有一些額外開銷,就是視覺 token。這個東西和文本一樣占 KV Cache,數量取決于圖片分辨率和壓縮方式

      手機只跑得動 1B

      那么問題回來了,現在一部主流的手機,能跑得下多大的模型呢?

      現在的主打款手機,比如 iPhone 17,運行內存(RAM)通常是 8 GB 左右。在這里,系統和常駐的 App 通常會吃掉一半多的內存,能分給大模型的也就是 2~3GB。對著看上面的內存表,1.3B 的模型還是非常夠吃的,2B 開始可能就會緊張了

      對于主流新機來說,2B 以內的模型,是當下唯一的選擇


      如果把視角放寬,希望大多數人都能用上端側算力,哪又將如何呢?對于最廣泛存在的中端手機,本身只有大概 6GB RAM,1B 可能就是唯一的選擇

      或許有的朋友可能會問:以后大家的運行內存,會不會大一些?啊哈哈哈哈哈哈,最近半年 DDR5 內存價格漲的親媽不認,各廠商比如三星、海力士、鎂光等等的都把產能丟去了做 AI 用的 HBM,短時間似乎也不太可能有更多的消費級內存流出

      也就是說:未來兩年內存都不太會寬裕,那么手機上能跑的多模態模型大概就是 1~2B

      順便吐槽下...這兩天谷歌 Pixel 11 配置曝光,由于內存不夠用的,標準版 RAM 從 12GB 砍到 8GB,Pro 系列從 16GB 降到 12GB。同一時間,國內多家手機廠商也在今年 3 月調了價

      更大但更快

      回過頭來讓我們在仔細看看 MiniCPM-V 4.6 這款 1.3B 的模型,在 vLLM 上跑高并發測試(256 張 1344×1344 圖片并發),單卡 token 吞吐量達到 2624 token/s。處理 3136×3136 分辨率的高清大圖,首次響應延遲 75.7ms,并且對于高分辨率的圖片,支持優化還很不錯


      首響延遲隨分辨率變化


      高并發吞吐量

      根據公開的 40 多項 benchmark,MiniCPM-V 4.6 綜合能力在 1B 級別排第一,多數圖文理解任務領先


      綜合性能 Instruct 對比


      Artificial Analysis Intelligence Index

      此外,這個模型還有個 Thinking 版本,開啟后在數學和邏輯任務上有額外提升


      與這個這個模型一起發布的,還有個 arXiv peper,是面壁聯合清華一起發的,在這里:https://arxiv.org/abs/2605.08985


      這個 Paper 里有幾個發現,我也給摘出來

      切片編碼比全局編碼好 在做了大量對照實驗后,研究團隊發現,在全局編碼下,文字、圖表這類精細元素容易被全局信息稀釋。切片編碼讓編碼器專注于每個小區域內的細粒度模式,分辨率越高優勢越大


      LLaVA-UHD v4 架構

      把壓縮從 ViT 外面搬到 ViT 里面,能夠有效的降低浮點運算 研究團隊把一個 4 倍壓縮模塊插到 ViT 的第 6 層之后。從第 7 層開始,后面所有層只需要處理原來 1/4 的 token。視覺編碼階段的浮點運算量從 3555G 降到 1573G,減了 55.8%。疊加 4 倍的 post-ViT MLP 壓縮后,總共是 16 倍壓縮

      不要隨機初始化,而是參數復用:直接隨機的話,會炸;但如果把壓縮模塊的注意力投影、MLP 權重全部從相鄰的預訓練層拷貝過來。這樣壓縮模塊從第一步訓練開始就在預訓練的表征流形上工作,不需要從零學習

      還有一點就是:16 倍壓縮,在云端高并發場景,能夠發揮很大價值,快手 2025 年推出的 OneRec 推薦大模型,處理短視頻的封面圖、字幕、OCR、ASR 這些多模態信息時,用的就是上一代 MiniCPM-V-8B。OneRec 上線后承接了快手短視頻推薦主場景 25% 的請求量


      快手 OneRec 論文


      OneRec tokenizer 架構

      4090 就能微調

      考慮到這個 1.3B 的模型實在是太小了,所以 4090 就能進行全量微調

      所以吧...如果你正在讀書,現在有正當的理由去買 4090 了 hhhhhh

      為了方便大家上手,面壁在微調這塊,提供了多種量化格式的預量化模型,以及部署教程也放出來了:

      → vLLM:github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/vllm/minicpm-v4_6_vllm_zh.md

      → llama.cpp:github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/llama.cpp/minicpm-v4_6_llamacpp.md

      → Ollama:github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/ollama/minicpm-v4_6_ollama_zh.md

      → iOS TestFlight:testflight.apple.com/join/yNKyFZwW

      最后

      MiniCPM-V 這個系列的模型,參數量從 2.8B 做到 8B 再壓到 1.3B,也算是見證了行業的趨勢,現在內存越來越貴,這種小尺寸的模型,還是值得一看的

      以及,MiniCPM 這套東西,雖然媒體聲量不大,但實際上非常多的車機在用,包括不僅限于吉利、上汽大眾、廣汽、馬自達、紅旗等等...

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      一定要多存錢,大量存錢,特別是2026-2028年。

      一定要多存錢,大量存錢,特別是2026-2028年。

      老陸不老
      2026-05-10 15:37:02
      朱元璋為什么將藍玉剝皮?看看藍玉怎么對北元王妃:換你你也殺!

      朱元璋為什么將藍玉剝皮?看看藍玉怎么對北元王妃:換你你也殺!

      銘記歷史呀
      2026-05-14 15:16:12
      光伏自動氣象站有哪些功能特點

      光伏自動氣象站有哪些功能特點

      山東建大仁科
      2025-11-15 13:18:49
      中國寧可向美國購買轉基因大豆,也不考慮俄羅斯,到底是為什么?

      中國寧可向美國購買轉基因大豆,也不考慮俄羅斯,到底是為什么?

      文史道
      2026-03-20 06:45:03
      黃仁勛回應最后一刻登機:特朗普總統讓我這么做 這是一個絕佳機會

      黃仁勛回應最后一刻登機:特朗普總統讓我這么做 這是一個絕佳機會

      鳳凰衛視
      2026-05-14 18:04:06
      從贏麻了到退市警告,聞泰科技表演了一場年度鬧劇

      從贏麻了到退市警告,聞泰科技表演了一場年度鬧劇

      原來仙女不講理
      2026-05-15 11:52:34
      砸550億挖69公里超級水道!上海兵分兩路破解600年水患!

      砸550億挖69公里超級水道!上海兵分兩路破解600年水患!

      小蜜情感說
      2026-05-14 17:05:37
      中美會晤收官,中方一錘定音,特朗普喊話全球,美媒:美國變了

      中美會晤收官,中方一錘定音,特朗普喊話全球,美媒:美國變了

      面包夾知識
      2026-05-15 20:14:01
      領先20分差點被翻盤!上海贏得驚險,北京輸得悲壯,周琦空砍13+9

      領先20分差點被翻盤!上海贏得驚險,北京輸得悲壯,周琦空砍13+9

      萌蘭聊個球
      2026-05-15 21:34:58
      A股:今天跌到4135了,下周一,股市很可能這樣走

      A股:今天跌到4135了,下周一,股市很可能這樣走

      明心
      2026-05-15 15:13:49
      跨界大瓜!特羅薩德夜店狂歡,竟與安妮海瑟薇同框?

      跨界大瓜!特羅薩德夜店狂歡,竟與安妮海瑟薇同框?

      仰臥撐FTUer
      2026-05-15 12:05:11
      氣炸!許利民不滿北京球員連續失誤怒拍廣告牌 無緣完成20分大逆轉

      氣炸!許利民不滿北京球員連續失誤怒拍廣告牌 無緣完成20分大逆轉

      狼叔評論
      2026-05-15 22:30:17
      廣州區莊立交一層東西方向水浸 已恢復通車

      廣州區莊立交一層東西方向水浸 已恢復通車

      新快報新聞
      2026-05-15 15:56:20
      萬萬沒想到,在特朗普結束北京之行前,中美竟訂下“三年之約”

      萬萬沒想到,在特朗普結束北京之行前,中美竟訂下“三年之約”

      面包夾知識
      2026-05-15 20:14:18
      恩里克:剛來就拿兩座冠軍?我連一個都沒想過,更別說兩個了

      恩里克:剛來就拿兩座冠軍?我連一個都沒想過,更別說兩個了

      懂球帝
      2026-05-15 04:23:43
      官宣!6月1日起車管所“下崗”?3.3億車主迎來特大喜訊

      官宣!6月1日起車管所“下崗”?3.3億車主迎來特大喜訊

      阿芒娛樂說
      2026-05-14 12:19:34
      喜馬拉雅某員工:躲過了兩次裁員,終于成為騰訊員工了

      喜馬拉雅某員工:躲過了兩次裁員,終于成為騰訊員工了

      螞蟻大喇叭
      2026-05-14 11:11:38
      百億富家女留學英國,倒貼軟飯男被打致死,前雨潤總裁之女被殺案

      百億富家女留學英國,倒貼軟飯男被打致死,前雨潤總裁之女被殺案

      漢史趣聞
      2026-03-17 10:00:51
      75歲劉曉慶攜短劇《武則天傳奇》歸來,老搭檔毛戈平為其化妝,氣場一如當年

      75歲劉曉慶攜短劇《武則天傳奇》歸來,老搭檔毛戈平為其化妝,氣場一如當年

      科學發掘
      2026-05-15 14:01:48
      京東方成都8.6代OLED產線或兼做手機屏

      京東方成都8.6代OLED產線或兼做手機屏

      硅嶼手記
      2026-05-14 12:15:29
      2026-05-15 22:43:00
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      440文章數 53關注度
      往期回顧 全部

      科技要聞

      直降千元起步!蘋果華為率先開啟618讓利

      頭條要聞

      王毅:中美元首會晤 臺灣問題是重點議題之一

      頭條要聞

      王毅:中美元首會晤 臺灣問題是重點議題之一

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      游戲
      親子
      本地
      數碼
      公開課

      賣掉沐瞳后,字節跳動端上來了今年第一款游戲

      親子要聞

      上錯運輸車的巴奇

      本地新聞

      用蘇繡的方式,打開江西婺源

      數碼要聞

      七彩虹2026款iGame M15/M16 Origo筆記本發售,11499元起

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产sm重味一区二区三区| 极品人妻videosss人妻| 国产精品va在线观看一| 乱中年女人伦av二区| 99久久无色码中文字幕人妻蜜柚| 欧美日产国产精品日产| 亚洲国产成人精品一区刚刚| 无码人妻精品中文字幕免费| 内射一区二区三区四区| 午夜av一区二区三区| 国产亚洲精品在av| 日韩精品一区二区在线视| 亚洲精品成AV无在线观看| 莒南县| 自拍偷自拍亚洲精品情侣| 91丨豆花丨成人熟女| 超碰成人电影| 国内精品久久久久影院免费| 国产精品一区二区在线观看| www国产亚洲精品| 欧美A√| 亚洲狠狠操| 海晏县| 中文无码AV一区二区三区| 成人福利网站导航秘?涩涩屋| 中文字幕人妻在线中文乱码怎么解决| 亚洲va久久久噜噜噜久久4399 | av色天堂| 四虎永久免费很黄的视频| 国产99视频精品免费视频6| 婷婷婷国产在线视频| 国产免费无遮挡吸乳视频 | 欧美a√| 26uUU伊人| 桃花岛亚洲成在人线av| 亚洲熟妇丰满多毛xxxx| 国产免费又色又爽粗视频| 丁香五月激情图片| 国产精品资源在线观看网站| 亚洲中文字幕av在天堂| 亚洲精品一区三区三区在|