<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Mac 用戶本地跑大模型,這可能是目前最能打的方案

      0
      分享至

      關于本地部署和量化,我之前寫過不少:

      今天聊一套讓我眼前一亮的東西——來自同一個團隊的三件套:JANG + vMLX + MLX Studio,這可能是目前最能打的方案

      它們仨是啥關系?

      先別被三個名字搞暈了

      如果你玩過 PC 端的 GGUF + llama.cpp + Open WebUI,這三個的關系你一眼就懂:

      層次

      PC 端類比

      Mac 端(這套)

      量化格式

      GGUF

      JANG

      推理引擎

      llama.cpp

      vMLX

      桌面應用

      Open WebUI

      MLX Studio

      簡單說:JANG 把大模型壓小,vMLX 把它跑快,MLX Studio 給你一個漂亮的界面。三件套,一條龍。

      JANG:MLX 的量化救星

      先聊最底層的 JANG,官方管自己叫"The GGUF for MLX"

      說白了,就是一種混合精度量化方案

      普通量化對所有參數一刀切,但模型里的 Attention 層對精度極其敏感,切太狠直接出 NaN(無效數值),模型就廢了

      JANG 的聰明之處在于:對不同層給不同精度

      • Attention 層:保留 5~8 bit(不敢動)

      • MLP 層:壓到 2~4 bit(這里水分多,使勁壓)

      • 平均額外開銷:只多 0.3 bit

      效果有多猛?看這組數據——230B 參數的 MiniMax M2.5 為例:

      量化方式

      大小

      MMLU(200 題)

      JANG_2L(2bit 混合)82.5 GB74%

      MLX 4-bit

      119.8 GB

      26.5%

      MLX 3-bit

      93 GB

      24.5%

      MLX 2-bit

      68 GB

      25%

      MLX 在各種 bit 下都只有 25% 左右——純隨機猜測水平,模型等于報廢了。JANG 的 2bit 混合版不但活得好好的,還拿了 74%,體積反而更小。

      這差距也太離譜了


      更夸張的是 397B 參數的 Qwen3.5:

      • JANG_1L:112 GB,塞進 128 GB MacBook Pro,MMLU 86.5%

      • MLX 2-bit / 3-bit:NaN,直接寄

      • MLX 4-bit:需要約 280 GB,地球上沒幾臺 Mac 裝得下

      397B 模型在筆記本上跑起來了——這句話放兩年前說出來怕是要被當成瘋子。


      所有量化好的模型都放在 HuggingFace 的 JANGQ-AI 上,下載即用。想自己量化的話,代碼在 github.com/jjang-ai/jangq,Apache 2.0 開源。

      vMLX:100K 上下文快 224 倍

      有了好的量化模型,還得有個快引擎

      vMLX 就是干這個的

      安裝極簡:

      pip install vmlx
      vmlx serve mlx-community/Qwen3-8B-4bit

      啟動后在本地http://0.0.0.0:8000提供 OpenAI + Anthropic 兼容 API,Claude Code、Anthropic SDK 這些客戶端都能直接接


      vMLX 最硬核的賣點是它的五層緩存棧——其他 Mac 端引擎最多有一兩層,vMLX 全給你堆滿了:

      1. 前綴緩存:對話中重復的部分只算一次

      2. 分頁 KV 緩存:多個對話同時駐留,切換不驅逐

      3. KV 緩存量化:q4/q8 壓縮,節省 4~8 倍內存

      4. 持續批處理:最多 256 個并發序列

      5. 磁盤緩存:重啟后立即恢復,不用重新算

      五層疊加的結果就是,首個 Token 的響應速度碾壓同類:

      上下文長度

      vMLX

      其他引擎

      快多少

      2.5K

      0.05s

      0.49s

      9.7×

      10K

      0.08s

      6.12s

      76×

      100K

      0.65s

      131s

      224×

      100K 上下文,別的引擎要等兩分多鐘,vMLX 不到一秒。我第一反應是"不可能",但這是實測的 TTFT(Time to First Token),五層緩存疊加確實恐怖。

      除了緩存,還有幾個值得一提的特性:

      • 推測解碼:小模型打草稿 + 大模型驗證,提速 20~90%

      • Mamba / SSM 混合架構支持:Nemotron-H 這些奇葩架構只有 vMLX 能跑

      • 20+ 內置 Agent 工具:文件讀寫、代碼搜索、Shell 執行、Git 操作、網頁搜索——全部本地運行

      最后這點很有意思。vMLX 是目前唯一把 Agentic 工具內置到本地引擎里的方案,不用額外配 MCP 服務器,模型直接就能讀文件、執行命令、搜索代碼庫。這個思路比 Ollama、LM Studio 激進得多。


      項目地址:github.com/jjang-ai/vmlx,Apache 2.0 開源。

      MLX Studio:不碰命令行也能玩

      如果你覺得命令行太折騰,MLX Studio就是給你準備的——vMLX 引擎的完整 GUI 應用,永久免費。


      MLX Studio 主界面——聊天、Agent 工具、圖像生成一體化

      該有的全有了:

      對話:流式多輪對話、折疊式思維鏈展示(DeepSeek R1、Qwen3、GLM)、拖拽圖片做視覺分析、語音朗讀回復。

      圖像生成:5 個生成模型(Flux Schnell/Dev、Z-Image Turbo、Klein 4B/9B)+ 4 個編輯模型(Qwen Image Edit、Flux Kontext、Flux Fill、Flux Klein Edit),全部本地跑,零 API 費用。

      模型管理:內置 HuggingFace 瀏覽器一鍵下載、GGUF → MLX 轉換器(支持 JANG 混合精度)、菜單欄快捷切換模型。

      API 集成:同時提供 OpenAI 和 Anthropic 端點,支持 Claude Code 等客戶端直接對接。原生 MCP 支持,可以掛外部工具。


      老實說,從功能完整度來看,MLX Studio 比之前我試過的 oMLX 豐富不少,尤其是圖像生成和 Agent 工具這塊,oMLX 是沒有的。不過 oMLX 勝在輕量簡潔,兩者定位不太一樣。

      官網:mlx.studio

      總結

      這三件套解決的核心問題就一個:在 Apple Silicon Mac 上把本地 AI 的體驗拉滿

      • JANG解決"裝不下"——128GB Mac 跑 397B 模型,MLX 標準量化做不到

      • vMLX解決"跑不快"——五層緩存棧,100K 上下文快 224 倍

      • MLX Studio解決"用不了"——圖文生成、語音對話、Agent 編程,一個 App 搞定

      三個項目全部 Apache 2.0 開源,全部免費。

      有 Mac 跑本地模型需求的朋友,真的值得試試。

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      努力探索新時期中美正確相處之道(大使隨筆)

      努力探索新時期中美正確相處之道(大使隨筆)

      人民網
      2026-05-14 06:50:46
      日媒吐槽世乒賽:有些隊小組賽故意輸球 世界第1的中國隊就輸了2場

      日媒吐槽世乒賽:有些隊小組賽故意輸球 世界第1的中國隊就輸了2場

      風過鄉
      2026-05-14 12:19:29
      母親和初戀搭伙,對方月入兩萬全上交,床下東西讓我連夜帶她回家

      母親和初戀搭伙,對方月入兩萬全上交,床下東西讓我連夜帶她回家

      曉艾故事匯
      2026-05-14 17:36:33
      馬斯克站C位,黃仁勛皮衣換西裝!17位大佬同框暴露“霸總相”

      馬斯克站C位,黃仁勛皮衣換西裝!17位大佬同框暴露“霸總相”

      商務范
      2026-05-14 15:12:10
      轉發周知!15日起售,60周歲及以上老年旅客可享淡季火車票優惠

      轉發周知!15日起售,60周歲及以上老年旅客可享淡季火車票優惠

      每日經濟新聞
      2026-05-13 18:56:46
      云南電工挫敗黑社會團伙,1人對抗120名混混,造成對方9死48傷

      云南電工挫敗黑社會團伙,1人對抗120名混混,造成對方9死48傷

      莫地方
      2026-05-15 01:30:04
      阿姨這身打扮也是夠時髦了

      阿姨這身打扮也是夠時髦了

      牛彈琴123456
      2026-05-13 17:10:28
      廣電總局官宣,機頂盒再見!

      廣電總局官宣,機頂盒再見!

      果粉俱樂部
      2026-05-14 13:55:05
      特朗普走下車一瞬間,一只喜鵲忽然從天而降,穩穩的落在了旁邊

      特朗普走下車一瞬間,一只喜鵲忽然從天而降,穩穩的落在了旁邊

      漫川舟船
      2026-05-14 16:49:29
      不少女網約車司機宣布退出女性友好計劃,直言不想接女乘客

      不少女網約車司機宣布退出女性友好計劃,直言不想接女乘客

      映射生活的身影
      2026-05-12 20:56:00
      離譜!婚禮司儀報價800元被砍到500元 新娘還要求隨禮600元:忙活一場倒貼100元

      離譜!婚禮司儀報價800元被砍到500元 新娘還要求隨禮600元:忙活一場倒貼100元

      閃電新聞
      2026-05-14 16:23:35
      賣不動了,日系車集體退守中國

      賣不動了,日系車集體退守中國

      21世紀經濟報道
      2026-05-13 23:28:25
      爽快!中美會晤提出的第一個要求,中方開場白定調,太高明了

      爽快!中美會晤提出的第一個要求,中方開場白定調,太高明了

      愛看劇的阿峰
      2026-05-14 18:59:00
      “10周的工作量,AI只用4天!”Anthropic發布會全程實錄:你引以為傲的復雜工程,在模型眼里只是個玩具

      “10周的工作量,AI只用4天!”Anthropic發布會全程實錄:你引以為傲的復雜工程,在模型眼里只是個玩具

      AI科技大本營
      2026-05-12 20:40:18
      黃仁勛被問英偉達是否會向華為出售芯片:這是個多么奇怪的問題啊

      黃仁勛被問英偉達是否會向華為出售芯片:這是個多么奇怪的問題啊

      泡泡網
      2026-05-14 17:50:15
      4-3創造奇跡,0-4橫掃出局!NBA最大的偽強隊,四巨頭真該散伙了

      4-3創造奇跡,0-4橫掃出局!NBA最大的偽強隊,四巨頭真該散伙了

      老侃侃球
      2026-05-14 16:28:08
      曝知名網紅董赤赤與公司鬧翻!賬戶欠50多萬,另起爐灶患嚴重抑郁

      曝知名網紅董赤赤與公司鬧翻!賬戶欠50多萬,另起爐灶患嚴重抑郁

      裕豐娛間說
      2026-05-14 13:35:10
      向央視要價41億!FIFA秘書長訪華首要目的:促成談判 賺中國人錢

      向央視要價41億!FIFA秘書長訪華首要目的:促成談判 賺中國人錢

      風過鄉
      2026-05-14 21:35:53
      四個維度分析:快船交易哈登換加蘭+次輪簽誰賺誰虧?加蘭成贏家

      四個維度分析:快船交易哈登換加蘭+次輪簽誰賺誰虧?加蘭成贏家

      你的籃球頻道
      2026-05-14 11:39:10
      “你就是小偷”,9歲男孩騎走同小區女孩自行車后放回,被女孩家人在業主群辱罵多天,法院判女孩方賠2000元

      “你就是小偷”,9歲男孩騎走同小區女孩自行車后放回,被女孩家人在業主群辱罵多天,法院判女孩方賠2000元

      揚子晚報
      2026-05-14 20:57:01
      2026-05-15 04:12:49
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3403文章數 11151關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      體育要聞

      爭議抽象天王山,和季后賽最穩定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經要聞

      李強會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      數碼
      房產
      藝術
      教育
      本地

      數碼要聞

      與“AMD+AMG”賽道相見,英特爾、邁凱倫F1車隊達成戰略合作

      房產要聞

      海南樓市新政要出!擬調公積金貸款額度,最高可貸168萬!

      藝術要聞

      帕特里克鏡頭下的戴安娜:光影與情感的極致呈現

      教育要聞

      老師的績效也隨工資發了,領導好像不太能拿捏老師們了!

      本地新聞

      用蘇繡的方式,打開江西婺源

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲激情av| 日韩精品视频在线观看免费| 成人无码潮喷在线观看| www.chinese.国产| 痉挛高潮喷水av无码免费| 岛国一区| 亚洲精品熟女| 伊人狠狠丁香婷婷综合色| 无码久久流水呻吟| 中文字幕av一区| 免费又黄又爽1000禁片| 四虎4hu亚洲精品| 手机看片国产日韩| 日本免费二三本道| 一区二区久久不射av| 久久福利影院| 国产精品免费视频不卡| 成人超碰在线| 99这里有精品视频| 99热这里只有精品3| 精品人妻无码中文字幕在线| 国产老女人乱淫免费可以| 国产高清一国产av| 久久国产精品99精品| 九九九精品成人免费视频小说| 人妻夜夜爽天天爽三区麻豆av网站| 99久久国产综合精品女图图等你| 99riav国产精品视频| 国产亚洲精品第一综合| 亚洲精品国产一二三区| 久久精品视频18| 亚洲精品女同午夜在线| 精品久久中文久久久| 国产福利一区二区麻豆| 婷婷久久综合九色综合绿巨人| 精品人妻一区二区三区奶水| 国产精品午夜自在在线精品| 99久久无码一区人妻a片蜜| 亚洲深深色噜噜狠狠爱网站| 欧产日产国产精品精品| 99久久国产一区二区三区|