<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      英偉達加速版 Qwen3.6-35B,雙4090本地部署,性能實測

      0
      分享至

      前文:,我用 vLLM 部署的這個版本


      本文測下 Red Hat 量化團隊 Qwen3.6-35B-A3B-NVFP4(4-bit 浮點)的性能

      NVFP4 量化版:Red Hat 出品
      模型地址:huggingface.co/RedHatAI/Qwen3.6-35B-A3B-NVFP4

      這個 NVFP4 版本由 Red Hat AI 團隊使用 llm-compressor 完成量化

      ? llm-compressor 是 vLLM 項目下的量化工具庫,專門為 vLLM 推理做優化,支持 GPTQ、AWQ、SmoothQuant、FP8、NVFP4 等多種方案

      NVFP4 的核心:權重和激活都量化到 FP4(W4A4),使用 E2M1 格式 + 16 元素微塊縮放

      Red Hat 跑了 GSM8K Platinum 評測,初步結果相當驚艷:

      版本

      GSM8K Platinum 準確率

      原版 BF16

      NVFP4 量化版

      恢復率

      100.69%

      量化后精度居然比原版高了一丟丟

      當然這有統計波動因素,但至少說明 NVFP4 量化對精度的損失可以忽略不計

      實測部署:vLLM + Docker

      我在雙 4090 GPU 服務器上用 Docker + vLLM 部署了這個模型

      Docker 啟動命令

      docker run -d --name qwen36-35b-a3b-int4 \
      --gpus all \
      -v /data/llm-models/Qwen3.6-35B-A3B-NVFP4:/model \
      -p 8000:8000 \
      vllm/vllm-openai:v0.19.1 \
      --model /model \
      --served-model-name qwen3.6-35-int4 \
      --tensor-parallel-size 2 \
      --max-model-len 102400 \
      --kv-cache-dtype fp8 \
      --enable-prefix-caching \
      --language-model-only \
      --max-num-batched-tokens 8192 \
      --max-num-seqs 24 \
      --default-chat-template-kwargs '{"enable_thinking": false}'

      幾個關鍵參數說明

      • --tensor-parallel-size 2:雙卡張量并行

      • --kv-cache-dtype fp8:KV Cache 用 FP8 存儲,進一步節省顯存

      • --language-model-only:跳過視覺編碼器,把顯存省給 KV Cache

      • --enable-prefix-caching:開啟前綴緩存加速

      • --default-chat-template-kwargs '{"enable_thinking": false}':默認關閉思考模式,需要的時候再開

      部署數據一覽

      從啟動日志里扒出來的關鍵數據:

      指標

      數值

      vLLM 版本

      0.19.1

      模型加載耗時

      24 秒

      模型顯存占用10.61 GiB

      (每卡)

      torch.compile 編譯耗時

      39.49 秒

      初始化總耗時

      136.49 秒

      GPU KV Cache 容量

      494,656 tokens

      最大并發(102K 上下文)

      17.18x

      CUDA Graph 顯存

      0.81 GiB


      非 Blackwell GPU 跑 NVFP4

      WARNING: Your GPU does not have native support for FP4 computation 
      but FP4 quantization is being used. Weight-only FP4 compression
      will be used leveraging the Marlin kernel. This may degrade
      performance for compute-heavy workloads.

      我的 GPU 設備能力是 8.9(Ada Lovelace 架構),不支持原生 FP4 計算

      vLLM 自動退回到Marlin 內核做 weight-only FP4 解壓——推理時權重從 FP4 解壓到高精度再參與計算,激活量化的加速效果就沒了

      GPU 架構

      FP4 原生支持

      NVFP4 實際行為

      Blackwell (B100/B200)

      支持

      W4A4 全量化加速

      Hopper (H100/H200)

      不支持

      Weight-only + Marlin 解壓

      Ada (L40S/4090)不支持Weight-only + Marlin 解壓

      所以如果你和我一樣用 Ada 架構的 GPU,NVFP4 的核心收益是省顯存

      推理速度的提升主要來自模型變小后降低的內存帶寬需求,要拿到 NVFP4 真正的 W4A4 全量化加速,需要 Blackwell GPU

      還有兩個值得留意的細節:

      • Mamba Cache 實驗性支持:日志里提示 prefix caching 對 Mamba 層的支持還在實驗階段。Qwen3.6 用了 Gated DeltaNet(一種線性注意力變體),vLLM 對這類層的緩存機制還在打磨中

      • Custom AllReduce 被禁用:因為 GPU 之間不支持 P2P 直連,退回到 NCCL 通信。多卡并行的效率會有一點點損失

      對比前文同為 vLLM 0.19.1 拉起的 Qwen3.6-35B-A3B-AWQ-4bit

      各方面都有提升


      部署建議

      硬件選擇

      • 最低 2x RTX 4090(24GB),可以跑 100K 上下文,或許可以更高,我沒再加

      • 有 Blackwell GPU 的話能獲得最完整的 NVFP4 加速

      推理框架

      • vLLM 版本 0.19.0 以上,推薦 0.19.1,前文我也測了 v0.17 也可以

      • 官方同時支持 SGLang 和 KTransformers

      采樣參數建議

      • Thinking 模式:temperature=1.0, top_p=0.95, top_k=20, presence_penalty=1.5

      • 精確編程任務:temperature=0.6, top_p=0.95, top_k=20, presence_penalty=0.0

      • 非思考模式:temperature=0.7, top_p=0.8, top_k=20, presence_penalty=1.5

      Agent 場景推薦開啟preserve_thinking,能在多輪對話中保留思維鏈上下文,減少重復推理的 token 消耗

      .6

      制作不易,如果這篇文章對你有幫助,可否幫我個忙。給我個三連擊:點贊、轉發和在看。若可以再給我加個星標,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      賴清德專機繞路返航,4架戰機護航盡顯心虛

      賴清德專機繞路返航,4架戰機護航盡顯心虛

      音樂時光的娛樂
      2026-05-05 14:30:00
      倫敦世乒賽:8強賽對陣出爐,林詩棟3-0完成救贖,龍隊劉詩雯觀戰

      倫敦世乒賽:8強賽對陣出爐,林詩棟3-0完成救贖,龍隊劉詩雯觀戰

      晚霧空青
      2026-05-06 00:58:31
      不是文班 不是福克斯!馬刺爆冷輸球揪出水貨 33歲老將今夏恐退役

      不是文班 不是福克斯!馬刺爆冷輸球揪出水貨 33歲老將今夏恐退役

      籃球圈里的那些事
      2026-05-05 17:15:20
      五一假期結束別難過 還有45天又放假了!端午節放假通知正式出爐:6月19日-21日連放三天,不補班不調休

      五一假期結束別難過 還有45天又放假了!端午節放假通知正式出爐:6月19日-21日連放三天,不補班不調休

      每日經濟新聞
      2026-05-05 23:40:29
      美國人的歷史課本,是怎樣寫中國的?僅有20頁,記載了6個中國人

      美國人的歷史課本,是怎樣寫中國的?僅有20頁,記載了6個中國人

      抽象派大師
      2026-05-03 00:24:53
      1958年毛澤東視察濟南,酒桌上突然猛砸杯子死盯王新亭:把你隱瞞的秘密交底吧?

      1958年毛澤東視察濟南,酒桌上突然猛砸杯子死盯王新亭:把你隱瞞的秘密交底吧?

      史海孤雁
      2026-05-05 17:07:19
      突發!趙繼偉深夜11點做出重大決定,球迷:要加盟上海或北控?

      突發!趙繼偉深夜11點做出重大決定,球迷:要加盟上海或北控?

      呀古銅
      2026-05-06 06:09:06
      2001年,夫妻簽離婚協議時發現沒筆,妻子獨自上樓取筆時遇刺身亡

      2001年,夫妻簽離婚協議時發現沒筆,妻子獨自上樓取筆時遇刺身亡

      明月清風閣
      2026-05-05 21:25:06
      “新型霸凌”正在校園悄悄流行,孩子不敢說,但家長一定牢記這些

      “新型霸凌”正在校園悄悄流行,孩子不敢說,但家長一定牢記這些

      木言觀
      2026-05-05 07:09:57
      舌吻3小時、喊兒子小狼狗,狄鶯的畸形母愛終于反噬了

      舌吻3小時、喊兒子小狼狗,狄鶯的畸形母愛終于反噬了

      子芫伴你成長
      2026-05-02 22:50:39
      39歲何潔直播公布三婚,這姐還結啊,頭發都白了

      39歲何潔直播公布三婚,這姐還結啊,頭發都白了

      夢想總會變成真
      2026-05-05 21:36:52
      連沉7船!美軍動真格,真相曝光,德黑蘭權力失控,革命衛隊玩火

      連沉7船!美軍動真格,真相曝光,德黑蘭權力失控,革命衛隊玩火

      最美的巧合
      2026-05-05 16:00:24
      FIFA徹底慌了!多國集體拒高價買世界杯版權,天價泡沫徹底破裂

      FIFA徹底慌了!多國集體拒高價買世界杯版權,天價泡沫徹底破裂

      行者聊官
      2026-05-05 10:20:23
      比黃金貴3倍!1公斤賣165萬,以前農村隨手扔,看看你家有嗎

      比黃金貴3倍!1公斤賣165萬,以前農村隨手扔,看看你家有嗎

      三農雷哥
      2026-05-04 11:49:13
      百億私募暴雷,52人近1億血汗錢被套!

      百億私募暴雷,52人近1億血汗錢被套!

      三農老歷
      2026-05-05 05:42:41
      醫生發現:一旦吃上降血壓藥,這幾件事就別做了,別害了自己

      醫生發現:一旦吃上降血壓藥,這幾件事就別做了,別害了自己

      敘說醫療健康
      2026-05-06 05:00:06
      比亞迪這波降價,不只是真香,而是把一部分人直接推到了分岔路口

      比亞迪這波降價,不只是真香,而是把一部分人直接推到了分岔路口

      三農老歷
      2026-05-05 15:01:13
      球迷態度:阿森納英超領跑+歐冠進決賽,本賽季結局將如何?

      球迷態度:阿森納英超領跑+歐冠進決賽,本賽季結局將如何?

      懂球帝
      2026-05-06 05:45:10
      曾10分鐘賣500萬桶,半個娛樂圈為它帶貨!昔日網紅美食要破產了,杭州有便利店已下架

      曾10分鐘賣500萬桶,半個娛樂圈為它帶貨!昔日網紅美食要破產了,杭州有便利店已下架

      都市快報橙柿互動
      2026-05-06 00:20:04
      吳千語住進上海別墅,裝修剛完就搬了家,中產生活悄悄變了樣

      吳千語住進上海別墅,裝修剛完就搬了家,中產生活悄悄變了樣

      孤傲何妨初
      2026-05-06 04:31:12
      2026-05-06 06:56:49
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3372文章數 11146關注度
      往期回顧 全部

      科技要聞

      傳蘋果考慮讓英特爾、三星代工設備處理器

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      體育要聞

      全世界都等著看他笑話,他帶國米拿下冠軍

      娛樂要聞

      內娛真情誼!楊紫為謝娜演唱會送花籃

      財經要聞

      瀏陽煙花往事

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態度原創

      手機
      健康
      房產
      公開課
      軍事航空

      手機要聞

      iPhone 20周年機型或配備固態按鈕,iPhone 18再次確認工藝降級!

      干細胞治燒燙傷面臨這些“瓶頸”

      房產要聞

      五一樓市徹底明牌!塔尖人群都在重倉凱旋新世界

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普威脅伊朗不要向美國船開火

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: aⅴ精品无码无卡在线观看| 中文字幕人妻无码一区二区三区| 精品亚洲国产探花在线播放| 2020最新国产在线不卡a| 国产免费AV片在线看| 亚洲综合极品嫩模喷大量白浆| 亚洲欲色欲色XXXXX在线观看| 99久久久无码国产精品不卡| 亚洲夂夂婷婷色拍ww47| 亚洲成人av一区二区三区| 91视频网亚瑟视频| 亚洲精品无码aⅴ中文字幕蜜桃| 一级做a爰片久久毛片4个| 午夜老司机永久免费看片| 最新69国产成人精品视频免费| 亚洲精品乱码久久久久久日本蜜臀| 成人深爱网| 中文字幕人妻av一区二区| 97精品依人久久久大香线蕉97 | 亚洲第一色在线| 国产精品乱码一区| 久久精品国产6699国产精 | 日本一区二区不卡精品| 三级黄色片| 黄页网站视频| 免费人成黄页在线观看国际| 欧美国产日韩a在线视频| 国产女人18毛片水真多18精品| 国产精品麻豆成人AV电影艾秋 | 人妻无码中文字幕免费视频蜜桃 | 色哟哟精品| 无码精品久久一区二区三区| 久久精品国产99久久久小说| 精品国产久九九| 亚洲精品777| 顶级少妇做爰视频在线观看| 伊人久久中文字幕| 亚洲日本欧美日韩中文字幕| 丁香五月综合网| 日本加勒比东京热日韩| 亚洲国产成人精品女人久久久|