網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Qwen3.6-35B 量化版，vLLM本地部署，性能實(shí)測(cè)

2026-04-20 13:21:05　來(lái)源: Ai學(xué)習(xí)的老章

北京舉報(bào)

分享至

一文中我把這個(gè)模型和本地部署（原版以及 GGUF）講清楚了，但是它 70 多個(gè) GB 的模型文件，我的 4090 吃起來(lái)很費(fèi)勁。

昨天我又向大家介紹了，包括 4bit 量化版、推理加速版、Claude Opus 蒸餾版，模型文件壓到 20GB 左右就舒服多了

我更喜歡的事 vLLM 啟動(dòng)，兼顧速度與并發(fā)，內(nèi)網(wǎng)其他業(yè)務(wù)系統(tǒng)也能用到

我之前部署了 Qwen3.5-35B 的這個(gè)量化版本，vLLM 0.17 部署它很完美

關(guān)閉思考之后的性能測(cè)試，單并發(fā)可以到 148Token/s

PS：以下測(cè)試均為關(guān)閉思考后的結(jié)果 Qwen3.6關(guān)閉思考方式?jīng)]變

雖然官方建議是 vLLM 0.19 起步，但是我發(fā)現(xiàn) 0.17 也可以拉起 Qwen3.6-35B

啟動(dòng)腳本：

set -euo pipefail

MODEL_DIR="/data/models/Qwen3.6-35B-A3B-AWQ-4bit"
CONTAINER_NAME="qwen35-35b-a3b-int4"
PORT=3004

docker rm -f "${CONTAINER_NAME}" 2>/dev/null || true

docker run -d \
--name "${CONTAINER_NAME}" \
--gpus '"device=1,2"' \
--ipc=host \
--shm-size=16g \
-p ${PORT}:8000 \
-v "${MODEL_DIR}":/model \
-e NCCL_P2P_DISABLE=0 \
-e NCCL_IB_DISABLE=1 \
--restart unless-stopped \
vllm/vllm-openai:v0.17.0 \
--model /model \
--served-model-name qwen3.5-35-int4 \
--tensor-parallel-size 2 \
--max-model-len 102400 \
--kv-cache-dtype fp8 \
--gpu-memory-utilization 0.9 \
--max-num-seqs 24 \
--max-num-batched-tokens 8192 \
--language-model-only \
--enable-prefix-caching \
--default-chat-template-kwargs '{"enable_thinking":false}' \
--host 0.0.0.0 \
--port 8000

100K 上下文的顯存占用

性能測(cè)試，稍微弱于 Qwen3.5 一丟丟，微乎其微

，用它啟動(dòng) Qwen3.6-35B-A5B，性能又弱了一丟丟。。。

內(nèi)網(wǎng)沒(méi)辦法做 toolcall 測(cè)試，我只是簡(jiǎn)單對(duì)比了一下它們的編程能力

代碼量上，3.5 大約 477 行，3.6 大約 256 行

3.5 明顯更長(zhǎng)，用 CSS 動(dòng)畫實(shí)現(xiàn)，但長(zhǎng)出來(lái)的很多部分其實(shí)是解釋、重復(fù)和前后不一致的內(nèi)容，不是真正有效的實(shí)現(xiàn)，沒(méi)次刷新頁(yè)面才能短暫看到燃放瞬間。

3.6 的想法更單純，就是用 Cancas 把煙花升空、爆開(kāi)、消散這一整套過(guò)程連續(xù)畫出來(lái)，甚至還用了數(shù)據(jù)計(jì)算模擬重力，所以方向更清楚，最大的問(wèn)題是畫面位置弄錯(cuò)了，所以我實(shí)際打開(kāi)時(shí)幾乎就是黑屏

半斤八兩吧，初版都有 bug，指出問(wèn)題重新生成

最后看下生成速度 150 左右 tokens 每秒還是很賞心悅目的

本文核心是性能測(cè)試，實(shí)際體驗(yàn)，要再用用

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.