一文中我把這個(gè)模型和本地部署(原版以及 GGUF)講清楚了,但是它 70 多個(gè) GB 的模型文件,我的 4090 吃起來(lái)很費(fèi)勁。
昨天我又向大家介紹了 ,包括 4bit 量化版、推理加速版、Claude Opus 蒸餾版,模型文件壓到 20GB 左右就舒服多了
![]()
我更喜歡的事 vLLM 啟動(dòng),兼顧速度與并發(fā),內(nèi)網(wǎng)其他業(yè)務(wù)系統(tǒng)也能用到
我之前部署了 Qwen3.5-35B 的這個(gè)量化版本,vLLM 0.17 部署它很完美
關(guān)閉思考之后的性能測(cè)試,單并發(fā)可以到 148Token/s
PS:以下測(cè)試均為關(guān)閉思考后的結(jié)果 Qwen3.6關(guān)閉思考方式?jīng)]變
![]()
雖然官方建議是 vLLM 0.19 起步,但是我發(fā)現(xiàn) 0.17 也可以拉起 Qwen3.6-35B
啟動(dòng)腳本:
set -euo pipefail
MODEL_DIR="/data/models/Qwen3.6-35B-A3B-AWQ-4bit"
CONTAINER_NAME="qwen35-35b-a3b-int4"
PORT=3004
docker rm -f "${CONTAINER_NAME}" 2>/dev/null || truedocker run -d \
--name "${CONTAINER_NAME}" \
--gpus '"device=1,2"' \
--ipc=host \
--shm-size=16g \
-p ${PORT}:8000 \
-v "${MODEL_DIR}":/model \
-e NCCL_P2P_DISABLE=0 \
-e NCCL_IB_DISABLE=1 \
--restart unless-stopped \
vllm/vllm-openai:v0.17.0 \
--model /model \
--served-model-name qwen3.5-35-int4 \
--tensor-parallel-size 2 \
--max-model-len 102400 \
--kv-cache-dtype fp8 \
--gpu-memory-utilization 0.9 \
--max-num-seqs 24 \
--max-num-batched-tokens 8192 \
--language-model-only \
--enable-prefix-caching \
--default-chat-template-kwargs '{"enable_thinking":false}' \
--host 0.0.0.0 \
--port 8000
100K 上下文的顯存占用
![]()
性能測(cè)試,稍微弱于 Qwen3.5 一丟丟,微乎其微
![]()
,用它啟動(dòng) Qwen3.6-35B-A5B,性能又弱了一丟丟。。。
![]()
內(nèi)網(wǎng)沒(méi)辦法做 toolcall 測(cè)試,我只是簡(jiǎn)單對(duì)比了一下它們的編程能力
![]()
代碼量上,3.5 大約 477 行,3.6 大約 256 行
3.5 明顯更長(zhǎng),用 CSS 動(dòng)畫實(shí)現(xiàn),但長(zhǎng)出來(lái)的很多部分其實(shí)是解釋、重復(fù)和前后不一致的內(nèi)容,不是真正有效的實(shí)現(xiàn),沒(méi)次刷新頁(yè)面才能短暫看到燃放瞬間。
![]()
3.6 的想法更單純,就是用 Cancas 把煙花升空、爆開(kāi)、消散這一整套過(guò)程連續(xù)畫出來(lái),甚至還用了數(shù)據(jù)計(jì)算模擬重力,所以方向更清楚,最大的問(wèn)題是畫面位置弄錯(cuò)了,所以我實(shí)際打開(kāi)時(shí)幾乎就是黑屏
![]()
半斤八兩吧,初版都有 bug,指出問(wèn)題重新生成
最后看下生成速度 150 左右 tokens 每秒 還是很賞心悅目的
本文核心是性能測(cè)試,實(shí)際體驗(yàn),要再用用
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.