![]()
大家好,我是 Ai 學習的老章
vLLM 是公眾號的老朋友了,每次更新我都有介紹
今天再來聊聊昨晚剛發布的 vLLM v0.20.0,這一版動靜實在不小,我看完 release notes 第一反應是——這哪是版本更新,這是把推理引擎的天花板又往上頂了一截!!!
![]()
簡介
v0.20.0 是 vLLM 一次相當激進的版本,官方數據是 752 次提交、320 位貢獻者(其中 123 位是新面孔),開源社區的火力還在持續加碼
挑幾個我覺得最值得說的:
![]()
1. DeepSeek V4 首發支持
DSV4 剛出頭,vLLM 這邊初始化支持就跟上了(),還順帶修了 DSV4/3.2 的 token 泄漏()、DSA + MTP 的非法訪問(),共享專家上的 silu clamp 限幅也補上了
國內做大模型部署的朋友應該會很關心這條,DeepSeek 系列這兩年是 vLLM 主要的優化對象之一,新一代模型一出就能跑,這個響應速度沒誰了
2. CUDA 13.0 成為默認
PyPI 上的默認 CUDA wheel 和 vllm/vllm-openai:v0.20.0 鏡像都切到了 CUDA 13.0(),跟著 PyTorch 2.11.0 一起升到了 13.0.2()
官方那句話很明確——vLLM 的 CUDA 策略跟著 PyTorch 走,如果你機器上還是 CUDA 12.9,建議用 uv 安裝并加 --torch-backend=cu129,別硬剛
3. PyTorch 2.11 + Python 3.14
這次 vLLM 直接上了 torch 2.11(),XPU 也不再卡在 2.10(),Python 3.14 也進了官方支持列表()
提醒一句,這是個 breaking change,老環境直接 pip install 大概率翻車,建議干凈環境裝
4. Transformers v5 適配完成
vLLM 現在能跑在 HuggingFace transformers>=5 上了(),各種視覺編碼器、PaddleOCR、Mistral YaRN、Jina ColBERT 的兼容問題都修了一遍
5. FlashAttention 4 默認開啟 MLA prefill
FA4 重新成為 MLA prefill 默認后端(),SM90+ 上支持 head-dim 512 + paged-KV()
跑 DeepSeek 這類 MLA 架構的,prefill 階段會有肉眼可見的提速
6. TurboQuant 2-bit KV cache(這個是真硬核)
新加了一個 attention backend,2-bit KV 緩存壓縮,等效容量翻 4 倍(),FA3/FA4 prefill 都已經接上()
KV cache 一直是長上下文場景下顯存的最大殺手,2-bit 這個量級要是精度損失可控,對 32K/128K 長文場景就是降維打擊
7. 在線量化前端
端到端的在線量化前端落地(),文檔也補全了();experts_int8 合并進 FP8 在線路徑(),MXFP8 也遷到新前端()
意思是——以后跑量化模型不用提前折騰權重,加載階段就給你量化好
8. vLLM IR 初步成型
新加了 IR 骨架和 rms_norm 算子(),OOT 平臺 kernel 導入鉤子(),gemma_rms_norm 改造到 IR 上(),還配套了測試和 benchmark 基礎設施()
這是個長線工作,未來 kernel 層會越來越解耦,對接國產硬件也會更順
9. Model Runner V2 持續推進
Eagle prefill 全 CUDA 圖()、根據 attention 后端自動確定 cudagraph 模式和尺寸()、融合的概率拒絕采樣 kernel()、多 prompt logprobs 支持(),還有一個修了精度回歸的提交()
MRV2 這條線已經搞了好幾個版本,眼看著越來越成熟
10. 新模型一大把
DeepSeek V4、Hunyuan v3 preview、Granite 4.1 Vision、EXAONE-4.5、Phi-4-reasoning-vision-15B、jina-reranker-v3、Jina Embeddings v5、Nemotron-v3 VL Nano/Super
看了一眼,幾乎覆蓋了最近一兩個月所有值得跑的開源模型
安裝
按官方推薦用 uv 安裝最穩:
uv pip install vllm==0.20.0
如果你機器上 CUDA 是 12.9 而不是 13.0:
uv pip install vllm==0.20.0 --torch-backend=cu129
Docker 鏡像直接拉:
docker pull vllm/vllm-openai:v0.20.0
使用跑個 DeepSeek 系列試試水(API 兼容 OpenAI):
vllm serve deepseek-ai/DeepSeek-V3.2 \
--tensor-parallel-size 8 \
--max-model-len 32768
啟用新的 2-bit KV cache(注意是實驗特性):
vllm serve
\
--kv-cache-dtype turboquant \
--max-model-len 131072
在線量化(無需提前轉權重):
vllm serve meta-llama/Llama-3.1-70B-Instruct \
--quantization fp8
實測建議我的幾點判斷:
值得升級的場景
跑 DeepSeek V4/V3.2、Hunyuan v3、Gemma4 這些新模型——v0.20.0 是當前最優解
長上下文場景,2-bit KV cache 值得一試,省下來的顯存夠多塞一個模型
國產硬件部署,新的 IR 和 ROCm/XPU 路徑修復了一堆坑(華為昇騰、AMD MI300、Intel XPU 都有專項更新)
先別急著升的情況
生產環境跑得穩定的 v0.19.x,沒必要湊熱鬧,等 v0.20.1 patch 出來再說
CUDA 還是 12.x 的環境,要么升 CUDA 要么加
--torch-backend=cu129,別硬裝Python 還在 3.10/3.11 的,上來要么先升 Python 要么留意 wheel 是否匹配
幾個有意思的細節
Ray 這次還是不是默認依賴(v0.18.0 移除的),需要的話單獨裝
默認開啟 CUDAGraph 的內存 profiling(),啟動時顯存賬單更清晰,但啟動會稍微慢一點
DBO 微批優化已經泛化到通用模型(v0.19.0 加的),v0.20.0 又疊了一堆 MoE 重構,吞吐場景的優化是真沒停過
vLLM v0.20.0 是個分水嶺式的版本——CUDA 13、PyTorch 2.11、Transformers v5 一起切,意味著老環境基本得重建一遍,但換來的是 DeepSeek V4 首日支持、2-bit KV cache、FlashAttention 4 默認開啟、在線量化前端這一整套硬通貨
簡單說就是:折騰一次環境,換未來半年的部署紅利,值
對推理引擎選型還在糾結的朋友,老規矩——并發量大、追性能上限選 vLLM,單機本地玩玩選 Ollama,混合場景看 SGLang,沒有銀彈
制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.