網易首頁 > 網易號 > 正文申請入駐

大版本更新，vLLM 0.20 來了，支持 DeepSeek V4

2026-04-28 13:27:09　來源: Ai學習的老章

北京舉報

分享至

大家好，我是 Ai 學習的老章

vLLM 是公眾號的老朋友了，每次更新我都有介紹

今天再來聊聊昨晚剛發布的 vLLM v0.20.0，這一版動靜實在不小，我看完 release notes 第一反應是——這哪是版本更新，這是把推理引擎的天花板又往上頂了一截！！！

簡介

v0.20.0 是 vLLM 一次相當激進的版本，官方數據是 752 次提交、320 位貢獻者（其中 123 位是新面孔），開源社區的火力還在持續加碼

挑幾個我覺得最值得說的：

1. DeepSeek V4 首發支持

DSV4 剛出頭，vLLM 這邊初始化支持就跟上了（），還順帶修了 DSV4/3.2 的 token 泄漏（）、DSA + MTP 的非法訪問（），共享專家上的 silu clamp 限幅也補上了

國內做大模型部署的朋友應該會很關心這條，DeepSeek 系列這兩年是 vLLM 主要的優化對象之一，新一代模型一出就能跑，這個響應速度沒誰了

2. CUDA 13.0 成為默認

PyPI 上的默認 CUDA wheel 和 vllm/vllm-openai:v0.20.0 鏡像都切到了 CUDA 13.0（），跟著 PyTorch 2.11.0 一起升到了 13.0.2（）

官方那句話很明確——vLLM 的 CUDA 策略跟著 PyTorch 走，如果你機器上還是 CUDA 12.9，建議用 uv 安裝并加 --torch-backend=cu129，別硬剛

3. PyTorch 2.11 + Python 3.14

這次 vLLM 直接上了 torch 2.11（），XPU 也不再卡在 2.10（），Python 3.14 也進了官方支持列表（）

提醒一句，這是個 breaking change，老環境直接 pip install 大概率翻車，建議干凈環境裝

4. Transformers v5 適配完成

vLLM 現在能跑在 HuggingFace transformers>=5 上了（），各種視覺編碼器、PaddleOCR、Mistral YaRN、Jina ColBERT 的兼容問題都修了一遍

5. FlashAttention 4 默認開啟 MLA prefill

FA4 重新成為 MLA prefill 默認后端（），SM90+ 上支持 head-dim 512 + paged-KV（）

跑 DeepSeek 這類 MLA 架構的，prefill 階段會有肉眼可見的提速

6. TurboQuant 2-bit KV cache（這個是真硬核）

新加了一個 attention backend，2-bit KV 緩存壓縮，等效容量翻 4 倍（），FA3/FA4 prefill 都已經接上（）

KV cache 一直是長上下文場景下顯存的最大殺手，2-bit 這個量級要是精度損失可控，對 32K/128K 長文場景就是降維打擊

7. 在線量化前端

端到端的在線量化前端落地（），文檔也補全了（）；experts_int8 合并進 FP8 在線路徑（），MXFP8 也遷到新前端（）

意思是——以后跑量化模型不用提前折騰權重，加載階段就給你量化好

8. vLLM IR 初步成型

新加了 IR 骨架和 rms_norm 算子（），OOT 平臺 kernel 導入鉤子（），gemma_rms_norm 改造到 IR 上（），還配套了測試和 benchmark 基礎設施（）

這是個長線工作，未來 kernel 層會越來越解耦，對接國產硬件也會更順

9. Model Runner V2 持續推進

Eagle prefill 全 CUDA 圖（）、根據 attention 后端自動確定 cudagraph 模式和尺寸（）、融合的概率拒絕采樣 kernel（）、多 prompt logprobs 支持（），還有一個修了精度回歸的提交（）

MRV2 這條線已經搞了好幾個版本，眼看著越來越成熟

10. 新模型一大把

DeepSeek V4、Hunyuan v3 preview、Granite 4.1 Vision、EXAONE-4.5、Phi-4-reasoning-vision-15B、jina-reranker-v3、Jina Embeddings v5、Nemotron-v3 VL Nano/Super

看了一眼，幾乎覆蓋了最近一兩個月所有值得跑的開源模型

安裝

按官方推薦用 uv 安裝最穩：

uv pip install vllm==0.20.0

如果你機器上 CUDA 是 12.9 而不是 13.0：

uv pip install vllm==0.20.0 --torch-backend=cu129

Docker 鏡像直接拉：

docker pull vllm/vllm-openai:v0.20.0

使用

跑個 DeepSeek 系列試試水（API 兼容 OpenAI）：

vllm serve deepseek-ai/DeepSeek-V3.2 \
  --tensor-parallel-size 8 \
  --max-model-len 32768

啟用新的 2-bit KV cache（注意是實驗特性）：

vllm serve 
                
 \ 
        
  --kv-cache-dtype turboquant \
  --max-model-len 131072

在線量化（無需提前轉權重）：

vllm serve meta-llama/Llama-3.1-70B-Instruct \
  --quantization fp8

實測建議

我的幾點判斷：

值得升級的場景

跑 DeepSeek V4/V3.2、Hunyuan v3、Gemma4 這些新模型——v0.20.0 是當前最優解
長上下文場景，2-bit KV cache 值得一試，省下來的顯存夠多塞一個模型
國產硬件部署，新的 IR 和 ROCm/XPU 路徑修復了一堆坑（華為昇騰、AMD MI300、Intel XPU 都有專項更新）

先別急著升的情況

生產環境跑得穩定的 v0.19.x，沒必要湊熱鬧，等 v0.20.1 patch 出來再說
CUDA 還是 12.x 的環境，要么升 CUDA 要么加 --torch-backend=cu129 ，別硬裝
Python 還在 3.10/3.11 的，上來要么先升 Python 要么留意 wheel 是否匹配

幾個有意思的細節

Ray 這次還是不是默認依賴（v0.18.0 移除的），需要的話單獨裝
默認開啟 CUDAGraph 的內存 profiling（），啟動時顯存賬單更清晰，但啟動會稍微慢一點
DBO 微批優化已經泛化到通用模型（v0.19.0 加的），v0.20.0 又疊了一堆 MoE 重構，吞吐場景的優化是真沒停過

總結

vLLM v0.20.0 是個分水嶺式的版本——CUDA 13、PyTorch 2.11、Transformers v5 一起切，意味著老環境基本得重建一遍，但換來的是 DeepSeek V4 首日支持、2-bit KV cache、FlashAttention 4 默認開啟、在線量化前端這一整套硬通貨

簡單說就是：折騰一次環境，換未來半年的部署紅利，值

對推理引擎選型還在糾結的朋友，老規矩——并發量大、追性能上限選 vLLM，單機本地玩玩選 Ollama，混合場景看 SGLang，沒有銀彈

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.