<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      vLLM v0.19.1 補(bǔ)丁發(fā)布

      0
      分享至


      vLLM 0.19.1 正式版發(fā)布了,這次是一個(gè)補(bǔ)丁版本,11 個(gè) cherry-pick,主題非常集中:把 Transformers v5 正式拉進(jìn)來(lái),然后把 Gemma 4 的一堆坑填上。

      v0.19.0 對(duì) Gemma 4 做到了"發(fā)布當(dāng)天可用",但"可用"和"好用"之間差著不少 bug

      這次 v0.19.1 就是來(lái)還債的,可以說(shuō)這是一個(gè) Gemma 4 專(zhuān)項(xiàng)修復(fù)版本

      變更

      類(lèi)型

      一句話

      Transformers v5 正式升級(jí)

      生態(tài)

      從兼容升級(jí)到正式依賴(lài)

      Gemma 4 流式工具調(diào)用 JSON 損壞

      修復(fù)

      流式輸出時(shí)部分分隔符導(dǎo)致無(wú)效 JSON

      Gemma 4 流式 HTML 重復(fù)

      修復(fù)

      工具調(diào)用后 HTML 內(nèi)容被重復(fù)輸出

      Gemma 4 流式布爾/數(shù)字值損壞

      修復(fù)

      跨 chunk 的布爾和數(shù)字值被截?cái)?/p>

      Gemma 4 推理解析 + 多輪工具調(diào)用

      修復(fù)

      推理解析器支持 adjust_request,修復(fù)多輪對(duì)話

      Gemma 4 量化 MoE 支持

      ? 新功能

      FP8 和 NVFP4 量化的 MoE 模型可以跑了

      Gemma 4 Eagle3 推測(cè)解碼

      ? 新功能

      支持隱藏狀態(tài)提取,可訓(xùn)練專(zhuān)屬草稿模型

      Gemma 4 LoRA 適配器加載

      修復(fù)

      LoRA 加載路徑修正

      Gemma 4 null 值轉(zhuǎn)字符串

      修復(fù)

      裸 null 被錯(cuò)誤轉(zhuǎn)為 "null" 字符串

      Gemma 4 PT 模型 token 重復(fù)

      修復(fù)

      預(yù)訓(xùn)練模型缺失 BOS token 導(dǎo)致輸出重復(fù)

      Kimi-K2.5 媒體占位符 token

      修復(fù)

      上游 config 和 tokenizer 的 ID 不一致

      一、Transformers v5:從兼容到正式依賴(lài)

      這個(gè) PR(#30566)從 2025 年 12 月就開(kāi)始做了,歷時(shí)四個(gè)多月終于合入。

      HuggingFace Transformers v5 是一次大版本升級(jí),改了不少底層 API。

      vLLM 作為最依賴(lài) Transformers 生態(tài)的推理引擎,這次升級(jí)涉及面很廣:

      • 模型加載方式變了 :配置注冊(cè)、tokenizer 獲取路徑都有調(diào)整

      • 部分模型暫不兼容 :比如 XVERSE 的 tokenizer 在 v5 下會(huì)報(bào)錯(cuò),暫時(shí)鎖定了 transformers<=4.57

      • LoRA 加載路徑修復(fù) :適配器目錄下沒(méi)有 config.json 時(shí)不再報(bào)錯(cuò)

      v0.19.0 已經(jīng)做了大面積適配,但還是"兼容"狀態(tài)

      v0.19.1 把 Transformers v5.5.4 正式拉進(jìn)依賴(lài)——如果你之前一直卡在 v4 不敢升,現(xiàn)在可以放心了

      二、Gemma 4 工具調(diào)用:流式輸出的六連修

      Gemma 4 的工具調(diào)用在 v0.19.0 發(fā)布時(shí)就能用,但流式場(chǎng)景下問(wèn)題一大堆:

      Bug 1:部分分隔符導(dǎo)致無(wú)效 JSON(#38992)

      Gemma 4 的工具調(diào)用格式用特殊分隔符標(biāo)記參數(shù)

      流式輸出時(shí),一個(gè)分隔符可能被拆成兩個(gè) chunk 發(fā)出去

      前半截分隔符被當(dāng)成普通文本輸出,后半截又被正確識(shí)別,導(dǎo)致最終拼出來(lái)的 JSON 是壞的

      修復(fù)方式:在流式輸出中檢測(cè)并剝離不完整的分隔符字符。

      Bug 2:工具調(diào)用后 HTML 內(nèi)容重復(fù)(#38909)

      Gemma 4 在執(zhí)行工具調(diào)用后繼續(xù)生成 HTML 內(nèi)容時(shí),parser 內(nèi)部會(huì)從緩沖的 delta 重建 current_text,導(dǎo)致已經(jīng)發(fā)過(guò)的內(nèi)容被重復(fù)發(fā)送。

      修復(fù)方式:停止從緩沖 delta 重建文本,直接使用原始流。

      Bug 3:跨 chunk 的布爾/數(shù)字值被截?cái)啵?39114)

      工具調(diào)用參數(shù)如果是 truefalse 或數(shù)字,這些值可能跨兩個(gè) chunk 被拆開(kāi)。比如 tru 在第一個(gè) chunk,e 在第二個(gè) chunk,parser 把 tru 當(dāng)成了字符串。

      修復(fù)方式:在流式模式下扣留冒號(hào)和后續(xù)空白字符,等值完整后再發(fā)送。

      Bug 4:裸 null 被轉(zhuǎn)成字符串 "null"(#39679)

      _parse_gemma4_value 函數(shù)處理了 true/false 的裸值,但漏了 null。結(jié)果 param:null 被解析成 {"param": "null"} 而不是 {"param": null}

      這會(huì)導(dǎo)致 tool_choice="auto"tool_choice=" " 產(chǎn)生不一致的輸出——后者走了 guided decoding 能正確處理 JSON schema,前者不行。

      修復(fù)方式:在值解析中補(bǔ)上 null 的處理。

      Bug 5:多輪工具調(diào)用 + 推理模式修復(fù)(#39027)

      這是最大的一個(gè)修復(fù),解決了多個(gè)問(wèn)題:

      • 新增了 Gemma 4 專(zhuān)用 chat template,正確編碼工具結(jié)果,處理多輪對(duì)話中交替出現(xiàn)的工具調(diào)用和推理內(nèi)容

      • 給 ReasoningParser 基類(lèi)添加了 adjust_request() 方法——Gemma 4 用它來(lái)強(qiáng)制設(shè)置 skip_special_tokens=False ,保留邊界 token

      • 修復(fù)了流式推理中 thought\n 前綴的剝離邏輯

      • 清理了 Anthropic Messages API 轉(zhuǎn)換中產(chǎn)生的空 user 消息

      Bug 6:LoRA 適配器加載失敗(#38844)

      Gemma4ForCausalLM 加載 LoRA 適配器時(shí)路徑有誤,現(xiàn)已修正。想在 Gemma 4 上微調(diào)+部署的同學(xué),這個(gè)必須有。

      ? 老章說(shuō):這六個(gè) bug 放一起看,就能理解為什么 Gemma 4 的工具調(diào)用在 v0.19.0 發(fā)布時(shí)被那么多人吐槽。流式 + 工具調(diào)用 + 特殊分隔符,這三個(gè)東西疊在一起,邊界條件多到爆炸。如果你在用 Gemma 4 做 function calling,v0.19.1 是必升版本。
      三、Gemma 4 量化 MoE:顯存殺手終于被馴服了

      Gemma 4 的 26B MoE 模型(實(shí)際激活 4B)跑起來(lái)并不重,但完整加載仍然需要不少顯存。v0.19.1 正式支持了量化 MoE:

      • FP8 動(dòng)態(tài)量化 (W8A8):RedHat 團(tuán)隊(duì)已經(jīng)發(fā)布了現(xiàn)成的量化模型 gemma-4-26B-A4B-it-FP8-Dynamic

      • NVFP4 量化 (W4A4):更激進(jìn)的壓縮,gemma-4-26B-A4B-it-NVFP4

      對(duì)應(yīng)的 llm-compressor 也同步更新了,支持 Gemma 4 MoE 的專(zhuān)家級(jí)校準(zhǔn)和量化流程。

      四、Gemma 4 Eagle3 推測(cè)解碼支持

      上篇文章我詳細(xì)講了 vLLM v0.19.0 新增的隱藏狀態(tài)提取功能

      v0.19.1 把這個(gè)能力擴(kuò)展到了 Gemma 4:

      • Gemma4Model 繼承了 EagleModelMixin ,支持輔助隱藏狀態(tài)的逐層收集

      • Gemma4ForCausalLMGemma4ForConditionalGeneration (多模態(tài)包裝器)都實(shí)現(xiàn)了 SupportsEagle3 接口

      • 在推測(cè)解碼配置驗(yàn)證的模型白名單中加入了 gemma4

      這意味著你現(xiàn)在可以用上篇介紹的那套流程,為 Gemma 4 訓(xùn)練專(zhuān)屬的 Eagle3 草稿模型,實(shí)現(xiàn)定制化的推測(cè)解碼加速。

      五、Gemma 4 PT 模型的 token 重復(fù)問(wèn)題

      這個(gè) bug 專(zhuān)門(mén)針對(duì) Gemma 4 的預(yù)訓(xùn)練模型(不帶 -it 后綴的那些)

      問(wèn)題根源:預(yù)訓(xùn)練模型沒(méi)有 chat template,走的是原始 completions 接口。但 Gemma 4 的 ProcessingInfo 默認(rèn)設(shè)置了 add_special_tokens=False——這個(gè)設(shè)置對(duì) IT(指令微調(diào))模型是對(duì)的,因?yàn)?chat template 渲染時(shí)已經(jīng)加了 BOS token。可 PT 模型沒(méi)有 template,BOS token 就丟了。

      缺少 BOS token 的后果:模型輸出開(kāi)始瘋狂重復(fù)。

      修復(fù)方式:動(dòng)態(tài)檢測(cè)模型是否有 chat_template,沒(méi)有的話自動(dòng)設(shè) add_special_tokens=True,確保 BOS token 被正確注入。

      六、Kimi-K2.5 媒體占位符修復(fù)

      這個(gè)跟 Gemma 4 無(wú)關(guān),但也值得提一嘴

      月之暗面的 Kimi-K2.5 模型的 config.json 里,media_placeholder_token_id 寫(xiě)的是 163605,但 tokenizer 實(shí)際映射的 <|media_pad|> ID 是 163602

      為什么不一致?因?yàn)?Kimi-K2.5 沒(méi)有附帶 tokenizer.json,Transformers 從 tiktoken 自動(dòng)轉(zhuǎn)換時(shí),特殊 token 的 ID 被悄悄壓縮了。

      修復(fù)方式:在初始化時(shí)從 tokenizer 重新解析 token ID,如果和 config 不一致就自動(dòng)修正。

      升級(jí)建議

      如果你不用 Gemma 4,v0.19.0 到 v0.19.1 的變化對(duì)你幾乎沒(méi)有影響,可以按需升級(jí)

      制作不易,如果這篇文章覺(jué)得對(duì)你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見(jiàn)!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      爭(zhēng)議?56歲西蒙尼66分鐘便換下2大巨星 歐冠出局后怒推阿森納總監(jiān)

      爭(zhēng)議?56歲西蒙尼66分鐘便換下2大巨星 歐冠出局后怒推阿森納總監(jiān)

      我愛(ài)英超
      2026-05-06 06:09:59
      破案了!麥考爾點(diǎn)解沒(méi)有隨廣東隊(duì)去北京?原因揭曉

      破案了!麥考爾點(diǎn)解沒(méi)有隨廣東隊(duì)去北京?原因揭曉

      體育哲人
      2026-05-06 00:49:21
      臺(tái)灣當(dāng)局集體跪諂斯太后,賴(lài)清德外交引爆全臺(tái)怒火

      臺(tái)灣當(dāng)局集體跪諂斯太后,賴(lài)清德外交引爆全臺(tái)怒火

      阿晪美食
      2026-05-05 23:34:12
      阿森納1-0馬競(jìng),賽后評(píng)分出爐:不是薩卡第1,阿森納41號(hào)排第一

      阿森納1-0馬競(jìng),賽后評(píng)分出爐:不是薩卡第1,阿森納41號(hào)排第一

      側(cè)身凌空斬
      2026-05-06 04:54:46
      吉利一聲不響換上“朱雀”新車(chē)標(biāo)! 被18個(gè)國(guó)家搶購(gòu),網(wǎng)友:太帥了

      吉利一聲不響換上“朱雀”新車(chē)標(biāo)! 被18個(gè)國(guó)家搶購(gòu),網(wǎng)友:太帥了

      沙雕小琳琳
      2026-05-06 03:36:13
      俄烏戰(zhàn)爭(zhēng)以來(lái)曝俄軍首次大規(guī)模敗退!烏克蘭炸毀俄后勤大橋

      俄烏戰(zhàn)爭(zhēng)以來(lái)曝俄軍首次大規(guī)模敗退!烏克蘭炸毀俄后勤大橋

      項(xiàng)鵬飛
      2026-05-05 19:02:50
      歐洲情報(bào)聲稱(chēng):普京已在地下掩體度過(guò)數(shù)周,并禁止工作人員用手機(jī)

      歐洲情報(bào)聲稱(chēng):普京已在地下掩體度過(guò)數(shù)周,并禁止工作人員用手機(jī)

      激情與榮耀并存
      2026-05-05 15:34:41
      湖南煙花爆竹企業(yè)全面停產(chǎn)整頓

      湖南煙花爆竹企業(yè)全面停產(chǎn)整頓

      新華社
      2026-05-05 22:55:04
      巴媒:羅比尼奧因兒子遭內(nèi)馬爾欺負(fù)很生氣,不接受其道歉了事

      巴媒:羅比尼奧因兒子遭內(nèi)馬爾欺負(fù)很生氣,不接受其道歉了事

      懂球帝
      2026-05-06 03:58:55
      又一保險(xiǎn)圈騙局曝光:銷(xiāo)冠任曉敏被警方帶走,涉案金額高達(dá)4億元

      又一保險(xiǎn)圈騙局曝光:銷(xiāo)冠任曉敏被警方帶走,涉案金額高達(dá)4億元

      天天熱點(diǎn)見(jiàn)聞
      2026-05-05 19:59:02
      谷愛(ài)凌穿“會(huì)吐泡泡”的高定裙子亮相Met Gala,裙子上有1.5萬(wàn)顆玻璃泡泡,制作耗時(shí)2550小時(shí)

      谷愛(ài)凌穿“會(huì)吐泡泡”的高定裙子亮相Met Gala,裙子上有1.5萬(wàn)顆玻璃泡泡,制作耗時(shí)2550小時(shí)

      魯中晨報(bào)
      2026-05-05 16:26:17
      73年人生謝幕,她于2026年4月28日安詳離去

      73年人生謝幕,她于2026年4月28日安詳離去

      阿廢冷眼觀察所
      2026-05-05 11:57:43
      魯比奧確認(rèn)對(duì)伊朗“史詩(shī)怒火”軍事行動(dòng)已結(jié)束

      魯比奧確認(rèn)對(duì)伊朗“史詩(shī)怒火”軍事行動(dòng)已結(jié)束

      財(cái)聯(lián)社
      2026-05-06 04:08:05
      男子開(kāi)車(chē)返滬路上看懵:旁邊的車(chē)?yán)铮黢{副駕2個(gè)女孩在睡覺(jué)?

      男子開(kāi)車(chē)返滬路上看懵:旁邊的車(chē)?yán)铮黢{副駕2個(gè)女孩在睡覺(jué)?

      上觀新聞
      2026-05-05 20:34:14
      難以置信!廣東女生因拍照不滿拿萬(wàn)元分手,不到3個(gè)月花男方5萬(wàn)多

      難以置信!廣東女生因拍照不滿拿萬(wàn)元分手,不到3個(gè)月花男方5萬(wàn)多

      火山詩(shī)話
      2026-05-06 05:54:09
      當(dāng)成都模式席卷全國(guó),為何只有粵、蘇、魯、浙、閩5省選擇不跟?

      當(dāng)成都模式席卷全國(guó),為何只有粵、蘇、魯、浙、閩5省選擇不跟?

      金卡讀城
      2026-05-04 07:45:56
      1-0!薩卡立大功,阿森納淘汰馬競(jìng),挺進(jìn)歐冠決賽,目標(biāo)直指冠軍

      1-0!薩卡立大功,阿森納淘汰馬競(jìng),挺進(jìn)歐冠決賽,目標(biāo)直指冠軍

      足球狗說(shuō)
      2026-05-06 04:54:03
      女性跑步:暴露這個(gè)隱私,是性感嗎?

      女性跑步:暴露這個(gè)隱私,是性感嗎?

      馬拉松跑步健身
      2026-05-05 19:18:07
      中超最新積分榜:蓉城9分領(lǐng)跑,泰山隊(duì)反超申花,負(fù)分球隊(duì)全清零

      中超最新積分榜:蓉城9分領(lǐng)跑,泰山隊(duì)反超申花,負(fù)分球隊(duì)全清零

      中超偽球迷
      2026-05-05 22:05:32
      酒局持續(xù)4小時(shí),從下廚招待到拿刀拼命,妻子到底經(jīng)歷了什么

      酒局持續(xù)4小時(shí),從下廚招待到拿刀拼命,妻子到底經(jīng)歷了什么

      笑談歷史阿晡
      2026-05-04 12:02:08
      2026-05-06 07:00:49
      Ai學(xué)習(xí)的老章 incentive-icons
      Ai學(xué)習(xí)的老章
      Ai學(xué)習(xí)的老章
      3372文章數(shù) 11146關(guān)注度
      往期回顧 全部

      科技要聞

      傳蘋(píng)果考慮讓英特爾、三星代工設(shè)備處理器

      頭條要聞

      媒體:中國(guó)史無(wú)前例下"阻斷禁令" 美媒迅速捕捉到信號(hào)

      頭條要聞

      媒體:中國(guó)史無(wú)前例下"阻斷禁令" 美媒迅速捕捉到信號(hào)

      體育要聞

      全世界都等著看他笑話,他帶國(guó)米拿下冠軍

      娛樂(lè)要聞

      內(nèi)娛真情誼!楊紫為謝娜演唱會(huì)送花籃

      財(cái)經(jīng)要聞

      瀏陽(yáng)煙花往事

      汽車(chē)要聞

      同比大漲190% 方程豹4月銷(xiāo)量29138臺(tái)

      態(tài)度原創(chuàng)

      教育
      本地
      家居
      公開(kāi)課
      軍事航空

      教育要聞

      富人才不會(huì)把女兒養(yǎng)這么胖!家長(zhǎng)曬女兒喝60元礦泉水,被網(wǎng)友群嘲

      本地新聞

      用青花瓷的方式,打開(kāi)西溪濕地

      家居要聞

      靈動(dòng)實(shí)用 生活藝術(shù)場(chǎng)

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普威脅伊朗不要向美國(guó)船開(kāi)火

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲一二三| 国产精品亚洲а∨天堂免下载 | 95sao国产在线观看免费| 中文字幕丝袜一区二区| 国产成人久视频免费| 国产最新进精品视频| 国产又粗又大又爽91嫩草| 久久香蕉国产线看观看精品yw| 久热av在线免费播放| 福利社午夜影院| 无码任你躁久久久久久老妇蜜桃| 成人午夜在线观看刺激| 少妇系列在线观看| 久久天堂综合亚洲伊人HD妓女| 野花韩国视频在线观看免费高清| 亚洲熟妇无码av另类vr影视| 中文字幕AⅤ人妻一区二区| а√天堂资源8在线官网在线| 中文字幕av免费看| 中国猛少妇色xxxxx| 一本色道久久亚洲综合加勒比| 亚洲综合国产一区二区三区| 亚洲综合伊人久久大杳蕉| 777米奇色狠狠俺去啦| 久久久久久亚洲精品| 正在播放:?37岁大奶美人妻打开双腿狂舔黑鲍鱼!| 亚洲精品无码电影| 国产亚洲精品日韩综合网| 在线观看 av香蕉| 艳妇乳肉豪妇荡乳AV无码福州市| 欧美色综合天天久久综合精品| 综合色色网| аⅴ资源天堂资源库在线| 男女啪啪免费体验区 | 日本一区二区视频免费播放 | 国产精品亚洲综合一区二区| 国产V^在线| 乱码中文字幕| 久久国产成人午夜av影院| 波多野结衣系列18部无码观看A| 亚洲AV无码专区国产乱码DVD|