<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      一個更神奇的Qwen3.5-27B版本,推理速度暴漲5倍

      0
      分享至

      Nobody Knows Qwen3.5-27B Better Than Me

      證據如下:

      寫無可寫,居然還有高手——Qwen3.5-27B-DFlash

      它讓Qwen3.5-27B的推理速度直接起飛,最高能到5 倍加速,而且是無損加速,生成質量完全不打折

      簡介

      用大模型寫代碼、做數學題,模型想半天才吐一個 token 出來,GPU 利用率低得讓人心疼?

      這就是自回歸解碼的老毛病了——一個 token 一個 token 地生,串行瓶頸在那擺著

      之前業界用Speculative Decoding(推測解碼)來解決這個問題:先用一個小模型快速猜一串 token,再讓大模型并行驗證。EAGLE-3 是這個方向的 SOTA,但它的小模型還是自回歸的,加速比也就 2-3 倍,上限明顯

      DFlash(z-lab.ai/projects/dflash)來了,直接把「猜」的過程從自回歸換成了擴散模型。一次前向傳播就能并行生成一整個 block 的 token,配合大模型驗證,在 Qwen3-8B 上實現了6 倍以上的無損加速,比 EAGLE-3 快了將近2.5 倍

      下圖是 DFlash 的系統架構:


      DFlash 架構圖

      DFlash 來自z-lab(UCSD ML Systems Group),這幫人專做「讓 AI 更小、更快、更高效」的事,從算法到系統到應用全棧搞。論文已發(arXiv: 2602.06036),而且代碼全開源。

      為什么 DFlash 這么快?

      核心原因有兩個,搞懂了你就知道為什么這東西比 EAGLE-3 強這么多:

      1. 擴散模型天然適合做「猜測」

      EAGLE-3 的 drafter 是自回歸的,猜 8 個 token 就要跑 8 次前向傳播,成本線性增長。為了控制延遲,EAGLE-3 只能用極淺的模型(1 層 Transformer),猜測質量自然上不去

      DFlash 用的是block diffusion模型——不管你要猜 8 個還是 16 個 token,都是一次前向傳播搞定。這意味著 drafter 可以做得更深(5 層 Transformer),模型更有表達力,猜得更準,但延遲反而更低。論文里有個數據很能說明問題:一個 5 層的 DFlash 生成 16 個 token 的延遲,比 1 層的 EAGLE-3 生成 8 個 token 還低

      2. 關鍵洞察:「大模型自己就知道未來」

      光用擴散模型還不夠。如果小模型完全從零開始猜,猜不準的。DFlash 的核心創新是:從大模型(target model)的隱藏層抽取特征,注入到 drafter 的每一層 KV cache 里

      這跟 EAGLE-3 的做法有本質區別——EAGLE-3 只在輸入層融合 target 的特征,信息隨著層數增加會衰減。DFlash 是在 drafter 的每一層都注入,信息保持一致。這就是為什么 DFlash 的 acceptance length(被接受的草稿 token 數量)能隨著 drafter 層數有效增長,而 EAGLE-3 加層數收益遞減

      Qwen3.5-27B-DFlash:最熱門的版本

      DFlash 系列目前覆蓋了不少模型(huggingface.co/collections/z-lab/dflash),完整列表如下:

      目標模型

      DFlash Drafter

      Kimi-K2.5 (Preview)

      z-lab/Kimi-K2.5-DFlash

      Qwen3.5-4B

      z-lab/Qwen3.5-4B-DFlash

      Qwen3.5-9B

      z-lab/Qwen3.5-9B-DFlash

      Qwen3.5-27Bz-lab/Qwen3.5-27B-DFlash

      Qwen3.5-35B-A3B

      z-lab/Qwen3.5-35B-A3B-DFlash

      Qwen3-Coder-Next

      z-lab/Qwen3-Coder-Next-DFlash

      Qwen3-Coder-30B-A3B

      z-lab/Qwen3-Coder-30B-A3B-DFlash

      gpt-oss-20b

      z-lab/gpt-oss-20b-DFlash

      gpt-oss-120b

      z-lab/gpt-oss-120b-DFlash

      其中Qwen3.5-27B-DFlash是目前最熱門的版本,HuggingFace 上 5200+ 下載量、47 個 likes,drafter 模型只有2B 參數,非常輕量

      為什么 27B 最受歡迎?因為它是性價比最優點——27B 夠強,能處理大部分任務,又不像 122B/397B 那樣對顯卡要求太高,配合 DFlash 加速后更是如虎添翼

      實測數據

      官方在單張 NVIDIA B200 上做了全面測試,數據很有說服力。以 Qwen3.5-27B 為例,block size = 16,thinking 模式開啟:

      吞吐量對比(tok/s,越高越好):

      任務

      并發

      原版 (AR)

      MTP

      DFlash

      Math500

      1

      84

      243 (2.9x)

      397 (4.7x)

      Math500

      8

      625

      1457 (2.3x)

      2270 (3.6x)

      HumanEval

      1

      83

      236 (2.9x)

      427 (5.2x)

      HumanEval

      8

      602

      1345 (2.2x)

      2079 (3.5x)

      MBPP

      1

      84

      200 (2.4x)

      347 (4.2x)

      MT-Bench

      1

      84

      169 (2.0x)

      255 (3.0x)

      單并發場景下,HumanEval 上直接5.2 倍加速,Math500 上4.7 倍

      哪怕在并發 32 的高壓場景下,依然能維持1.5-1.9 倍的加速,這在生產環境里非常有價值

      對比 MTP(Multi-Token Prediction),DFlash 在所有任務上都大幅領先。而且記住——這是無損加速,輸出質量跟原版一模一樣。

      Acceptance Length 對比:

      任務

      B16 (MTP / DFlash)

      Math500

      7.14 /7.93

      HumanEval

      7.38 /9.18

      MBPP

      5.94 /7.27

      MT-Bench

      5.30 /5.47

      HumanEval 上 DFlash 平均每輪能被接受9.18 個 token,這意味著一次猜測就能「猜中」大部分內容,效率極高

      安裝與使用

      DFlash 已經適配了三大主流推理框架:vLLMSGLangTransformers

      vLLM(推薦生產環境)

      # 安裝(需要 nightly 版本)
      uv pip install vllm
      uv pip install -U vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly


      # 啟動服務
      vllm serve Qwen/Qwen3.5-27B \
      --speculative-config '{"method": "dflash", "model": "z-lab/Qwen3.5-27B-DFlash", "num_speculative_tokens": 15}' \
      --attention-backend flash_attn \
      --max-num-batched-tokens 32768
      SGLang

      python -m sglang.launch_server \
      --model-path Qwen/Qwen3.5-27B \
      --speculative-algorithm DFLASH \
      --speculative-draft-model-path z-lab/Qwen3.5-27B-DFlash \
      --speculative-num-draft-tokens 16 \
      --tp-size 1 \
      --attention-backend fa3 \
      --mem-fraction-static 0.75 \
      --mamba-scheduler-strategy extra_buffer \
      --trust-remote-code

      啟動后就是標準的 OpenAI 兼容 API,調用方式跟平時一樣:

      from openai import OpenAI

      client = OpenAI(base_url="http://localhost:30000/v1", api_key="EMPTY")

      response = client.chat.completions.create(
      model="Qwen/Qwen3.5-27B",
      messages=[{"role": "user", "content": "Write a quicksort in Python."}],
      max_tokens=4096,
      temperature=0.0
      )
      print(response.choices[0].message.content)

      Tip:對于長上下文或 Agent 場景,可以加--speculative-dflash-draft-window-size WINDOW_SIZE開啟 drafter 的滑動窗口注意力。

      Transformers(本地快速體驗)

      from transformers import AutoModel, AutoModelForCausalLM, AutoTokenizer

      # 加載 drafter 和 target
      draft = AutoModel.from_pretrained(
      "z-lab/Qwen3.5-27B-DFlash",
      trust_remote_code=True, dtype="auto", device_map="cuda:0"
      ).eval()
      target = AutoModelForCausalLM.from_pretrained(
      "Qwen/Qwen3.5-27B", dtype="auto", device_map="cuda:0"
      ).eval()
      tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3.5-27B")

      messages = [{"role": "user", "content": "How many positive whole-number divisors does 196 have?"}]
      input_ids = tokenizer.apply_chat_template(
      messages, return_tensors="pt",
      add_generation_prompt=True, enable_thinking=False
      ).to(draft.device)

      # 推測解碼生成
      output = draft.spec_generate(
      input_ids=input_ids, max_new_tokens=2048,
      temperature=0.0, target=target,
      stop_token_ids=[tokenizer.eos_token_id]
      )
      print(tokenizer.decode(output[0], skip_special_tokens=False))
      技術細節補充

      幾個值得關注的設計細節:

      1. 訓練成本極低

      Drafter 模型復用了 target model 的 embedding 層和 LM head(凍結),只訓練中間幾層 Transformer。以 27B 版本為例,drafter 才 2B 參數,訓練集用了大約 80 萬條樣本(來自 NVIDIA Nemotron 和 CodeAlpaca),用 target model 重新生成了響應來做訓練數據,保證對齊效果

      2. 只需一步去噪

      DFlash 推理時只做一步去噪(single denoising step),這跟傳統擴散模型需要多步迭代完全不同。因為它有 target model 的隱藏特征做條件,一步就夠了。這也是它比其他擴散解碼方法(如 DiffuSpec 需要 7B drafter)輕量得多的原因

      3. Reasoning 模型也能加速

      DFlash 對開啟了 thinking mode 的推理模型同樣有效。在 Qwen3-8B thinking 模式下,仍然能達到大約4.5 倍加速。對于動輒生成上千 token 思維鏈的推理模型來說,這個加速太有價值了

      總結

      DFlash 的核心貢獻可以用一句話概括:擴散模型不需要跟自回歸模型在生成質量上競爭,它只需要做一個優秀的「猜測者」

      這個思路確實精妙——擴散模型負責高速并行猜測,自回歸模型負責驗證保底,兩全其美

      優點:

      • 加速比碾壓 EAGLE-3,實測高達 5 倍以上

      • 完全無損,輸出跟原版一模一樣

      • drafter 極其輕量(27B 版本 drafter 才 2B 參數)

      • 已適配 vLLM + SGLang + Transformers 三大框架

      • 覆蓋模型廣泛,Qwen3、Qwen3.5、Kimi-K2.5、gpt-oss 全都有

      局限:

      • 需要 nightly 版本的 vLLM/SGLang,穩定性可能有坑

      • 目前 drafter 訓練代碼還未開源(不過已經承諾即將放出)

      • 高并發場景加速比會下降(這是 speculative decoding 的通病)

      • Qwen3.5-122B 和 397B 的 DFlash 版本還在路上

      如果你在用 Qwen3.5-27B 做推理服務,DFlash 幾乎是個無腦加分項。多加載一個 2B 的 drafter,就能讓吞吐量翻好幾倍,簡直是免費的午餐

      .5

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      賴清德專機繞路返航,4架戰機護航盡顯心虛

      賴清德專機繞路返航,4架戰機護航盡顯心虛

      音樂時光的娛樂
      2026-05-05 14:30:00
      倫敦世乒賽:8強賽對陣出爐,林詩棟3-0完成救贖,龍隊劉詩雯觀戰

      倫敦世乒賽:8強賽對陣出爐,林詩棟3-0完成救贖,龍隊劉詩雯觀戰

      晚霧空青
      2026-05-06 00:58:31
      不是文班 不是福克斯!馬刺爆冷輸球揪出水貨 33歲老將今夏恐退役

      不是文班 不是福克斯!馬刺爆冷輸球揪出水貨 33歲老將今夏恐退役

      籃球圈里的那些事
      2026-05-05 17:15:20
      五一假期結束別難過 還有45天又放假了!端午節放假通知正式出爐:6月19日-21日連放三天,不補班不調休

      五一假期結束別難過 還有45天又放假了!端午節放假通知正式出爐:6月19日-21日連放三天,不補班不調休

      每日經濟新聞
      2026-05-05 23:40:29
      美國人的歷史課本,是怎樣寫中國的?僅有20頁,記載了6個中國人

      美國人的歷史課本,是怎樣寫中國的?僅有20頁,記載了6個中國人

      抽象派大師
      2026-05-03 00:24:53
      1958年毛澤東視察濟南,酒桌上突然猛砸杯子死盯王新亭:把你隱瞞的秘密交底吧?

      1958年毛澤東視察濟南,酒桌上突然猛砸杯子死盯王新亭:把你隱瞞的秘密交底吧?

      史海孤雁
      2026-05-05 17:07:19
      突發!趙繼偉深夜11點做出重大決定,球迷:要加盟上海或北控?

      突發!趙繼偉深夜11點做出重大決定,球迷:要加盟上海或北控?

      呀古銅
      2026-05-06 06:09:06
      2001年,夫妻簽離婚協議時發現沒筆,妻子獨自上樓取筆時遇刺身亡

      2001年,夫妻簽離婚協議時發現沒筆,妻子獨自上樓取筆時遇刺身亡

      明月清風閣
      2026-05-05 21:25:06
      “新型霸凌”正在校園悄悄流行,孩子不敢說,但家長一定牢記這些

      “新型霸凌”正在校園悄悄流行,孩子不敢說,但家長一定牢記這些

      木言觀
      2026-05-05 07:09:57
      舌吻3小時、喊兒子小狼狗,狄鶯的畸形母愛終于反噬了

      舌吻3小時、喊兒子小狼狗,狄鶯的畸形母愛終于反噬了

      子芫伴你成長
      2026-05-02 22:50:39
      39歲何潔直播公布三婚,這姐還結啊,頭發都白了

      39歲何潔直播公布三婚,這姐還結啊,頭發都白了

      夢想總會變成真
      2026-05-05 21:36:52
      連沉7船!美軍動真格,真相曝光,德黑蘭權力失控,革命衛隊玩火

      連沉7船!美軍動真格,真相曝光,德黑蘭權力失控,革命衛隊玩火

      最美的巧合
      2026-05-05 16:00:24
      FIFA徹底慌了!多國集體拒高價買世界杯版權,天價泡沫徹底破裂

      FIFA徹底慌了!多國集體拒高價買世界杯版權,天價泡沫徹底破裂

      行者聊官
      2026-05-05 10:20:23
      比黃金貴3倍!1公斤賣165萬,以前農村隨手扔,看看你家有嗎

      比黃金貴3倍!1公斤賣165萬,以前農村隨手扔,看看你家有嗎

      三農雷哥
      2026-05-04 11:49:13
      百億私募暴雷,52人近1億血汗錢被套!

      百億私募暴雷,52人近1億血汗錢被套!

      三農老歷
      2026-05-05 05:42:41
      醫生發現:一旦吃上降血壓藥,這幾件事就別做了,別害了自己

      醫生發現:一旦吃上降血壓藥,這幾件事就別做了,別害了自己

      敘說醫療健康
      2026-05-06 05:00:06
      比亞迪這波降價,不只是真香,而是把一部分人直接推到了分岔路口

      比亞迪這波降價,不只是真香,而是把一部分人直接推到了分岔路口

      三農老歷
      2026-05-05 15:01:13
      球迷態度:阿森納英超領跑+歐冠進決賽,本賽季結局將如何?

      球迷態度:阿森納英超領跑+歐冠進決賽,本賽季結局將如何?

      懂球帝
      2026-05-06 05:45:10
      曾10分鐘賣500萬桶,半個娛樂圈為它帶貨!昔日網紅美食要破產了,杭州有便利店已下架

      曾10分鐘賣500萬桶,半個娛樂圈為它帶貨!昔日網紅美食要破產了,杭州有便利店已下架

      都市快報橙柿互動
      2026-05-06 00:20:04
      吳千語住進上海別墅,裝修剛完就搬了家,中產生活悄悄變了樣

      吳千語住進上海別墅,裝修剛完就搬了家,中產生活悄悄變了樣

      孤傲何妨初
      2026-05-06 04:31:12
      2026-05-06 06:56:49
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3372文章數 11146關注度
      往期回顧 全部

      科技要聞

      傳蘋果考慮讓英特爾、三星代工設備處理器

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      體育要聞

      全世界都等著看他笑話,他帶國米拿下冠軍

      娛樂要聞

      內娛真情誼!楊紫為謝娜演唱會送花籃

      財經要聞

      瀏陽煙花往事

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態度原創

      家居
      本地
      房產
      數碼
      公開課

      家居要聞

      靈動實用 生活藝術場

      本地新聞

      用青花瓷的方式,打開西溪濕地

      房產要聞

      五一樓市徹底明牌!塔尖人群都在重倉凱旋新世界

      數碼要聞

      微星“MAG 276QRDY54”27英寸顯示器發售,6299元

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲国产综合自在线另类| 国产天美传媒性色av高清| 欧美亚洲一区在线| 亚洲日韩久久综合中文字幕| 欧美视频在线观看第一页| 伊人色色| 久久久久性色av毛片特级| 黄色特级片一区二区三区| 曰韩三级无码久久探 | 亚洲AV成人网站在线观看| 欧美成人免费观看在线看| 久久精品中文字幕极品| 日韩成人片| 亚洲国产精品ⅴa在线观看| 国产尤物二区三区在线观看| 10000拍拍拍18勿入免费看| 国产 一区二区三区视频| 亚洲AV第二区国产精品| 这里只有精品6| 狂欢视频在线观看不卡| 亚洲AV中文无码乱人伦在线咪咕| 欧美BB| 丁香五月亚洲综合在线| 亚洲美女又黄又爽在线观看| 无码国产精品一区二区色情男同| 九九精品成人免费国产片| 国产九九在线视频| 波多野结衣一区二区三区av免费| 国产av永久无码天堂影院| 成人av中文字幕在线| 亚洲精品久久久久avwww潮水| 欧美牲交A欧美在线| 国产性色αv视频免费| 91网在线| 精品久久久久久久中文字幕| 国产午夜一级鲁丝片| 91久久综合精品国产丝袜长腿| 欧美亚洲国产精品久久蜜芽| 国产初高中生视频在线观看| 国产精品偷伦视频免费观看了| av激情网|