<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      大模型推理8倍加速,完全無損,以Qwen3.5-27B-DFlash為例

      0
      分享至

      前文介紹了 Qwen3.5-27B-DFlash,非常神奇

      本文更進一步,深入了解一下 DFlash 技術細節


      DFlash + DDTree 加速流水線 先說背景:推測解碼(Speculative Decoding)

      大模型生成文本的時候,最大的瓶頸是什么?一個 token 一個 token 地吐

      不管你 GPU 有多猛,自回歸生成就是一步一步來,快不了

      推測解碼(Speculative Decoding)是目前主流的加速思路:用一個小模型快速"猜"一串 token,再讓大模型一次性驗證。猜對了就賺了,猜錯了也不虧——大模型自己糾正就行

      但傳統推測解碼有個問題:小模型也是自回歸的,猜的速度也不夠快。

      DFlash:用擴散模型替代自回歸草稿

      DFlash(Block Diffusion for Flash Speculative Decoding)來自 Z Lab,核心創新就一句話:用輕量級 block diffusion 模型,單次前向傳播并行生成整個 token block 作為草稿

      傳統小模型一個一個猜,DFlash 一次猜一整塊(block size = 16)


      DFlash 方法流水線

      怎么做到的?

      關鍵技術叫 KV Injection——把目標大模型多層 hidden features 融合后注入草稿小模型的 KV cache,讓小模型也能高質量預測

      加速效果有多猛?

      基準

      模型

      DFlash 加速

      HumanEval T=0.0

      Qwen3-30B-MoE

      6.09x

      MATH-500 T=0.0

      Qwen3-8B

      6.17x

      GSM8K T=0.0

      Qwen3-8B

      5.20x

      AIME24 T=0.0

      Qwen3-8B

      5.91x

      MBPP T=0.0

      Qwen3-8B

      4.75x

      對比 EAGLE-3(目前最流行的推測解碼方案),DFlash 快了約 2.5 倍。EAGLE-3 的極限大概 2-3x 加速,DFlash 直接干到 5-6x

      而且在采樣模式(Temperature=1)和 thinking mode 下仍然保持約 4.5x 加速,這一點非常重要——大部分加速方案在有隨機性的時候就拉胯了

      DDTree:把 DFlash 再推一把

      DDTree(Diffusion Draft Tree)是以色列理工學院 Liran Ringel 在 DFlash 基礎上做的進一步優化

      核心思路:DFlash 一次前向傳播輸出的是每個位置的概率分布。DDTree 不是從中只取一條路徑,而是用 best-first heap 算法構建一棵草稿樹,選出最有希望的多條分支,然后讓目標模型一次前向傳播驗證整棵樹


      DDTree 四步流程:

      1. Block diffusion 一次前向生成 L 個位置的分布

      2. Best-first heap 在節點預算 B 下構建最優草稿樹

      3. Tree attention 編譯為目標模型輸入

      4. 驗證遍歷:匹配子節點則繼續,不匹配則取 bonus token 進入下輪

      這套方案有個數學保證:構建的樹在 draft 模型分布下可證明最大化期望接受長度

      效果:

      在 HumanEval T=0.0 上,DDTree 把 DFlash 的 6.09x 直接拉到了 8.22x,額外多賺了 2.13x。

      最關鍵的是——完全無損。目標模型用自己的解碼規則,DDTree 只是幫它更高效地探索搜索空間,輸出分布和不加速時完全一致。

      已支持的模型

      DFlash 已經為一批主流模型訓好了 Draft 模型:

      目標模型

      Draft 模型

      Kimi-K2.5 (Preview)

      z-lab/Kimi-K2.5-DFlash

      Qwen3.5-4B/9B/27B

      z-lab/Qwen3.5-*-DFlash

      Qwen3.5-35B-A3B

      z-lab/Qwen3.5-35B-A3B-DFlash

      Qwen3-Coder-30B-A3B

      z-lab/Qwen3-Coder-30B-A3B-DFlash

      Llama-3.1-8B-Instruct

      z-lab/LLaMA3.1-8B-Instruct-DFlash

      Qwen3.5-122B、397B 和 GLM-5.1 的 Draft 模型也在路上了。

      怎么用?

      DFlash 已經接入了三大推理框架:

      SGLang:

      python -m sglang.launch_server \
      --model-path Qwen/Qwen3.5-35B-A3B \
      --speculative-algorithm DFLASH \
      --speculative-draft-model-path z-lab/Qwen3.5-35B-A3B-DFlash \
      --tp-size 1 --attention-backend trtllm_mha

      vLLM:

      vllm serve Qwen/Qwen3.5-27B \
      --speculative-config '{"method": "dflash", "model": "z-lab/Qwen3.5-27B-DFlash", "num_speculative_tokens": 15}'

      Apple Silicon(MLX):

      pip install -e ".[mlx]"

      對,Mac 用戶也能用。

      DDTree 跑基準測試:

      git clone https://github.com/liranringel/ddtree
      cd ddtree
      pip install -r requirements.txt
      bash run_benchmark.sh
      python3 plot_results.py
      總結

      DFlash + DDTree 這對組合拳,代表了推測解碼的下一個階段:

      • DFlash 解決了"猜得慢"的問題 ——用 block diffusion 一次猜一整塊

      • DDTree 解決了"猜得不夠多"的問題 ——用概率樹探索多條路徑

      最終效果是 8x+ 無損加速,而且已經接入 SGLang、vLLM、MLX 三大框架,實際可用。

      對于部署大模型推理服務的團隊來說,這幾乎是免費的午餐——加速 5-8 倍,不犧牲任何輸出質量,只需要加載一個很小的 Draft 模型

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      深夜打虎!戴瑞你都53了,才學又好,為什么要貪?現在后悔都沒用

      深夜打虎!戴瑞你都53了,才學又好,為什么要貪?現在后悔都沒用

      小陸搞笑日常
      2026-05-06 05:43:30
      早就知道丈夫變心,卻忍到節目結束才離婚,拿九成財產后徹底翻盤

      早就知道丈夫變心,卻忍到節目結束才離婚,拿九成財產后徹底翻盤

      一盅情懷
      2026-05-04 16:33:57
      被曝求復合48小時后,文章忙于餐廳合影,馬伊琍會吃回頭草嗎?

      被曝求復合48小時后,文章忙于餐廳合影,馬伊琍會吃回頭草嗎?

      一盅情懷
      2026-04-14 14:21:32
      強行換主演的十部電視劇,口碑雪崩,賠了夫人又折兵

      強行換主演的十部電視劇,口碑雪崩,賠了夫人又折兵

      小Q侃電影
      2026-05-05 21:47:39
      7種適合糖尿病人吃的主食,放心吃,血糖好!

      7種適合糖尿病人吃的主食,放心吃,血糖好!

      小胡軍事愛好
      2026-05-05 21:00:48
      威力堪比數百萬顆原子彈,有個“大家伙”可能落在了我國南海

      威力堪比數百萬顆原子彈,有個“大家伙”可能落在了我國南海

      果殼
      2026-05-05 16:06:50
      上海市紀委監委一則通報,讓一個名字再次進入公眾視野——吉玉萍

      上海市紀委監委一則通報,讓一個名字再次進入公眾視野——吉玉萍

      愛意隨風起呀
      2026-05-05 21:23:02
      高速免費大改賬:沒了節假日全免,換3000公里隨便跑,是賺是虧?

      高速免費大改賬:沒了節假日全免,換3000公里隨便跑,是賺是虧?

      娛樂圈的筆娛君
      2026-05-06 05:47:30
      2名中國游客日本登山遇險,1人獲救,另一人救援困難!朋友發中日雙語求助,稱氣溫極度寒冷,兩人食物耗盡

      2名中國游客日本登山遇險,1人獲救,另一人救援困難!朋友發中日雙語求助,稱氣溫極度寒冷,兩人食物耗盡

      揚子晚報
      2026-05-05 17:24:46
      王清海教授:山楂的3個黃金組合,掃清血管“垃圾”,便宜又好用

      王清海教授:山楂的3個黃金組合,掃清血管“垃圾”,便宜又好用

      蠟筆小小子
      2026-04-21 14:43:37
      大陸表態后、鄭麗文一鳴驚人!賴清德終成笑話,國民黨3人丟盡臉

      大陸表態后、鄭麗文一鳴驚人!賴清德終成笑話,國民黨3人丟盡臉

      青梅侃史啊
      2026-05-05 19:39:00
      善惡到頭終有報,如今73歲的唐國強,已經走上了一條不歸路!

      善惡到頭終有報,如今73歲的唐國強,已經走上了一條不歸路!

      吳蒂旅行ing
      2026-03-20 05:20:46
      老婆出軌后,對方的妻子上門找到我:你媳婦跟我老公好上了

      老婆出軌后,對方的妻子上門找到我:你媳婦跟我老公好上了

      千秋文化
      2026-05-04 18:38:07
      閨蜜大婚我隨了5000,她回禮雨傘,看見傘柄刻著地址和6個數字

      閨蜜大婚我隨了5000,她回禮雨傘,看見傘柄刻著地址和6個數字

      磊子講史
      2026-01-23 16:54:49
      賴清德返臺不到10小時,特朗普就對中國喊話,臺當局淪為犧牲品

      賴清德返臺不到10小時,特朗普就對中國喊話,臺當局淪為犧牲品

      徐竦解說
      2026-05-05 22:27:35
      羅翔:如果一個人突然努力工作,業余時間開始學習,不再參加社交活動,那么,身邊的人可能不僅不會幫他,還會拉他下來,原因就一個!

      羅翔:如果一個人突然努力工作,業余時間開始學習,不再參加社交活動,那么,身邊的人可能不僅不會幫他,還會拉他下來,原因就一個!

      譚老師地理大課堂
      2026-04-22 00:03:57
      2026年上海浦東新區房價大幅下滑區域

      2026年上海浦東新區房價大幅下滑區域

      石辰搞笑日常
      2026-05-06 05:51:11
      高圓圓坦言:40歲高齡為小丈夫誕下寶貝,是我這輩子最正確且決定

      高圓圓坦言:40歲高齡為小丈夫誕下寶貝,是我這輩子最正確且決定

      一盅情懷
      2026-05-04 15:53:35
      京東秒送“倒閉”神曲

      京東秒送“倒閉”神曲

      我不叫阿哏
      2026-05-05 15:53:09
      5.6凌晨世乒賽16強全:國乒絕地反擊大獲全勝 韓乒零封 張本又爆冷

      5.6凌晨世乒賽16強全:國乒絕地反擊大獲全勝 韓乒零封 張本又爆冷

      林子說事
      2026-05-06 05:47:41
      2026-05-06 08:32:49
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3372文章數 11146關注度
      往期回顧 全部

      科技要聞

      傳蘋果考慮讓英特爾、三星代工設備處理器

      頭條要聞

      小伙去理發被店家弄到VIP房間后臉白了 聯系父母要錢

      頭條要聞

      小伙去理發被店家弄到VIP房間后臉白了 聯系父母要錢

      體育要聞

      全世界都等著看他笑話,他帶國米拿下冠軍

      娛樂要聞

      內娛真情誼!楊紫為謝娜演唱會送花籃

      財經要聞

      套現約455億,李嘉誠又賣了

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態度原創

      本地
      家居
      藝術
      游戲
      公開課

      本地新聞

      用青花瓷的方式,打開西溪濕地

      家居要聞

      靈動實用 生活藝術場

      藝術要聞

      這些勞動圖畫最美!

      老牌破解組回歸!兩款大作D加密終被拿下

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: WWW色色| 少妇无码一区二区三区免费| 久久久这里只有精品10| 日本成人午夜一区二区三区| 国产va在线观看| 国产在线拍揄自揄拍无码| 一区二区久久久| 国产成人亚洲精品色欲AV| 无码人妻精品一区二区三区66| 国内少妇人妻偷人精品| 国产乱码一区二区三区免费| AV无码中文| 亚洲乱码一区二区三区视色| 国产成熟妇女性视频电影| 亚洲AV永久无码天堂网国产| 国产永久在线视频| 亚洲精品第一页中文字幕| 超碰人人射| 日韩人妻少妇一区二区三区| 人妻精品影视在线观看| 国产精品成人免费一区久久羞羞 | 岛国av一区二区三区| 久久月本道色综合久久| 中文字幕一二三区| www.狠狠干| 午夜无码成人A片免费| 欧美高清精品一区二区| 自拍偷拍亚洲激情| 18禁裸乳无遮挡啪啪无码免费 | 影音先锋中文字幕人妻| 九九99国产精品视频| 免费人成又黄又爽的视频| 亚洲视频欧美| 九色综合狠狠综合久久| 大胸美女又黄w网站| 欧美激情一区二区三区在线播放| 好了av四色综合无码| 久久人搡人人玩人妻精品首页| 国产精品情侣呻吟对白视频| 激情av一区二区| 国产94在线 | 亚洲|