<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      拒絕盲目猜token,阿里x浙大將投機解碼帶入彈性預算時代

      0
      分享至



      本文共同第一作者為阿里巴巴千問事業部胡欣怡博士、浙江大學博士生沈宇豪,以及阿里巴巴千問事業部張堡霖。其中,胡欣怡博士長期從事高效大模型算法與系統研究,重點關注模型結構-系統協同設計、推理加速與生成鏈路優化等方向,是本工作的項目負責人。通訊作者為阿里巴巴千問事業部戈霜。

      隨著大模型參數規模持續擴大,推理成本已經成為生產級 LLM 服務的核心瓶頸。投機解碼(Speculative Decoding, SD)通過「小模型 draft + 大模型 verify」的方式,將多個候選 token 放到一次目標模型前向中并行驗證,從而緩解自回歸解碼的串行瓶頸。

      但一個常被忽略的問題是:投機解碼在單請求或低并發下有效,不代表它在真實高并發服務中依然有效。當 batch size 增大時,多個請求會同時爭奪目標模型的驗證計算資源;此時每多驗證一個低價值 token,都可能直接轉化為吞吐下降和尾延遲上升。



      為了解決這一問題,來自阿里 ATH 事業群 - 千問事業部 - 基礎工程團隊和浙江大學的研究者提出了ECHO(Elastic Speculative Decoding with Sparse Gating for High-Concurrency Scenarios)。



      • 作者: Xinyi Hu, Yuhao Shen, Baolin Zhang, Hengxin Zhang, Jun Dai, Shuang Ge, Lei Chen, Yue Li, Mingcheng Wan
      • 單位: Alibaba Qwen Applications Business Group;Zhejiang University
      • 論文: ECHO: Elastic Speculative Decoding with Sparse Gating for High-Concurrency Scenarios
      • 鏈接: https://arxiv.org/abs/2604.09603

      ECHO 不再把投機樹構造看作 「盡可能多猜 token」的問題,而是將其重新建模為一個固定驗證預算下的調度問題:在嚴格的全局 token 驗證預算內,動態決定哪些請求應該繼續加深、哪些請求應該提前截斷、哪些預算應該轉向擴寬候選集。

      實驗結果顯示,在 BS=256 的高負載場景下,ECHO 將 Qwen3-235B-A22B 模型推理吞吐從 2,803 tok/s 提升至 3,207 tok/s,提升 14.4%,說明當 verification compute 逐漸成為稀缺資源時,驗證預算調度能夠顯著提升投機解碼的系統收益



      1. 為什么投機解碼在高并發下會失效?

      傳統投機解碼通常假設:目標模型一次驗證多個 draft token 的成本,接近一次普通自回歸前向。因此,只要 draft token 被接受得足夠多,就能獲得可觀加速。

      然而,在生產級服務中,這個假設并不總成立。



      換句話說,投機解碼在真實 serving 中不再是「免費驗證更多 token」,而是在有限驗證預算里選擇「最值得驗證的 token」。

      現有方法主要面臨兩類問題:

      • 靜態樹方法:采用固定結構,簡單穩定,但容易在低置信度分支上浪費大量驗證計算;
      • 動態樹方法:嘗試根據 token 概率在線調整樹結構,但往往依賴密集的逐層 / 逐節點決策,容易積累誤判,并產生 ragged batch,難以適配高性能 serving kernel。

      ECHO 的出發點正是:在高并發 serving 中,核心資源不是「draft token 數量」,而是目標模型每一步能夠承受的驗證預算

      2. ECHO:把投機樹構造變成預算調度

      ECHO 的核心思想可以概括為一句話:

      在一個 batch 內,將所有請求的候選 token 樹看作統一的 Super-Tree,并在全局驗證預算 K_max 下彈性分配深度與寬度。

      在每個投機解碼 step 中,batch 內有 B 個并發請求。對于第 i 個請求,假設其構造的候選樹包含 K_i 個待驗證 token,那么目標模型實際要驗證的是整個 batch 中所有候選節點的并集。ECHO 對其施加全局約束:



      其中 K_max 代表當前硬件和 serving 系統在 compute-bound 區間附近能夠承受的驗證上限。這樣,投機解碼就從「每個請求獨立擴樹」轉變為「多個請求共享一個全局預算池”」。

      這帶來了一個關鍵變化:給某個請求多分配一個候選 token,就意味著其他請求可用預算減少。因此,ECHO 不再盲目增加 draft depth 或 top-k,而是根據請求置信度動態決定預算如何流動。

      3. 稀疏門控:只在可靠的 sweet spots 做決策



      動態樹方法的一個難點在于:如果每一層、每個節點都做決策,控制開銷會迅速累積;更重要的是,不同深度上的置信度信號并不都同樣可靠。

      論文通過分析 accepted token 與 rejected token 的置信度分布發現:并非所有 draft depth 都適合做決策。某些深度上,接受與拒絕樣本的分布區分度較高,論文稱之為 sweet spots;而大量中間層的分布邊界模糊,在這些位置頻繁決策反而容易引入誤判。

      因此,ECHO 采用 Sparse Confidence Gating:

      • 只在 root、target depth,以及少量自適應選擇的中間深度進行門控;
      • 通過 warm-up /calibration 階段識別高區分度位置;
      • 在推理時根據路徑置信度判斷當前請求是繼續 deepen,還是 truncate 并釋放預算。

      對于第 i 個請求在深度 d 的候選集合,ECHO 使用最大似然路徑概率作為置信度:



      若 ci,d>τd,則認為當前路徑高置信,可以繼續向更深層擴展;否則提前截斷,將預算釋放給更高價值的請求或用于局部擴寬。

      4. 彈性預算調度:從「多猜 token」到「驗證預算重分配」



      ECHO 的第二個核心組件是Unified Elastic Budget Scheduler。它在全局預算下,同時處理兩類資源分配:

      1. 同一請求內部的 depth vs. width 調度:當深度擴展風險較高時,利用剩余預算在當前截斷深度擴寬候選集;
      2. 不同請求之間的預算重分配:當某些低置信度請求被截斷時,將節省出的預算轉移給其他高置信度請求,用于繼續加深。

      具體來說,ECHO 采用兩級優先級:

      • Priority 1:Global Depth Extension

      如果某個請求在 sparse gate 上通過置信度檢查,則優先將預算用于繼續加深,以減少后續全局驗證 step 數。

      • Priority 2:Opportunistic Width Expansion

      如果沒有請求能夠繼續高置信度加深,剩余預算才用于擴寬被截斷請求的候選集合,提高當前深度覆蓋正確 token 的概率。

      這種機制自然適配不同驗證預算狀態:

      • 在低負載場景下,驗證預算相對充足,ECHO 可以將截斷節省下來的預算重新用于當前請求的 width expansion;
      • 當系統逐漸進入 verification compute-bound 區間時,驗證預算競爭變強,低置信度請求釋放出的預算會被優先轉移給高置信度請求,用于 global depth extension。

      這也是 ECHO 名稱中「Elastic」的含義:它不是固定地追求更深或更寬,而是在請求熵、batch 負載和硬件預算之間動態調整。

      5. 面向系統落地:ECHO 集成到 SGLang

      很多動態投機樹方法雖然在原始 transformer 實驗中有效,但一旦進入真實 serving 框架,就會遇到 ragged batch 與 kernel 兼容性問題。

      ECHO 在系統層面專門處理了這一點。論文將 ECHO 集成到工業級推理框架SGLang中,并通過Flatten & Pack將不同請求產生的非規則候選 token 樹打包成 dense、kernel-compatible 的布局,再交給目標模型進行一次性驗證。

      這一步非常關鍵:如果算法產生的動態樹結構無法高效進入 serving kernel,那么理論上的 token 節省很可能被系統開銷抵消。ECHO 的設計目標不是單點優化 MAT,而是在真實高并發推理系統中提升 end-to-end goodput。

      目前團隊正在整理 ECHO 相關代碼和文檔,計劃于 6 月向 SGLang 提交 MR,進一步推動代碼開源、社區復現和系統集成。

      6. 實驗:從 8B 到 235B,驗證預算受限區間收益更明顯

      論文在多種模型規模上驗證了 ECHO,包括 Vicuna-13B、LLaMA-3.1-8B、LLaMA-3.3-70B,以及 Qwen3 系列的 8B、32B、235B。任務覆蓋 HumanEval、GSM8K、CNN/DM、Alpaca 和 MT-Bench,實驗在 8×NVIDIA H100 80GB GPU 上進行;低負載場景使用 HuggingFace transformers,高并發場景使用 SGLang。

      在低負載 BS=1 的設置下,ECHO 在所有 benchmark 上達到1.63×–5.35×的 wall-time speedup。其中:

      • LLaMA3.3-70B上,ECHO 最高達到5.35×加速;
      • Qwen3-235B上,ECHO 平均加速達到2.02×,優于 DDD 的 1.77× 和 EAGLE-3 的 1.69×;
      • Qwen3-32B上,ECHO 相比代表性動態方法 DDD 帶來15.8%的提升。

      ECHO 的主要有效區間,是 target verification 從近似免費并行逐漸進入 compute-bound 的驗證預算受限區間。論文在 MT-Bench、GSM8K、HumanEval 上評估了 4 個模型配置,并對比 EAGLE-3 以及兩個 ECHO 變體。結果顯示,當 verification compute 逐漸成為稀缺資源時,ECHO 依然能夠穩定提升吞吐,最大提升分別達到:

      • LLaMA3.1-8B:7.92%
      • LLaMA3.3-70B:12.96%
      • Qwen3-8B:10.00%
      • Qwen3-235B:14.95%

      對于 Qwen3-235B 這類工業級大模型,verification compute 更早進入 compute-bound 區間,因此錯誤的預算分配會更快傷害吞吐。ECHO 通過將低置信度請求節省的 token 預算重新分配給高置信度請求,在 BS=256 時將吞吐從2,803 tok/s提升至3,207 tok/s,提升14.4%

      7. 消融實驗:為什么 sparse gating 和 depth-aware threshold 都重要



      論文還比較了 ECHO 與兩個簡化變體:

      • Dense Gating:在每一層都做門控決策;
      • Fixed Threshold:所有深度共用同一個置信度閾值。

      結果表明,完整 ECHO 表現最好。原因在于:

      • Dense Gating 雖然看似更精細,但在不可靠深度上頻繁決策會引入額外開銷與誤判;
      • Fixed Threshold 無法適應深度變化,因為 token 概率通常會隨 depth 下降,單一閾值容易在深層過度剪枝,或在淺層放入過多低價值 token。

      在 LLaMA3.1-8B、BS=256 設置下,Dense Gating 比 ECHO 低約 5% 吞吐;在 Qwen3-235B 上,ECHO 相比 Fixed Threshold 提升5.3%(3,046 → 3,207 tok/s)。

      結語:投機解碼進入「預算時代」

      ECHO 的意義不只是提出了一個新的動態投機樹策略,更重要的是給出了一個面向生產 serving 的觀察:在高并發大模型推理中,投機解碼的核心不再是「猜得越多越好」,而是「在固定驗證預算內,讓每個被驗證 token 都更有價值」。通過 Super-Tree 視角、Sparse Confidence Gating、Elastic Budget Scheduling,以及面向 SGLang 的系統實現,ECHO 將投機解碼從局部樹結構優化推進到 batch-level 預算調度,為大模型高并發服務中的解碼加速提供了新的思路。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      ESPN預測東部天王山大戰:活塞勝率70.4%

      ESPN預測東部天王山大戰:活塞勝率70.4%

      體壇周報
      2026-05-13 16:42:26
      水谷隼徹底揭穿張本宇一家在日本受尊重的謊言!

      水谷隼徹底揭穿張本宇一家在日本受尊重的謊言!

      生活新鮮市
      2026-05-13 02:38:57
      為見女兒最后一面,老人第一次坐高鐵買不到票崩潰大哭,緊急求助,民警全程護航

      為見女兒最后一面,老人第一次坐高鐵買不到票崩潰大哭,緊急求助,民警全程護航

      環球網資訊
      2026-05-12 16:52:39
      女生沒電腦每天去電競館學習十幾小時獲免單,店主:很難得,少一臺機器沒什么,只是一點電費而已,并不覺得虧

      女生沒電腦每天去電競館學習十幾小時獲免單,店主:很難得,少一臺機器沒什么,只是一點電費而已,并不覺得虧

      大象新聞
      2026-05-12 23:42:06
      格列茲曼告別馬競,17年無西甲歐冠成就偉大

      格列茲曼告別馬競,17年無西甲歐冠成就偉大

      徐纗老表哥
      2026-05-07 00:23:37
      下一個阿德巴約?從“護框神獸”到完美中鋒,奧孔古的進擊之路

      下一個阿德巴約?從“護框神獸”到完美中鋒,奧孔古的進擊之路

      體壇熱評
      2026-05-13 14:53:36
      李泳漢妻子被曝設局套取手機錄音,婚后不工作,靠李家鼎給錢過活

      李泳漢妻子被曝設局套取手機錄音,婚后不工作,靠李家鼎給錢過活

      史料布籍
      2026-05-13 14:43:05
      一路走好,前八一女籃主教練武心慈去世,享年87歲

      一路走好,前八一女籃主教練武心慈去世,享年87歲

      懂球帝
      2026-05-12 22:21:17
      捅了馬蜂窩!黃仁勛喊中國不應拿芯片:結果中國四個月一片沒買!

      捅了馬蜂窩!黃仁勛喊中國不應拿芯片:結果中國四個月一片沒買!

      烈史
      2026-05-11 18:28:17
      楊麗萍“專屬男舞伴”墜樓自殺,跳得果決,和楊麗萍關系非同一般

      楊麗萍“專屬男舞伴”墜樓自殺,跳得果決,和楊麗萍關系非同一般

      一盅情懷
      2026-04-03 07:49:11
      重新發布神舟23號任務標識,臺灣島“回來了”

      重新發布神舟23號任務標識,臺灣島“回來了”

      太空那些事兒
      2026-05-13 08:17:08
      宇航員登月回歸后精神失常,死前坦言:人類不應踏足遠方

      宇航員登月回歸后精神失常,死前坦言:人類不應踏足遠方

      清茶淺談
      2024-12-20 22:30:46
      中國銀行原副行長林景臻被提起公訴,官方披露:其私藏、閱看、寄遞有嚴重政治問題的書籍;大搞權錢交易,非法收受巨額財物

      中國銀行原副行長林景臻被提起公訴,官方披露:其私藏、閱看、寄遞有嚴重政治問題的書籍;大搞權錢交易,非法收受巨額財物

      農視網
      2026-05-13 10:52:59
      東體:蒯紀聞、克勞德等人在康復;王振澳復出提供新選擇

      東體:蒯紀聞、克勞德等人在康復;王振澳復出提供新選擇

      懂球帝
      2026-05-13 13:04:29
      戛納電影節待遇好真實!鞏俐中文開幕,網紅賴在紅毯15分鐘沒鏡頭

      戛納電影節待遇好真實!鞏俐中文開幕,網紅賴在紅毯15分鐘沒鏡頭

      一盅情懷
      2026-05-13 16:42:40
      他若不死必是十大元帥之首?毛主席:他比我厲害十倍

      他若不死必是十大元帥之首?毛主席:他比我厲害十倍

      小豫講故事
      2026-05-04 06:00:15
      為什么有人一看到宏大敘事就煩?

      為什么有人一看到宏大敘事就煩?

      龍牙的一座山
      2026-05-13 08:36:07
      知名港星癌細胞擴散至腦部,聞到身上有尸臭味,剩四分之一條人命

      知名港星癌細胞擴散至腦部,聞到身上有尸臭味,剩四分之一條人命

      叨嘮
      2026-03-15 17:36:49
      “19寸螞蟻腰”混血美少女出道,這神顏是真實的嗎?

      “19寸螞蟻腰”混血美少女出道,這神顏是真實的嗎?

      吃瓜黨二號頭目
      2026-05-13 08:57:32
      從三成人口到0.5%,阿根廷黑人去哪了?這段歷史誰敢直面?

      從三成人口到0.5%,阿根廷黑人去哪了?這段歷史誰敢直面?

      新車知多少
      2026-05-13 10:30:49
      2026-05-13 17:35:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12983文章數 142648關注度
      往期回顧 全部

      科技要聞

      谷歌劇透安卓重大升級 Gemini深度集成底層

      頭條要聞

      出租車司機被兩老外"拐跑":3萬車費從海南開到黑龍江

      頭條要聞

      出租車司機被兩老外"拐跑":3萬車費從海南開到黑龍江

      體育要聞

      14年半,74萬,何冰嬌沒選那條更安穩的路

      娛樂要聞

      白鹿掉20萬粉,網友為李晨鳴不平

      財經要聞

      盤中最高4041.99點!創業板創歷史新高

      汽車要聞

      4月BBA無一款車型銷量破萬 新能源滲透率首破60%

      態度原創

      手機
      教育
      數碼
      藝術
      游戲

      手機要聞

      消息稱追覓AURORA手機將于今年第四季度發布

      教育要聞

      杭州市教育局局長陳鍵:教育的根本任務是立德樹人,教育始終為了人的全面發展

      數碼要聞

      6000 元左右性價比輕薄本怎么選?全能機型深度對比!

      藝術要聞

      乾隆 “翻車” 名畫刷屏!

      ?不思議迷宮風策略肉鴿《一方降妖錄》Steam商店頁公開,走格子也能玩出百般花樣!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 野花在线无码视频在线播放| 亚洲日本激情| 日韩精品人妻中文字慕有| 毛片无遮挡高清免费| 日韩av日韩| 亚洲精品欧美综合二区| 一本色道久久88加勒比—综合| 亚洲AV无码成人精品区天堂| 人妻少妇伦在线无码专区视频 | 免费AV手机在线观看片 | 性色av极品无码专区亚洲| 亚州精品无码久久aV字幕| 国产成人亚洲精品电影| 黑人无码一区二区三区| 久久天天躁综合夜夜黑人鲁色 | 国产亚洲精品久久久久久大师 | 亚洲片免费看| 精品国产乱码久久久久久婷婷| 国产成人亚洲综合青青| 丰满爆乳在线播放| 人妻少妇精品无码系列中文| 国产人前露出系列视频| 国产精品久久久久久2021| 国产极品美女在线精品| 国产成人无码A片免费看| 四虎在线中文字幕一区| 成年男女免费视频在线观看不卡| 女人夜夜春高潮爽a∨片传媒| 精品久久久久久久无码人妻热| 成人AV专区精品无码国产| 成人久久18免费网站| 久久久久久久av| 亚洲,变态,制服,综合,中| 欧美综合精品一区二区三区| 国产成人无码一区二区三区| 亚洲国产精彩中文乱码av| 久久久免费精品re6| 优优人体大尺大尺无毒不卡| 免费乱理伦片在线观看夜| 亚洲av日韩av永久无码电影| 5g影院天天看5g天天爽|