![]()
機器之心編輯部
智能體時代的核心是算力。
尤其是在 Coding Agent 爆發之后,算力問題變得前所未有地尖銳。Claude Code、Codex、Cursor 等產品正在把 AI 從「問答工具」變成「持續運行的軟件協作者」,單次會話輕松突破 50K tokens,系統負載轉向了更極端、更復雜的智能體負載。
最近有關算力的大新聞層出不窮。今天的最新消息:馬斯克的 SpaceX 與 Anthropic 宣布達成了重磅協議,超過 22 萬塊英偉達 GPU 將為 Anthropic 所用。而 Anthropic 對與 SpaceX 合作開發未來的太空算力體系「表示有興趣」。
在如此龐大的算力需求下,除了開源還有節流。也是今天的最新消息:OpenAI 發布了多路徑可靠連接 (MRC),可幫助大型 AI 訓練集群更快、更可靠地運行,并減少 GPU 時間的浪費。
我們知道,即便只是單 GPU 吞吐率上的微小提升,一旦應用到生產級集群中,也能夠在服務持續增長需求的同時,節約相當可觀的算力。
來自 LightSeek Foundation 的一個小團隊,在兩個月時間內打造了一個全新的,號稱「光速」的大模型推理引擎 TokenSpeed。
![]()
這一引擎擁有TensorRT LLM 級別的性能,vLLM 級別的易用性。并且擁有 NVIDIA Blackwell 上最快的 MLA 注意力內核。
一經發布,TokenSpeed 就受到了英偉達發推文力薦。
![]()
目前,該引擎已經開源。讓我們參閱其技術博客,來深入了解「光速」引擎的技術細節。
![]()
- 博客標題:TokenSpeed: A Speed-of-Light LLM Inference Engine for Agentic Workloads
- 博客鏈接:https://lightseek.org/blog/lightseek-tokenspeed.html
- Github 鏈接:https://github.com/lightseekorg/tokenspeed
TokenSpeed 技術簡介
TokenSpeed 從第一性原理出發,專門為智能體推理場景設計。它為智能體負載提供接近「光速級」的推理能力,核心包括:基于編譯器的并行建模機制、高性能調度器、安全的 KV 資源復用約束、支持異構加速器的可插拔分層 kernel 系統,以及用于低開銷 CPU 側請求入口的 SMG 集成。
建模層采用本地 SPMD(Single Program, Multiple Data,單程序多數據)設計,在性能與易用性之間取得平衡。TokenSpeed 允許開發者在模塊邊界指定 I/O placement 注解。隨后,一個輕量級靜態編譯器會在模型構建過程中自動生成所需的 collective operation,從而無需手動實現通信邏輯。
TokenSpeed 調度器將控制平面(control plane)與執行平面(execution plane)解耦。
控制平面使用 C++ 實現,并被構建為一個有限狀態機(FSM),結合類型系統,在編譯期而非運行期強制執行安全資源管理,包括 KV cache 狀態轉移與使用。請求生命周期、KV cache 資源以及重疊執行時序,都通過顯式 FSM 狀態遷移與所有權語義進行表示,因此系統正確性并非依賴約定,而是由一個可驗證的控制系統來保證。
執行平面則使用 Python 實現,以保持開發效率,使研究人員與工程師能夠更快進行功能迭代,并降低整體認知負載。
TokenSpeed 的 kernel 層將 kernel 從核心引擎中解耦,并將其視為一級模塊化子系統。它提供了可移植的公共 API、集中的注冊與選擇機制、組織良好的實現結構、面向異構加速器的可擴展插件機制、經過整理的依賴體系,以及統一的快速迭代基礎設施。
與此同時,團隊還針對 NVIDIA Blackwell 架構進行了大量性能優化。例如,他們構建了當前智能體負載場景下速度最快的 MLA(Multi-head Latent Attention,多頭潛在注意力)kernel 之一。在 decode kernel 中,由于部分場景下「num_heads」較小,團隊通過對「q_seqlen」與「num_heads」進行分組,以更充分利用 Tensor Core 的計算能力。而 binary prefill kernel 則包含了經過精細調優的 softmax 實現。
目前,TokenSpeed MLA 已被 vLLM 采用。
TokenSpeed 性能預覽
Coding Agents(編碼智能體)帶來了異常嚴苛的推理工作負載,上下文通常會超過 50K tokens,對話也經常跨越數十輪。大多數公開基準測試并不能充分捕捉這種行為。
研發團隊與 EvalScope 團隊一起,基于 SWE-smith 軌跡對 TokenSpeed 進行評估,這些軌跡密切反映了生產環境中 Coding Agents 的流量情況。由于生成速度對 Agent 的用戶體驗至關重要,因此,團隊的目標是在維持單用戶 TPS(每秒 token 數)下限的同時,最大化單 GPU 的 TPM(每分鐘 token 數)—— 通常是 70 TPS,有時是 200 TPS 或更高。
此外,研發團隊針對 TensorRT-LLM(目前 NVIDIA Blackwell 平臺上的最高水平)對這一設計進行了基準測試,并在認為針對 Agentic workloads 存在更好權衡的地方,采取了與之不同的設計方案。
下圖展示了在不同部署配置下(無 PD 解耦),TokenSpeed 與 TensorRT-LLM 的 Kimi K2.5 性能帕累托曲線(Pareto curves)。
每條曲線都以 TPS/User(橫軸)作為延遲指標,以 TPM/GPU(縱軸)作為吞吐指標,并通過掃描并發數繪制而成。對于 Coding Agents(高于 70 TPS/User),最佳配置是 Attention TP4 + MoE TP4。
在這一配置下,TokenSpeed 在整個帕累托前沿上均優于 TensorRT-LLM:在最低延遲場景下(batch size 1)大約快 9%,在 100 TPS/User 附近吞吐量大約高 11%。
![]()
團隊表示,他們的核心優化之一是 TokenSpeed MLA。下圖對比了 TokenSpeed MLA 與 TensorRT-LLM 的 MLA,后者是目前 NVIDIA Blackwell 上的 SoTA。
![]()
可以看出來,優化后的二進制版本預填充內核(prefill kernel),使用 NVIDIA 內部旋鈕來微調 softmax 實現,在 Coding Agents 的五種典型預填充工作負載(帶長前綴 KV cache 的 prefill)中,都超過了 TensorRT-LLM 的 MLA。解碼內核則將查詢序列軸折疊進頭軸,以更好地填充 BMM1 的 M tile,從而提升 Tensor Core 利用率。
結合其他優化,在帶有 speculative decoding 的典型解碼工作負載中(batch size 為 4、8、16,且帶長前綴 KV cache),這使得相對于 TensorRT-LLM 來說,延遲幾乎降低了一半。
最后,研發團隊也表示,該項目于 2026 年 3 月中旬啟動開發,雖然目前展示了驚人的性能,但仍有大量底層代碼(如 PD 分離、KV 存儲等)正在合并和完善中,接下來將繼續推進。
從上述性能表現來看,不難看出,TokenSpeed 的出現旨在通過更現代化的架構設計,打破傳統推理框架在易用性與極致性能之間的平衡點,為大規模 Agent 部署提供了一個高性能、開源的底座。而英偉達的力薦,也說明推理引擎正在成為 Agent 時代基礎設施競爭的一個新焦點。
更多信息,請參閱原博客!
https://x.com/lightseekorg/status/2052048105412141376
https://x.com/NVIDIAAI/status/2052061195381911806
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.