網易首頁 > 網易號 > 正文申請入駐

英偉達力薦，小團隊兩個月開源一款「光速級」智能體推理引擎

2026-05-07 15:06:46　來源: 機器之心Pro

河北舉報

分享至

機器之心編輯部

智能體時代的核心是算力。

尤其是在 Coding Agent 爆發之后，算力問題變得前所未有地尖銳。Claude Code、Codex、Cursor 等產品正在把 AI 從「問答工具」變成「持續運行的軟件協作者」，單次會話輕松突破 50K tokens，系統負載轉向了更極端、更復雜的智能體負載。

最近有關算力的大新聞層出不窮。今天的最新消息：馬斯克的 SpaceX 與 Anthropic 宣布達成了重磅協議，超過 22 萬塊英偉達 GPU 將為 Anthropic 所用。而 Anthropic 對與 SpaceX 合作開發未來的太空算力體系「表示有興趣」。

在如此龐大的算力需求下，除了開源還有節流。也是今天的最新消息：OpenAI 發布了多路徑可靠連接 (MRC)，可幫助大型 AI 訓練集群更快、更可靠地運行，并減少 GPU 時間的浪費。

我們知道，即便只是單 GPU 吞吐率上的微小提升，一旦應用到生產級集群中，也能夠在服務持續增長需求的同時，節約相當可觀的算力。

來自 LightSeek Foundation 的一個小團隊，在兩個月時間內打造了一個全新的，號稱「光速」的大模型推理引擎 TokenSpeed。

這一引擎擁有TensorRT LLM 級別的性能，vLLM 級別的易用性。并且擁有 NVIDIA Blackwell 上最快的 MLA 注意力內核。

一經發布，TokenSpeed 就受到了英偉達發推文力薦。

目前，該引擎已經開源。讓我們參閱其技術博客，來深入了解「光速」引擎的技術細節。

博客標題：TokenSpeed: A Speed-of-Light LLM Inference Engine for Agentic Workloads
博客鏈接：https://lightseek.org/blog/lightseek-tokenspeed.html
Github 鏈接：https://github.com/lightseekorg/tokenspeed

TokenSpeed 技術簡介

TokenSpeed 從第一性原理出發，專門為智能體推理場景設計。它為智能體負載提供接近「光速級」的推理能力，核心包括：基于編譯器的并行建模機制、高性能調度器、安全的 KV 資源復用約束、支持異構加速器的可插拔分層 kernel 系統，以及用于低開銷 CPU 側請求入口的 SMG 集成。

建模層采用本地 SPMD（Single Program, Multiple Data，單程序多數據）設計，在性能與易用性之間取得平衡。TokenSpeed 允許開發者在模塊邊界指定 I/O placement 注解。隨后，一個輕量級靜態編譯器會在模型構建過程中自動生成所需的 collective operation，從而無需手動實現通信邏輯。

TokenSpeed 調度器將控制平面（control plane）與執行平面（execution plane）解耦。

控制平面使用 C++ 實現，并被構建為一個有限狀態機（FSM），結合類型系統，在編譯期而非運行期強制執行安全資源管理，包括 KV cache 狀態轉移與使用。請求生命周期、KV cache 資源以及重疊執行時序，都通過顯式 FSM 狀態遷移與所有權語義進行表示，因此系統正確性并非依賴約定，而是由一個可驗證的控制系統來保證。

執行平面則使用 Python 實現，以保持開發效率，使研究人員與工程師能夠更快進行功能迭代，并降低整體認知負載。

TokenSpeed 的 kernel 層將 kernel 從核心引擎中解耦，并將其視為一級模塊化子系統。它提供了可移植的公共 API、集中的注冊與選擇機制、組織良好的實現結構、面向異構加速器的可擴展插件機制、經過整理的依賴體系，以及統一的快速迭代基礎設施。

與此同時，團隊還針對 NVIDIA Blackwell 架構進行了大量性能優化。例如，他們構建了當前智能體負載場景下速度最快的 MLA（Multi-head Latent Attention，多頭潛在注意力）kernel 之一。在 decode kernel 中，由于部分場景下「num_heads」較小，團隊通過對「q_seqlen」與「num_heads」進行分組，以更充分利用 Tensor Core 的計算能力。而 binary prefill kernel 則包含了經過精細調優的 softmax 實現。

目前，TokenSpeed MLA 已被 vLLM 采用。

TokenSpeed 性能預覽

Coding Agents（編碼智能體）帶來了異常嚴苛的推理工作負載，上下文通常會超過 50K tokens，對話也經常跨越數十輪。大多數公開基準測試并不能充分捕捉這種行為。

研發團隊與 EvalScope 團隊一起，基于 SWE-smith 軌跡對 TokenSpeed 進行評估，這些軌跡密切反映了生產環境中 Coding Agents 的流量情況。由于生成速度對 Agent 的用戶體驗至關重要，因此，團隊的目標是在維持單用戶 TPS（每秒 token 數）下限的同時，最大化單 GPU 的 TPM（每分鐘 token 數）—— 通常是 70 TPS，有時是 200 TPS 或更高。

此外，研發團隊針對 TensorRT-LLM（目前 NVIDIA Blackwell 平臺上的最高水平）對這一設計進行了基準測試，并在認為針對 Agentic workloads 存在更好權衡的地方，采取了與之不同的設計方案。

下圖展示了在不同部署配置下（無 PD 解耦），TokenSpeed 與 TensorRT-LLM 的 Kimi K2.5 性能帕累托曲線（Pareto curves）。

每條曲線都以 TPS/User（橫軸）作為延遲指標，以 TPM/GPU（縱軸）作為吞吐指標，并通過掃描并發數繪制而成。對于 Coding Agents（高于 70 TPS/User），最佳配置是 Attention TP4 + MoE TP4。

在這一配置下，TokenSpeed 在整個帕累托前沿上均優于 TensorRT-LLM：在最低延遲場景下（batch size 1）大約快 9%，在 100 TPS/User 附近吞吐量大約高 11%。

團隊表示，他們的核心優化之一是 TokenSpeed MLA。下圖對比了 TokenSpeed MLA 與 TensorRT-LLM 的 MLA，后者是目前 NVIDIA Blackwell 上的 SoTA。

可以看出來，優化后的二進制版本預填充內核（prefill kernel），使用 NVIDIA 內部旋鈕來微調 softmax 實現，在 Coding Agents 的五種典型預填充工作負載（帶長前綴 KV cache 的 prefill）中，都超過了 TensorRT-LLM 的 MLA。解碼內核則將查詢序列軸折疊進頭軸，以更好地填充 BMM1 的 M tile，從而提升 Tensor Core 利用率。

結合其他優化，在帶有 speculative decoding 的典型解碼工作負載中（batch size 為 4、8、16，且帶長前綴 KV cache），這使得相對于 TensorRT-LLM 來說，延遲幾乎降低了一半。

最后，研發團隊也表示，該項目于 2026 年 3 月中旬啟動開發，雖然目前展示了驚人的性能，但仍有大量底層代碼（如 PD 分離、KV 存儲等）正在合并和完善中，接下來將繼續推進。

從上述性能表現來看，不難看出，TokenSpeed 的出現旨在通過更現代化的架構設計，打破傳統推理框架在易用性與極致性能之間的平衡點，為大規模 Agent 部署提供了一個高性能、開源的底座。而英偉達的力薦，也說明推理引擎正在成為 Agent 時代基礎設施競爭的一個新焦點。

更多信息，請參閱原博客！

https://x.com/lightseekorg/status/2052048105412141376

https://x.com/NVIDIAAI/status/2052061195381911806

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.