<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      英偉達力薦,小團隊兩個月開源一款「光速級」智能體推理引擎

      0
      分享至



      機器之心編輯部

      智能體時代的核心是算力。

      尤其是在 Coding Agent 爆發之后,算力問題變得前所未有地尖銳。Claude Code、Codex、Cursor 等產品正在把 AI 從「問答工具」變成「持續運行的軟件協作者」,單次會話輕松突破 50K tokens,系統負載轉向了更極端、更復雜的智能體負載。

      最近有關算力的大新聞層出不窮。今天的最新消息:馬斯克的 SpaceX 與 Anthropic 宣布達成了重磅協議,超過 22 萬塊英偉達 GPU 將為 Anthropic 所用。而 Anthropic 對與 SpaceX 合作開發未來的太空算力體系「表示有興趣」。

      在如此龐大的算力需求下,除了開源還有節流。也是今天的最新消息:OpenAI 發布了多路徑可靠連接 (MRC),可幫助大型 AI 訓練集群更快、更可靠地運行,并減少 GPU 時間的浪費。

      我們知道,即便只是單 GPU 吞吐率上的微小提升,一旦應用到生產級集群中,也能夠在服務持續增長需求的同時,節約相當可觀的算力。

      來自 LightSeek Foundation 的一個小團隊,在兩個月時間內打造了一個全新的,號稱「光速」的大模型推理引擎 TokenSpeed。



      這一引擎擁有TensorRT LLM 級別的性能,vLLM 級別的易用性。并且擁有 NVIDIA Blackwell 上最快的 MLA 注意力內核。

      一經發布,TokenSpeed 就受到了英偉達發推文力薦。



      目前,該引擎已經開源。讓我們參閱其技術博客,來深入了解「光速」引擎的技術細節。



      • 博客標題:TokenSpeed: A Speed-of-Light LLM Inference Engine for Agentic Workloads
      • 博客鏈接:https://lightseek.org/blog/lightseek-tokenspeed.html
      • Github 鏈接:https://github.com/lightseekorg/tokenspeed

      TokenSpeed 技術簡介

      TokenSpeed 從第一性原理出發,專門為智能體推理場景設計。它為智能體負載提供接近「光速級」的推理能力,核心包括:基于編譯器的并行建模機制、高性能調度器、安全的 KV 資源復用約束、支持異構加速器的可插拔分層 kernel 系統,以及用于低開銷 CPU 側請求入口的 SMG 集成。

      建模層采用本地 SPMD(Single Program, Multiple Data,單程序多數據)設計,在性能與易用性之間取得平衡。TokenSpeed 允許開發者在模塊邊界指定 I/O placement 注解。隨后,一個輕量級靜態編譯器會在模型構建過程中自動生成所需的 collective operation,從而無需手動實現通信邏輯。

      TokenSpeed 調度器將控制平面(control plane)與執行平面(execution plane)解耦。

      控制平面使用 C++ 實現,并被構建為一個有限狀態機(FSM),結合類型系統,在編譯期而非運行期強制執行安全資源管理,包括 KV cache 狀態轉移與使用。請求生命周期、KV cache 資源以及重疊執行時序,都通過顯式 FSM 狀態遷移與所有權語義進行表示,因此系統正確性并非依賴約定,而是由一個可驗證的控制系統來保證。

      執行平面則使用 Python 實現,以保持開發效率,使研究人員與工程師能夠更快進行功能迭代,并降低整體認知負載。

      TokenSpeed 的 kernel 層將 kernel 從核心引擎中解耦,并將其視為一級模塊化子系統。它提供了可移植的公共 API、集中的注冊與選擇機制、組織良好的實現結構、面向異構加速器的可擴展插件機制、經過整理的依賴體系,以及統一的快速迭代基礎設施。

      與此同時,團隊還針對 NVIDIA Blackwell 架構進行了大量性能優化。例如,他們構建了當前智能體負載場景下速度最快的 MLA(Multi-head Latent Attention,多頭潛在注意力)kernel 之一。在 decode kernel 中,由于部分場景下「num_heads」較小,團隊通過對「q_seqlen」與「num_heads」進行分組,以更充分利用 Tensor Core 的計算能力。而 binary prefill kernel 則包含了經過精細調優的 softmax 實現。

      目前,TokenSpeed MLA 已被 vLLM 采用。

      TokenSpeed 性能預覽

      Coding Agents(編碼智能體)帶來了異常嚴苛的推理工作負載,上下文通常會超過 50K tokens,對話也經常跨越數十輪。大多數公開基準測試并不能充分捕捉這種行為。

      研發團隊與 EvalScope 團隊一起,基于 SWE-smith 軌跡對 TokenSpeed 進行評估,這些軌跡密切反映了生產環境中 Coding Agents 的流量情況。由于生成速度對 Agent 的用戶體驗至關重要,因此,團隊的目標是在維持單用戶 TPS(每秒 token 數)下限的同時,最大化單 GPU 的 TPM(每分鐘 token 數)—— 通常是 70 TPS,有時是 200 TPS 或更高。

      此外,研發團隊針對 TensorRT-LLM(目前 NVIDIA Blackwell 平臺上的最高水平)對這一設計進行了基準測試,并在認為針對 Agentic workloads 存在更好權衡的地方,采取了與之不同的設計方案。

      下圖展示了在不同部署配置下(無 PD 解耦),TokenSpeed 與 TensorRT-LLM 的 Kimi K2.5 性能帕累托曲線(Pareto curves)。

      每條曲線都以 TPS/User(橫軸)作為延遲指標,以 TPM/GPU(縱軸)作為吞吐指標,并通過掃描并發數繪制而成。對于 Coding Agents(高于 70 TPS/User),最佳配置是 Attention TP4 + MoE TP4。

      在這一配置下,TokenSpeed 在整個帕累托前沿上均優于 TensorRT-LLM:在最低延遲場景下(batch size 1)大約快 9%,在 100 TPS/User 附近吞吐量大約高 11%。



      團隊表示,他們的核心優化之一是 TokenSpeed MLA。下圖對比了 TokenSpeed MLA 與 TensorRT-LLM 的 MLA,后者是目前 NVIDIA Blackwell 上的 SoTA。



      可以看出來,優化后的二進制版本預填充內核(prefill kernel),使用 NVIDIA 內部旋鈕來微調 softmax 實現,在 Coding Agents 的五種典型預填充工作負載(帶長前綴 KV cache 的 prefill)中,都超過了 TensorRT-LLM 的 MLA。解碼內核則將查詢序列軸折疊進頭軸,以更好地填充 BMM1 的 M tile,從而提升 Tensor Core 利用率。

      結合其他優化,在帶有 speculative decoding 的典型解碼工作負載中(batch size 為 4、8、16,且帶長前綴 KV cache),這使得相對于 TensorRT-LLM 來說,延遲幾乎降低了一半。

      最后,研發團隊也表示,該項目于 2026 年 3 月中旬啟動開發,雖然目前展示了驚人的性能,但仍有大量底層代碼(如 PD 分離、KV 存儲等)正在合并和完善中,接下來將繼續推進。

      從上述性能表現來看,不難看出,TokenSpeed 的出現旨在通過更現代化的架構設計,打破傳統推理框架在易用性與極致性能之間的平衡點,為大規模 Agent 部署提供了一個高性能、開源的底座。而英偉達的力薦,也說明推理引擎正在成為 Agent 時代基礎設施競爭的一個新焦點。

      更多信息,請參閱原博客!

      https://x.com/lightseekorg/status/2052048105412141376

      https://x.com/NVIDIAAI/status/2052061195381911806

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      37歲把公司賣給馬云,套現300億全部用來造車,何小鵬究竟有多牛

      37歲把公司賣給馬云,套現300億全部用來造車,何小鵬究竟有多牛

      藍色海邊
      2026-05-06 17:44:16
      繩子斷裂女游客已經死亡,事發前一直喊沒綁緊,嚇得快哭了

      繩子斷裂女游客已經死亡,事發前一直喊沒綁緊,嚇得快哭了

      映射生活的身影
      2026-05-05 21:19:42
      洪迪厄斯號豪華郵輪毒株確認可人傳人,可通過同床共枕或共享食物傳播,該郵輪上共149人

      洪迪厄斯號豪華郵輪毒株確認可人傳人,可通過同床共枕或共享食物傳播,該郵輪上共149人

      極目新聞
      2026-05-07 10:54:57
      問題果然出現了,比亞迪銷量暴跌26%,撕開新能源車最后的遮羞布

      問題果然出現了,比亞迪銷量暴跌26%,撕開新能源車最后的遮羞布

      混沌錄
      2026-05-06 23:01:06
      消失9年后復出,《藍色生死戀》最美蘿莉近照嚇壞網友:原來這些年她過得這么慘……

      消失9年后復出,《藍色生死戀》最美蘿莉近照嚇壞網友:原來這些年她過得這么慘……

      英國那些事兒
      2026-05-05 23:35:10
      歐冠決賽數據:皇馬15冠3亞 米蘭7冠4亞 拜仁6冠5亞 利物浦6冠4亞

      歐冠決賽數據:皇馬15冠3亞 米蘭7冠4亞 拜仁6冠5亞 利物浦6冠4亞

      智道足球
      2026-05-07 08:08:01
      美國一旦霸權結束,一定會滅亡的三個國家,排第一的果然是它

      美國一旦霸權結束,一定會滅亡的三個國家,排第一的果然是它

      琴音繚繞回
      2026-04-25 07:21:31
      全球AI新王誕生!Anthropic估值沖爆1.2萬億,首次反超OpenAI

      全球AI新王誕生!Anthropic估值沖爆1.2萬億,首次反超OpenAI

      新智元
      2026-05-07 17:32:45
      34歲肖戰高調官宣喜訊,官方發文全網恭喜,終于等到

      34歲肖戰高調官宣喜訊,官方發文全網恭喜,終于等到

      豬小艷吖
      2026-05-07 11:21:34
      身價百億坐擁北京一條街,出門私人飛機!京圈富婆 各個背景不簡單

      身價百億坐擁北京一條街,出門私人飛機!京圈富婆 各個背景不簡單

      地理三體說
      2026-05-06 21:57:28
      普京不想再打了,俄軍打下來的領土,足夠給1億俄羅斯人一個交待

      普京不想再打了,俄軍打下來的領土,足夠給1億俄羅斯人一個交待

      混沌錄
      2026-05-05 13:50:21
      高速行車誤區很多人不懂,120并不是最佳時速,這個速度更省錢

      高速行車誤區很多人不懂,120并不是最佳時速,這個速度更省錢

      藍色海邊
      2026-05-07 19:51:52
      開國大典在即,周恩來問毛主席:您還記得紅三十四師那個團長嗎?

      開國大典在即,周恩來問毛主席:您還記得紅三十四師那個團長嗎?

      云霄紀史觀
      2026-05-07 20:14:35
      張雪說:德比斯退役后進我公司做技術指導,我把他打造成網紅大咖

      張雪說:德比斯退役后進我公司做技術指導,我把他打造成網紅大咖

      童叔不飆車
      2026-05-07 13:43:21
      她和奧運冠軍馬琳離婚分走千萬,再婚嫁給金融學霸,如今怎樣了?

      她和奧運冠軍馬琳離婚分走千萬,再婚嫁給金融學霸,如今怎樣了?

      優趣紀史記
      2025-12-28 14:47:11
      吳宜澤名下臺球館人流量暴增,接受“臺球皇帝”專訪時談奧沙利文,在比賽時他曾發私信“支招”

      吳宜澤名下臺球館人流量暴增,接受“臺球皇帝”專訪時談奧沙利文,在比賽時他曾發私信“支招”

      極目新聞
      2026-05-06 16:55:05
      俄羅斯建議烏克蘭認真對待勝利日停火舉措

      俄羅斯建議烏克蘭認真對待勝利日停火舉措

      界面新聞
      2026-05-07 21:06:53
      PCB產業鏈,持續火爆,成長最高的10家公司

      PCB產業鏈,持續火爆,成長最高的10家公司

      新浪財經
      2026-05-07 19:46:50
      白城醫學高等專科學校原黨委書記劉俊道接受紀律審查和監察調查

      白城醫學高等專科學校原黨委書記劉俊道接受紀律審查和監察調查

      吉刻新聞
      2026-05-07 18:04:44
      白嫖烤全羊男子社會性死亡!“底褲”被扒,至今未付錢,警方介入

      白嫖烤全羊男子社會性死亡!“底褲”被扒,至今未付錢,警方介入

      凡知
      2026-05-06 15:07:44
      2026-05-07 21:32:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12939文章數 142644關注度
      往期回顧 全部

      科技要聞

      月之暗面完成20億美元融資,估值突破200億

      頭條要聞

      存款被銀行員工"轉走炒股" 兩儲戶1800萬元已全部到賬

      頭條要聞

      存款被銀行員工"轉走炒股" 兩儲戶1800萬元已全部到賬

      體育要聞

      巴黎再進歐冠決賽,最尷尬的情況還是發生了

      娛樂要聞

      Lisa主持!寧藝卓觀看脫衣秀風波升級

      財經要聞

      金融“風暴”,AI制造

      汽車要聞

      雷克薩斯全新純電三排SUV 全新TZ全球首發

      態度原創

      旅游
      數碼
      本地
      時尚
      公開課

      旅游要聞

      新華社消息|“五一”假期國內出游3.25億人次

      數碼要聞

      Keychron青檸磁軸家族擴容,新增三款客制化新軸體

      本地新聞

      用青花瓷的方式,打開西溪濕地

      假期5天賺1萬,全靠嘴甜

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 噜噜久久噜噜久久鬼88| 青草午夜精品视频在线观看| 亚洲制服丝袜av一区二区三区| 好吊视频专区一区二区三区| 亚洲中文在线观看| 久久久婷婷成人综合激情| 欧美中出无码| 亚洲理论在线a中文字幕| 国产亚洲精品字幕在线观看| 亚洲精品在线二区三区| 精品人妻系列无码人妻在线不卡 | 国产精品18久久久久网站| 久久精品国产乱子伦| 午夜伊人网| 无码国产精品成人| 欧美午夜不卡| 三上悠亚网站在线观看一区二区 | 探花无码| 女人与牲口性恔配视频免费| 亚洲中文字幕日产无码2020| 操操网| 国产一区内射最近更新| 2021国产精品视频网站| 少妇高潮一69aⅹ| 少妇口爆| 精品无码久久久久久久久久| 久久99国产精品久久99| 日本55丰满熟妇厨房伦| 竹菊影视欧美日韩一区二区三区四区五区| 夜夜嗨av色一区二区不卡| 蜜臀av人妻国产精品建身房 | 婷婷成人综合激情在线视频播放| 亚洲国产精品乱码一区二区 | 蜜桃av色欲a片精品一区| 国产精品久久久久久久久久蜜臀| 久久久久久AV| 久久精品无码一区二区2020 | 无码少妇一区二区性色av| av图片小说| 精品国产一区二区三区四区 | 亚洲国内精品自在线影院|