Listen

Description

TokenSpeed 推出,實現 TensorRT LLM 等級效能與 vLLM 等級易用性。

LightSeek Foundation 於 2026 年 5 月 6 日發布 TokenSpeed,一款專為 Agentic 程式開發工作負載設計的超高速 LLM 推論引擎,由精簡團隊在兩個月內建置完成,MIT 授權開源。該引擎針對程式開發 Agent 的高需求情境優化,透過編譯器支援的平行處理、高效能排程器、安全 KV 資源重用,以及異質加速器相容的模組化核心系統,提供極致推論速度。

開發背景與定位
Agentic 程式開發已從演示快速擴展為重塑軟體開發與前沿人工智慧系統建置部署的強大力量,如 Claude Code、Codex 和 Cursor 等系統獲得大量使用者採用,產生巨量 token。為因應此成長,資料中心正興建需數十吉瓦功率的設施,投資達數千億美元規模。在此規模下,模型推論協調系統的效率至關重要,即使 GPU 每單位吞吐量的小幅提升,在生產叢集應用時也能帶來大量容量節省,同時滿足不斷增長的需求。TokenSpeed 從第一原理設計,專攻 agentic-inference 情境,強調「光速推論」。

核心架構設計
TokenSpeed 採用本地 SPMD (Single Program, Multiple Data) 設計,平衡效能與易用性,讓開發者能在模組邊界指定 I/O 配置註解,轻量靜態編譯器自動產生所需集體運算,無需手動實作通訊邏輯。
排程器將控制平面與執行平面分離:控制平面以 C++ 實作為有限狀態機 (FSM),結合類型系統在編譯時強制安全資源管理,包括 KV 快取狀態轉移與使用,避免運行時錯誤;請求生命週期、KV 快取資源與重疊時序透過明確 FSM 轉換與擁有權語義表示,正確性由可驗證控制系統保障,而非慣例。執行平面則以 Python 實作,維持開發效率,加速功能迭代並減輕研究員與工程師認知負荷。
核心層將核心與引擎分離,視為一級模組子系統,提供可攜式公開 API、集中註冊與選擇模型、組織化實作、可擴展 plugin 機制支援異質加速器、精選依賴與統一基礎設施。特別針對 NVIDIA Blackwell 平台大力優化,例如打造 agentic 工作負載下最快的 MLA (Multi-head Latent Attention) 核心;在解碼核心中,將 qseqlen 與 numheads 群組,以充分利用 Tensor Cores(因某些情境 num_heads 較小);二進位預填充核心包含微調 softmax 實作。TokenSpeed MLA 已獲 vLLM 採用。

效能預覽與基準測試
開發自 2026 年 3 月中旬啟動,目前為效能預覽版本,引擎與核心持續開發,生產強化預計下個月完成,多項 PR 即將合併。程式開發 Agent 帶來極端推論負載:上下文常超 50K token,對話橫跨數十輪回合,多數公開基準無法完整捕捉此行為。LightSeek 與 EvalScope 團隊使用 SWE-smith traces 評估,模擬生產程式開發 Agent 流量;目標為最大化每 GPU TPM (tokens per minute),同時維持每使用者 TPS (tokens per second) 底線——典型 70 TPS,有時達 200 TPS 或更高。
基準針對 NVIDIA Blackwell 上的 TensorRT-LLM(當前最先進),在 agentic 工作負載尋求更好權衡。以下為 Kimi K2.5 在不同部署配置(無 PD 分離)的 Pareto 曲線,以 TPS/User(x 軸,延遲指標)對 TPM/GPU(y 軸,吞吐指標),透過掃描併發度描繪。
對於程式開發 Agent(>70 TPS/User),最佳配置為 Attention TP4 + MoE TP4,TokenSpeed 在整個 Pareto 前沿主宰 TensorRT-LLM:最小延遲情境(batch size 1)約快 9%,約 100 TPS/User 時吞吐高 11%。
TokenSpeed MLA 優化對比 TensorRT-LLM MLA(Blackwell 最先進):二進位預填充核心使用 NVIDIA 內部旋鈕微調 softmax,在五種典型程式開發 Agent 預填充工作負載(長前綴 KV 快取)全面超越;解碼核心將查詢序列軸摺疊至頭軸,更佳填充 BMM1 M 圖塊,提升 Tensor Core 使用率。結合其他優化,在典型解碼工作負載(投機解碼,batch sizes 4、8、16 配長前綴 KV 快取)延遲幾乎減半。
效能圖表 顯示 TokenSpeed 在 B200 上運行 Kimi K2.5 與 TokenSpeed MLA 的結果。

當前狀態與未來工作
此版本為預覽釋出版本,用以重現 TokenSpeed 部落格 中 Kimi K2.5 on B200 與 TokenSpeed MLA on B200 結果,多項重大 PR 尚未合併。進行中工作包括:
模型涵蓋:Qwen 3.6、DeepSeek V4、MiniMax M2.7。
運行時功能:PD、EPLB、KV store、Mamba cache、VLM、指標。
平台優化:Hopper 優化、MI350 優化及相關運行時改進。
這些功能正清理中,將於未來數週合併至 main 分支。目前重度開發中,僅用於展示新運行時設計與技術方向,勿用於生產部署。

文件與入門指南
完整文件見 文件索引。快速入門連結:
入門指南
啟動伺服器
模型配方
伺服器參數
相容參數
平行處理
GitHub 儲存庫:https://github.com/lightseekorg/tokenspeed。

合作與致謝
TokenSpeed 不可能無團隊支持實現,感謝 @nvidia、@AMD、@AlibabaQwen、@togethercompute、Mooncake @KTProjectAI、@MeituanLongCat 與 FluentLLM 的貢獻;計算資源支持來自 @sama、@gdb、NVIDIA、AMD、@verdacloud 與 @nebiusai。感謝 EvalScope @ModelScope2022 的基準測試合作,以及 @vllm_project 支持 TokenSpeed MLA 採用。
開發合作單位包括 NVIDIA DevTech、AMD Triton、Qwen Inference、Together AI、Mooncake、LongCat、FluentLLM、EvalScope、NVIDIA Dynamo 與 LightSeek Foundation。感激 TensorRT-LLM 維護者,其工作設定了我們衡量標準,多項優化受其啟發,如 one-CUDA-graph 優化與前向傳遞優化;也感謝開源推論社群,包括 Triton、FluentLLM、vLLM、EvalScope、FlashInfer、SGLang 等,提升生產 LLM 服務天花板。計算支持來自 OpenAI、NVIDIA、AMD、Verda 與 Nebius。

貢獻者名單
共同創作者:Enwei Zhu、Jiying Dong、Xipeng Li (NVIDIA) · Pengzhan Zhao、Kyle Wang、Lei Zhang (AMD) · Jiandong Jiang、Tuan Zhang、Minmin Sun (Qwen Inference) · Jue Wang、Yineng Zhang (Together AI) · Hongtao Chen、Mingxing Zhang (Mooncake) · Bo Wang、Fengcun Li (LongCat) · Xiangyang Ji、Yulei Qian (FluentLLM)。
核心運行時:排程器——Yulei Qian、Fengcun Li、Bo Wang;核心——Lei Zhang、Pengzhan Zhao、Kyle Wang;建模——Yulei Qian、Xiangyang Ji、Jue Wang;MLA——Albert Di、Jiying Dong;文法與取樣——Jue Wang、Weicong Wu;MoE——Hongtao Chen;VLM——Hongtao Chen、Fengcun Li、Bo Wang。
模型優化:Kimi K2.5 光速優化——Enwei Zhu、Jiying Dong、Yue Weng、Albert Di;Qwen 3.6——Minmin Sun、Tuan Zhang、Jiandong Jiang;DeepSeek V4——Jiying Dong、Qingquan Song、Qiukai Chen、Yechan Kim、Hejian Sang;GPT-OSS on AMD——Pengzhan Zhao、Kyle Wang;Minimax M2.7——Fan Yin、Jue Wang。
系統與整合:分散式運行時——Xuchun Shang、Teng Ma;投機解碼——Yue Weng;AsyncLLM 與 SMG——Simo Lin、Keyang Ru、Xipeng Guan;T…