Workflow
多路径可靠连接 (MRC)
icon
搜索文档
英伟达力荐,小团队两个月开源一款「光速级」智能体推理引擎
机器之心· 2026-05-07 14:58
行业背景:智能体时代算力需求激增 - 智能体时代的核心是算力,Coding Agent等产品的爆发使算力问题变得前所未有地尖锐,AI正从“问答工具”转变为“持续运行的软件协作者”,单次会话轻松突破50K tokens,系统负载转向更极端、更复杂的智能体负载[1] - 行业对庞大算力的需求催生了开源与节流两大方向,例如SpaceX与Anthropic达成重磅协议,超过22万块英伟达GPU将为Anthropic所用,同时OpenAI发布了多路径可靠连接技术以减少GPU时间浪费[1] 公司及产品介绍:TokenSpeed推理引擎 - 来自LightSeek Foundation的团队在两个月内打造了名为TokenSpeed的全新大模型推理引擎,该引擎拥有TensorRT LLM级别的性能和vLLM级别的易用性,并拥有NVIDIA Blackwell上最快的MLA注意力内核,已获得英伟达官方推荐[3][4] - 该引擎目前已开源,专为智能体推理场景设计,旨在提供接近“光速级”的推理能力[5][6] 技术架构与设计原理 - TokenSpeed从第一性原理出发,核心包括:基于编译器的并行建模机制、高性能调度器、安全的KV资源复用约束、支持异构加速器的可插拔分层kernel系统,以及用于低开销CPU侧请求入口的SMG集成[7] - 建模层采用本地SPMD设计,允许开发者在模块边界指定I/O placement注解,并由轻量级静态编译器自动生成所需的集体操作,无需手动实现通信逻辑[7] - 调度器将控制平面与执行平面解耦,控制平面使用C++实现为有限状态机,在编译期强制执行安全资源管理;执行平面使用Python实现以保持开发效率[10][11] - kernel层将kernel从核心引擎中解耦,提供可移植的公共API、集中的注册与选择机制、面向异构加速器的可扩展插件机制等,并针对NVIDIA Blackwell架构进行了大量性能优化[11] 性能优化与成果 - 团队构建了当前智能体负载场景下速度最快的MLA注意力内核之一,在decode kernel中通过对“q_seqlen”与“num_heads”进行分组以更充分利用Tensor Core的计算能力,其二进制预填充内核包含了经过精细调优的softmax实现[11] - 目前,TokenSpeed MLA已被vLLM采用[12] - 在针对Coding Agents的评估中,团队的目标是在维持单用户70 TPS(有时是200 TPS或更高)下限的同时,最大化单GPU的TPM[14] - 在Attention TP4 + MoE TP4的最佳配置下,TokenSpeed在整个帕累托前沿上均优于TensorRT-LLM:在最低延迟场景下大约快9%,在100 TPS/User附近吞吐量大约高11%[15] - 优化后的二进制版本预填充内核在Coding Agents的五种典型预填充工作负载中,都超过了TensorRT-LLM的MLA;结合其他优化,在带有推测解码的典型解码工作负载中,延迟几乎降低了相对于TensorRT-LLM的一半[19] 项目现状与行业意义 - 该项目于2026年3月中旬启动开发,目前展示了惊人的性能,但仍有大量底层代码正在合并和完善中[19] - TokenSpeed的出现旨在通过更现代化的架构设计,打破传统推理框架在易用性与极致性能之间的平衡点,为大规模智能体部署提供一个高性能、开源的底座,英伟达的力荐也说明推理引擎正在成为智能体时代基础设施竞争的一个新焦点[20]