CUDA和CuTe开发 - 财报，业绩电话会，研报，新闻

CUDA和CuTe开发

搜索文档

量子位· 2026-01-22 19:13

文章核心观点 - 在大模型竞赛中，计算效率是关键瓶颈，单纯堆叠算力（显卡）已不足够，提升效率成为新的竞争焦点 [1] - 针对当前主流算子库在H20等推理卡上性能不佳、开发门槛高等痛点，腾讯混元AI Infra团队开源了生产级高性能LLM推理核心算子库HPC-Ops [2][4] - HPC-Ops通过底层架构优化，显著提升了核心算子性能，并在真实场景中验证了其能大幅提升模型推理效率 [5][6][47] 行业背景与痛点 - 大模型时代，计算效率是AI应用及发展的关键瓶颈 [7] - 现有主流算子库（如FlashInfer、DeepGEMM）主要针对NVIDIA H800等高配训练卡优化，与国内主流线上推理服务采用的H20等推理卡不匹配，难以发挥硬件峰值性能 [7][8][13] - 业务侧对极致吞吐、低延迟及复杂量化策略（如Blockwise FP8）的需求日益迫切，亟需更适配的底层支持 [9] - 现有主流算子库存在两大痛点：1) 设计复杂，修改适配成本高，阻碍了量化算法等加速研究的创新落地 [11][12]；2) 目标硬件不匹配，导致在国内主流推理卡上无法发挥全部性能 [13][14] HPC-Ops解决方案概述 - 腾讯混元使用CUDA和CuTe从零构建了一套轻量、高效的LLM核心算子库HPC-Ops [4][15] - 该库包含FusedMoE、Attention、通信、Norm、Sampler及各类融合算子等核心模块 [16] - 其设计目标是通过抽象化工程架构、微架构深度适配及指令级极致优化，降低开发门槛并将核心算子性能逼近硬件峰值 [4] 核心技术细节 - **任务特性与硬件能力对齐**：针对访存瓶颈算子，通过调整指令发射顺序进行数据预取优化，确保高数据传输利用率；针对不同问题规格做细致指令对齐，去除冗余指令，使访存带宽可达硬件峰值能力的80%以上 [19][20] - **精细的任务调度和数据重排**：重新思考任务数据划分调度策略，保证任务均衡与cache连续性；采用persistent kernel隐藏开销；通过数据重排减少额外操作和显存占用，如在FP8 Attention Kernel中采用Interleave重排技术提升性能 [22][23][24] - **聚焦计算逻辑本身**：基于CuTe扩展开发vec抽象层统一负责高效数据搬运，利用Layout代数抽象隔离复杂的Tiling与计算逻辑，让开发者能聚焦于算法本身，降低维护门槛 [26] 性能提升数据 - **端到端推理性能**：在真实场景下，基于HPC-Ops，混元模型推理QPM（每秒查询数）提升30%，DeepSeek模型QPM提升17% [5][27] - **单算子性能对比**： - Attention算子相比FlashInfer/FlashAttention最高提升2.22倍 [6][44] - GroupGEMM算子相比DeepGEMM最高提升1.88倍 [6][31] - FusedMoE算子相比TensorRT-LLM最高提升1.49倍 [6][36] - **具体场景性能**： - **GroupGEMM**：在Batch<=64的低延迟场景下优势显著，较DeepGEMM最佳表现最高提升1.88倍 [31] - **FusedMoE**：在TP（张量并行）场景下相比TensorRT-LLM最大性能提升达1.49倍；在EP（专家并行）模拟均衡场景下最大提升1.09倍 [36] - **Attention**： - Prefill场景（输入长度128～64K）：batch较小时，BF16精度下相比SOTA实现提升1.3倍；大batch时与SOTA对齐 [42][43] - Decode场景：BF16精度下提升1.35倍～2.22倍；FP8精度下，当Sequence Length较大时相比SOTA提升1.09倍~2.0倍 [44] 当前能力与集成 - HPC-Ops已在腾讯大规模生产环境中完成验证 [47] - 提供简洁易用的API，可无缝对接vLLM、SGLang等主流推理框架 [48] - 原生支持BF16、FP8等多精度量化方案 [48] - 以CuTe、CUTLASS为基础，提供数百行代码即可构建SOTA算子的实践范例，降低高性能CUDA内核开发门槛 [49] 未来发展方向 - 重点研发稀疏Attention算子，以解决长上下文大模型的内存与算力瓶颈 [51] - 拓展更丰富的量化策略，覆盖4bit/8bit混合精度等更多量化方案，进一步平衡推理速度与模型精度 [51] - 布局计算-通信协同优化的内核，通过融合多GPU间的计算与通信流程，大幅降低分布式推理场景下的通信开销，支撑超大规模模型高效部署 [51] 开源与社区 - HPC-Ops已在GitHub开放源码供开发者下载使用 [52] - 腾讯混元Infra团队欢迎行业技术实践者提交高价值PR，参与算子边缘场景优化、教程案例打磨等贡献，共同推动技术发展 [52]