腾讯混元AI Infra核心技术开源,推理吞吐提升30%
公司技术发布 - 腾讯混元AI Infra团队宣布推出开源生产级高性能LLM推理核心算子库HPC-Ops [1] - 该算子库基于CUDA和CuTe从零构建,旨在通过抽象化工程架构、微架构深度适配及指令级极致优化,降低底层算子开发门槛,并将核心算子性能逼近硬件峰值 [1] 性能表现 - 在真实场景下,基于HPC-Ops,混元模型推理QPM提升30%,DeepSeek模型QPM提升17% [3] - 单算子性能方面,HPC-Ops的Attention相比FlashInfer/FlashAttention最高提升2.22倍 [3] - GroupGEMM相比DeepGEMM最高提升1.88倍 [3] - FusedMoE相比TensorRT-LLM最高提升1.49倍 [3] 未来发展规划 - 将重点研发稀疏Attention算子,针对性解决长上下文大模型的内存与算力瓶颈 [3] - 会拓展更丰富的量化策略,覆盖4bit/8bit混合精度等更多量化方案,以进一步平衡推理速度与模型精度 [3] - 算子库还将布局计算-通信协同优化的内核,通过融合多GPU间的计算逻辑与通信流程,大幅降低分布式推理场景下的通信开销,为超大规模大模型的高效部署提供底层支撑 [3]