腾讯混元AI Infra核心技术开源，推理吞吐提升30%

公司技术发布 - 腾讯混元AI Infra团队宣布推出开源生产级高性能LLM推理核心算子库HPC-Ops [1] - 该算子库基于CUDA和CuTe从零构建，旨在通过抽象化工程架构、微架构深度适配及指令级极致优化，降低底层算子开发门槛，并将核心算子性能逼近硬件峰值 [1] 性能表现 - 在真实场景下，基于HPC-Ops，混元模型推理QPM提升30%，DeepSeek模型QPM提升17% [3] - 单算子性能方面，HPC-Ops的Attention相比FlashInfer/FlashAttention最高提升2.22倍 [3] - GroupGEMM相比DeepGEMM最高提升1.88倍 [3] - FusedMoE相比TensorRT-LLM最高提升1.49倍 [3] 未来发展规划 - 将重点研发稀疏Attention算子，针对性解决长上下文大模型的内存与算力瓶颈 [3] - 会拓展更丰富的量化策略，覆盖4bit/8bit混合精度等更多量化方案，以进一步平衡推理速度与模型精度 [3] - 算子库还将布局计算-通信协同优化的内核，通过融合多GPU间的计算逻辑与通信流程，大幅降低分布式推理场景下的通信开销，为超大规模大模型的高效部署提供底层支撑 [3]