腾讯混元AI Infra核心技术开源:推理吞吐提升30%

公司技术发布 - 腾讯混元AI Infra团队正式推出开源生产级高性能大语言模型推理核心算子库HPC-Ops [1] - 在真实场景下,基于HPC-Ops,混元模型推理每秒查询量提升30% [1] - 在真实场景下,基于HPC-Ops,DeepSeek模型推理每秒查询量提升17% [1] 单算子性能表现 - HPC-Ops实现的Attention算子性能相比FlashInfer/FlashAttention最高提升2.22倍 [1] - HPC-Ops实现的GroupGEMM算子性能相比DeepGEMM最高提升1.88倍 [1] - HPC-Ops实现的FusedMoE算子性能相比TensorRT-LLM最高提升1.49倍 [1]

腾讯混元AI Infra核心技术开源:推理吞吐提升30% - Reportify