推理性能提升10倍蚂蚁集团开源高性能扩散语言模型推理框架dInfer

公司技术发布 - 蚂蚁集团正式开源业界首个高性能扩散语言模型推理框架dInfer [1] - dInfer是一款专为扩散语言模型设计的、算法与系统深度协同的高性能推理框架，可支持LLaDA、LLaDA-MoE等多种模型 [2] - 该框架包含模型接入、KV缓存管理器、扩散迭代管理器和解码策略四大核心可插拔模块 [2] 技术性能表现 - 在基准测试中，dInfer将扩散语言模型的推理速度相比于英伟达扩散模型框架Fast-dLLM提升了10.7倍，平均推理速度达到681 TPS，而Fast-dLLM为63.6 TPS [1][4] - 在代码生成任务HumanEval上，dInfer在单批次推理中创造了1011 Tokens/秒的速度 [1][4] - 与在vLLM上运行的AR模型Qwen2.5-3B相比，dInfer的平均推理速度是其2.5倍（681 TPS vs 277 TPS） [5] 技术优势与意义 - 此次开源标志着扩散语言模型从“理论可行”迈向“实践高效”的关键一步 [5] - dInfer的工作表明扩散语言模型具备显著的效率潜力，为通往AGI的架构路径提供极具竞争力的选项 [1] - 扩散语言模型具有高度并行、全局视野、结构灵活三大优势，以LLaDA-MoE为代表的模型已在多个基准测试中展现出与顶尖自回归模型相媲美的准确性 [1]