推理性能提升10倍 蚂蚁集团开源高性能扩散语言模型推理框架dInfer
dInfer是一款专为扩散语言模型设计的、算法与系统深度协同的高性能推理框架 ,可支持多种扩散语言 模型,包括 LLaDA、 LLaDA-MoE、LLaDA-MoE-TD 等。 【环球网科技综合报道】10月13日,蚂蚁集团对外宣布正式开源业界首个高性能扩散语言模型推理框架 dInfer。 据介绍,在基准测试中,dInfer将扩散语言模型的推理速度相比于英伟达扩散模型框架Fast-dLLM提升 了10.7倍;在代码生成任务HumanEval上,dInfer在单批次推理中创造了1011Tokens/秒的速度,首次在 开源社区中实现扩散语言模型的单批次推理速度显著超越自回归模型。dInfer的工作表明,扩散语言模 型具备显著的效率潜力,可以通过系统性的创新工程兑现,为通往AGI的架构路径提供极具竞争力的选 项。 扩散语言模型,作为一种全新的范式将文本生成视为一个"从随机噪声中逐步恢复完整序列"的去噪过 程,具有高度并行、全局视野、结构灵活三大优势。凭借这些优势,以蚂蚁集团和人大发布的LLaDA- MoE为代表的模型已在多个基准测试中,展现出与顶尖AR模型相媲美的准确性 。事实上,dLLM的高 效推理面临计算成本高、 ...