dInfer
搜索文档
推理速度10倍提升,蚂蚁集团开源业内首个高性能扩散语言模型推理框架dInfer
机器之心· 2025-10-13 17:24
技术突破与性能表现 - 蚂蚁集团开源业界首个高性能扩散语言模型推理框架dInfer,在基准测试中将dLLM推理速度相比Fast-dLLM提升10倍以上[2] - dInfer在关键的单批次推理场景下,作为首个开源框架实现大幅超越高度优化的自回归模型的性能里程碑,在HumanEval上达到1011 tokens/秒的吞吐量[2] - 在与Fast-dLLM对比中,dInfer平均推理速度实现10.7倍提升(681 TPS vs 63.6 TPS),与AR模型Qwen2.5-3B相比,平均推理速度是其2.5倍(681 TPS vs 277 TPS)[29] 技术挑战与解决方案 - 传统自回归生成范式存在固有瓶颈,生成过程依赖前序结果,必须逐词串行生成,导致推理延时难以降低[6] - dLLM高效推理面临三大核心挑战:高昂的多步迭代计算成本、KV缓存技术因双向注意力机制失效、并行解码易引发语义错配[7][12] - dInfer通过四大核心模块(模型接入、KV缓存管理器、扩散迭代管理器、解码策略)集成针对性解决方案,采用模块化与可扩展性设计[9][11][13] 核心优化技术细节 - 采用邻近KV缓存刷新策略,基于语义局部性原理选择性重新计算区块及邻近区域KV,在计算开销和生成质量间取得平衡[15][16][17] - 进行系统优化,包括多卡并行(效率提升超100%)、编译优化(效率提升200%)、循环展开消除迭代间气泡(性能提升5-10%)、早停机制(减少5-40%不必要开销)[18][19] - 提出层级解码与信用解码算法,层级解码以近似对数级复杂度完成多点并行生成,信用解码通过累积信用机制避免冗余计算[18][19] - 引入迭代平滑算法,回收未解码位置信息,使单次迭代解码token数量平均提升30-40%[18][20] 行业影响与生态建设 - dInfer标志着扩散语言模型从理论可行迈向实践高效的关键一步,为开发者提供即刻可用的高效推理框架[3][26] - 该框架支持多种扩散语言模型,并率先支持基于轨迹蒸馏加速去噪过程的LLaDA-MoE-TD模型,推理性能更强[9][20] - 公司希望dInfer成为研究者的标准平台和开发者的加速引擎,邀请全球开发者共建下一代AI推理新生态[28][30]
推理性能提升10倍 蚂蚁集团开源高性能扩散语言模型推理框架dInfer
环球网· 2025-10-13 17:03
dInfer是一款专为扩散语言模型设计的、算法与系统深度协同的高性能推理框架 ,可支持多种扩散语言 模型,包括 LLaDA、 LLaDA-MoE、LLaDA-MoE-TD 等。 【环球网科技综合报道】10月13日,蚂蚁集团对外宣布正式开源业界首个高性能扩散语言模型推理框架 dInfer。 据介绍,在基准测试中,dInfer将扩散语言模型的推理速度相比于英伟达扩散模型框架Fast-dLLM提升 了10.7倍;在代码生成任务HumanEval上,dInfer在单批次推理中创造了1011Tokens/秒的速度,首次在 开源社区中实现扩散语言模型的单批次推理速度显著超越自回归模型。dInfer的工作表明,扩散语言模 型具备显著的效率潜力,可以通过系统性的创新工程兑现,为通往AGI的架构路径提供极具竞争力的选 项。 扩散语言模型,作为一种全新的范式将文本生成视为一个"从随机噪声中逐步恢复完整序列"的去噪过 程,具有高度并行、全局视野、结构灵活三大优势。凭借这些优势,以蚂蚁集团和人大发布的LLaDA- MoE为代表的模型已在多个基准测试中,展现出与顶尖AR模型相媲美的准确性 。事实上,dLLM的高 效推理面临计算成本高、 ...
首次超越自回归模型!蚂蚁集团开源业内首个高性能扩散语言模型推理框架dInfer
新浪科技· 2025-10-13 17:00
技术性能突破 - 公司开源业界首个高性能扩散语言模型推理框架dInfer [1] - 在基准测试中,dInfer将扩散语言模型的推理速度相比Fast-dLLM提升10.7倍(平均推理速度达681 TPS vs 63.6 TPS)[1] - 在代码生成任务HumanEval上,dInfer在单批次推理中速度达1011 Tokens/秒,首次在开源社区实现扩散语言模型单批次推理速度超越自回归模型 [1] 行业比较优势 - 在配备8块NVIDIA H800 GPU的节点上,dInfer与参数量和性能相当的自回归模型Qwen2.5-3B相比,平均推理速度是其2.5倍(681 TPS vs 277 TPS)[1] - 该工作表明扩散语言模型具备显著效率潜力,可通过系统性创新工程兑现,为AGI架构路径提供极具竞争力的选项 [1] 战略意义与行业影响 - dInfer连接了前沿研究与产业落地,标志着扩散语言模型从“理论可行”迈向“实践高效”的关键一步 [2] - 公司开源此框架旨在邀请全球开发者与研究者共同探索扩散语言模型潜能,构建更高效、开放的AI新生态 [2]