Workflow
推理速度10倍提升,蚂蚁集团开源业内首个高性能扩散语言模型推理框架dInfer
机器之心·2025-10-13 17:24

技术突破与性能表现 - 蚂蚁集团开源业界首个高性能扩散语言模型推理框架dInfer,在基准测试中将dLLM推理速度相比Fast-dLLM提升10倍以上[2] - dInfer在关键的单批次推理场景下,作为首个开源框架实现大幅超越高度优化的自回归模型的性能里程碑,在HumanEval上达到1011 tokens/秒的吞吐量[2] - 在与Fast-dLLM对比中,dInfer平均推理速度实现10.7倍提升(681 TPS vs 63.6 TPS),与AR模型Qwen2.5-3B相比,平均推理速度是其2.5倍(681 TPS vs 277 TPS)[29] 技术挑战与解决方案 - 传统自回归生成范式存在固有瓶颈,生成过程依赖前序结果,必须逐词串行生成,导致推理延时难以降低[6] - dLLM高效推理面临三大核心挑战:高昂的多步迭代计算成本、KV缓存技术因双向注意力机制失效、并行解码易引发语义错配[7][12] - dInfer通过四大核心模块(模型接入、KV缓存管理器、扩散迭代管理器、解码策略)集成针对性解决方案,采用模块化与可扩展性设计[9][11][13] 核心优化技术细节 - 采用邻近KV缓存刷新策略,基于语义局部性原理选择性重新计算区块及邻近区域KV,在计算开销和生成质量间取得平衡[15][16][17] - 进行系统优化,包括多卡并行(效率提升超100%)、编译优化(效率提升200%)、循环展开消除迭代间气泡(性能提升5-10%)、早停机制(减少5-40%不必要开销)[18][19] - 提出层级解码与信用解码算法,层级解码以近似对数级复杂度完成多点并行生成,信用解码通过累积信用机制避免冗余计算[18][19] - 引入迭代平滑算法,回收未解码位置信息,使单次迭代解码token数量平均提升30-40%[18][20] 行业影响与生态建设 - dInfer标志着扩散语言模型从理论可行迈向实践高效的关键一步,为开发者提供即刻可用的高效推理框架[3][26] - 该框架支持多种扩散语言模型,并率先支持基于轨迹蒸馏加速去噪过程的LLaDA-MoE-TD模型,推理性能更强[9][20] - 公司希望dInfer成为研究者的标准平台和开发者的加速引擎,邀请全球开发者共建下一代AI推理新生态[28][30]