Workflow
dInfer
icon
搜索文档
跳过“逐字生成”,蚂蚁集团赵俊博:扩散模型让我们能直接修改Token
36氪· 2025-12-12 15:17
当主流大语言模型还在采用自回归架构时,有人已经盯上了扩散架构。 在本次量子位MEET2026智能未来大会上,浙江大学百人计划研究员、博士生导师,蚂蚁集团资深技术专家赵俊博表示: 扩散架构在推理过程中可以直接修改和控制token,而不需要像自回归模型那样重新生成整段内容。 这意味着,相比自回归模型,扩散模型理论上有望实现更快的生成速度以及更低的计算成本。 基于此,他和团队将重点押注于扩散架构,并致力于探索扩散语言模型独有的Scaling Law。 而作为这一探索的关键里程碑,他们近期发布并开源了LLaDA 2.0,率先将扩散语言模型做到千亿体量。 赵俊博坦言,该领域在训练与推理层面仍处早期,但发展势头迅猛,已吸引包括谷歌、字节在内的巨头及一批初创公司积极布局。 编者注:就在MEET2026智能未来大会结束后,赵俊博和团队也发布了全新的技术报告,揭示了千亿体量扩散语言模型背后的关键技术选择。 报告标题:LLaDA2.0: Scaling Up Diffusion Language Models to 100B 报告链接(github):https://github.com/inclusionAI/LLaDA2.0 ...
推理速度10倍提升,蚂蚁集团开源业内首个高性能扩散语言模型推理框架dInfer
机器之心· 2025-10-13 17:24
技术突破与性能表现 - 蚂蚁集团开源业界首个高性能扩散语言模型推理框架dInfer,在基准测试中将dLLM推理速度相比Fast-dLLM提升10倍以上[2] - dInfer在关键的单批次推理场景下,作为首个开源框架实现大幅超越高度优化的自回归模型的性能里程碑,在HumanEval上达到1011 tokens/秒的吞吐量[2] - 在与Fast-dLLM对比中,dInfer平均推理速度实现10.7倍提升(681 TPS vs 63.6 TPS),与AR模型Qwen2.5-3B相比,平均推理速度是其2.5倍(681 TPS vs 277 TPS)[29] 技术挑战与解决方案 - 传统自回归生成范式存在固有瓶颈,生成过程依赖前序结果,必须逐词串行生成,导致推理延时难以降低[6] - dLLM高效推理面临三大核心挑战:高昂的多步迭代计算成本、KV缓存技术因双向注意力机制失效、并行解码易引发语义错配[7][12] - dInfer通过四大核心模块(模型接入、KV缓存管理器、扩散迭代管理器、解码策略)集成针对性解决方案,采用模块化与可扩展性设计[9][11][13] 核心优化技术细节 - 采用邻近KV缓存刷新策略,基于语义局部性原理选择性重新计算区块及邻近区域KV,在计算开销和生成质量间取得平衡[15][16][17] - 进行系统优化,包括多卡并行(效率提升超100%)、编译优化(效率提升200%)、循环展开消除迭代间气泡(性能提升5-10%)、早停机制(减少5-40%不必要开销)[18][19] - 提出层级解码与信用解码算法,层级解码以近似对数级复杂度完成多点并行生成,信用解码通过累积信用机制避免冗余计算[18][19] - 引入迭代平滑算法,回收未解码位置信息,使单次迭代解码token数量平均提升30-40%[18][20] 行业影响与生态建设 - dInfer标志着扩散语言模型从理论可行迈向实践高效的关键一步,为开发者提供即刻可用的高效推理框架[3][26] - 该框架支持多种扩散语言模型,并率先支持基于轨迹蒸馏加速去噪过程的LLaDA-MoE-TD模型,推理性能更强[9][20] - 公司希望dInfer成为研究者的标准平台和开发者的加速引擎,邀请全球开发者共建下一代AI推理新生态[28][30]
推理性能提升10倍 蚂蚁集团开源高性能扩散语言模型推理框架dInfer
环球网· 2025-10-13 17:03
公司技术发布 - 蚂蚁集团正式开源业界首个高性能扩散语言模型推理框架dInfer [1] - dInfer是一款专为扩散语言模型设计的、算法与系统深度协同的高性能推理框架,可支持LLaDA、LLaDA-MoE等多种模型 [2] - 该框架包含模型接入、KV缓存管理器、扩散迭代管理器和解码策略四大核心可插拔模块 [2] 技术性能表现 - 在基准测试中,dInfer将扩散语言模型的推理速度相比于英伟达扩散模型框架Fast-dLLM提升了10.7倍,平均推理速度达到681 TPS,而Fast-dLLM为63.6 TPS [1][4] - 在代码生成任务HumanEval上,dInfer在单批次推理中创造了1011 Tokens/秒的速度 [1][4] - 与在vLLM上运行的AR模型Qwen2.5-3B相比,dInfer的平均推理速度是其2.5倍(681 TPS vs 277 TPS) [5] 技术优势与意义 - 此次开源标志着扩散语言模型从“理论可行”迈向“实践高效”的关键一步 [5] - dInfer的工作表明扩散语言模型具备显著的效率潜力,为通往AGI的架构路径提供极具竞争力的选项 [1] - 扩散语言模型具有高度并行、全局视野、结构灵活三大优势,以LLaDA-MoE为代表的模型已在多个基准测试中展现出与顶尖自回归模型相媲美的准确性 [1]
首次超越自回归模型!蚂蚁集团开源业内首个高性能扩散语言模型推理框架dInfer
新浪科技· 2025-10-13 17:00
技术性能突破 - 公司开源业界首个高性能扩散语言模型推理框架dInfer [1] - 在基准测试中,dInfer将扩散语言模型的推理速度相比Fast-dLLM提升10.7倍(平均推理速度达681 TPS vs 63.6 TPS)[1] - 在代码生成任务HumanEval上,dInfer在单批次推理中速度达1011 Tokens/秒,首次在开源社区实现扩散语言模型单批次推理速度超越自回归模型 [1] 行业比较优势 - 在配备8块NVIDIA H800 GPU的节点上,dInfer与参数量和性能相当的自回归模型Qwen2.5-3B相比,平均推理速度是其2.5倍(681 TPS vs 277 TPS)[1] - 该工作表明扩散语言模型具备显著效率潜力,可通过系统性创新工程兑现,为AGI架构路径提供极具竞争力的选项 [1] 战略意义与行业影响 - dInfer连接了前沿研究与产业落地,标志着扩散语言模型从“理论可行”迈向“实践高效”的关键一步 [2] - 公司开源此框架旨在邀请全球开发者与研究者共同探索扩散语言模型潜能,构建更高效、开放的AI新生态 [2]