dInfer - 财报，业绩电话会，研报，新闻

dInfer

搜索文档

36氪· 2025-12-12 15:17

扩散语言模型架构的技术特点与优势 - 扩散架构在推理过程中可以直接修改和控制token，无需像自回归模型那样重新生成整段内容[1] - 相比自回归模型，扩散模型理论上有望实现更快的生成速度和更低的计算成本[1] - 扩散语言模型的解码机制是“做完形填空”，即遮盖部分词后再恢复，而非自回归的“接龙”式预测[6] 扩散语言模型的性能与数据特性 - 在相同的计算量和性能目标下，扩散语言模型所需的参数规模可以比自回归模型更小[5] - 在计算受限情况下，扩散语言模型相比自回归模型更为“data-hungry”，对数据需求更大、吸收数据更快[5][8] - 与图像扩散模型类似，扩散语言模型在同样数据集和架构下可以持续训练，效果可能持续提升，而自回归模型训练多个epoch后效果常不再变动[9][10] LLaDA系列模型的发展与开源成果 - 团队近期发布并开源了LLaDA 2.0，率先将扩散语言模型做到千亿体量[1][20] - LLaDA 1.0的8B版本是第一个大规模训练到80亿参数的扩散语言模型，效果可对标LLaMA-3-8B，在Hugging Face上零推广即获得二十几万下载[19] - 团队于今年9月发布了LLaDA-MoE，总参数7B（激活参数1B），是全球第一个原生训练出来的MoE架构扩散语言模型[19] - 团队开源了一套支持5D并行集成的训练框架和推理框架，是第一个面向扩散语言模型的训练框架，已支持监督微调与直接偏好优化[16] 扩散语言模型的应用表现与潜力 - 扩散语言模型在“调用”和“写代码”这两个任务上比自回归模型有明显优势[23] - 得益于并行解码，模型一次能同时吐出几个token，在代码补全等场景中体验类似按Tab自动补全[23] - 在文学创作中，模型解码过程呈现“非共识”轨迹，例如先定下开头结尾框架，再反复修改润色中间内容，这在主流原生应用中尚未见到[23] - 通过新的模型架构与范式，若能将关键场景的每秒事务处理量推上千量级，实现五倍乃至更高的速度提升，其体验将是革命性的[25] 行业生态与发展阶段 - 扩散语言模型领域发展势头迅猛，已吸引包括谷歌、字节在内的巨头及一批初创公司积极布局[1] - 谷歌有Gemini Diffusion，美国有创业公司在做Mercury系列，字节也在进行相关研究[19] - 扩散语言模型的训练与推理生态仍处于早期发展阶段，自回归模型从ChatGPT出来已发展三年，而扩散语言模型的训推生态才刚起步[27] - 团队计划在未来一两个月联合ZenMux（一站式模型接入平台）放出部分API[23]

蚂蚁集团(HK:06688)

扩散语言模型

自回归模型

Artificial Intelligence

Artificial Intelligence

LLaDA 2.0

dInfer

推理速度10倍提升，蚂蚁集团开源业内首个高性能扩散语言模型推理框架dInfer

机器之心· 2025-10-13 17:24

技术突破与性能表现 - 蚂蚁集团开源业界首个高性能扩散语言模型推理框架dInfer，在基准测试中将dLLM推理速度相比Fast-dLLM提升10倍以上[2] - dInfer在关键的单批次推理场景下，作为首个开源框架实现大幅超越高度优化的自回归模型的性能里程碑，在HumanEval上达到1011 tokens/秒的吞吐量[2] - 在与Fast-dLLM对比中，dInfer平均推理速度实现10.7倍提升（681 TPS vs 63.6 TPS），与AR模型Qwen2.5-3B相比，平均推理速度是其2.5倍（681 TPS vs 277 TPS）[29] 技术挑战与解决方案 - 传统自回归生成范式存在固有瓶颈，生成过程依赖前序结果，必须逐词串行生成，导致推理延时难以降低[6] - dLLM高效推理面临三大核心挑战：高昂的多步迭代计算成本、KV缓存技术因双向注意力机制失效、并行解码易引发语义错配[7][12] - dInfer通过四大核心模块（模型接入、KV缓存管理器、扩散迭代管理器、解码策略）集成针对性解决方案，采用模块化与可扩展性设计[9][11][13] 核心优化技术细节 - 采用邻近KV缓存刷新策略，基于语义局部性原理选择性重新计算区块及邻近区域KV，在计算开销和生成质量间取得平衡[15][16][17] - 进行系统优化，包括多卡并行（效率提升超100%）、编译优化（效率提升200%）、循环展开消除迭代间气泡（性能提升5-10%）、早停机制（减少5-40%不必要开销）[18][19] - 提出层级解码与信用解码算法，层级解码以近似对数级复杂度完成多点并行生成，信用解码通过累积信用机制避免冗余计算[18][19] - 引入迭代平滑算法，回收未解码位置信息，使单次迭代解码token数量平均提升30-40%[18][20] 行业影响与生态建设 - dInfer标志着扩散语言模型从理论可行迈向实践高效的关键一步，为开发者提供即刻可用的高效推理框架[3][26] - 该框架支持多种扩散语言模型，并率先支持基于轨迹蒸馏加速去噪过程的LLaDA-MoE-TD模型，推理性能更强[9][20] - 公司希望dInfer成为研究者的标准平台和开发者的加速引擎，邀请全球开发者共建下一代AI推理新生态[28][30]

扩散语言模型

Artificial Intelligence

dInfer

扩散语言模型

Artificial Intelligence

dInfer

推理性能提升10倍蚂蚁集团开源高性能扩散语言模型推理框架dInfer

环球网· 2025-10-13 17:03

公司技术发布 - 蚂蚁集团正式开源业界首个高性能扩散语言模型推理框架dInfer [1] - dInfer是一款专为扩散语言模型设计的、算法与系统深度协同的高性能推理框架，可支持LLaDA、LLaDA-MoE等多种模型 [2] - 该框架包含模型接入、KV缓存管理器、扩散迭代管理器和解码策略四大核心可插拔模块 [2] 技术性能表现 - 在基准测试中，dInfer将扩散语言模型的推理速度相比于英伟达扩散模型框架Fast-dLLM提升了10.7倍，平均推理速度达到681 TPS，而Fast-dLLM为63.6 TPS [1][4] - 在代码生成任务HumanEval上，dInfer在单批次推理中创造了1011 Tokens/秒的速度 [1][4] - 与在vLLM上运行的AR模型Qwen2.5-3B相比，dInfer的平均推理速度是其2.5倍（681 TPS vs 277 TPS） [5] 技术优势与意义 - 此次开源标志着扩散语言模型从“理论可行”迈向“实践高效”的关键一步 [5] - dInfer的工作表明扩散语言模型具备显著的效率潜力，为通往AGI的架构路径提供极具竞争力的选项 [1] - 扩散语言模型具有高度并行、全局视野、结构灵活三大优势，以LLaDA-MoE为代表的模型已在多个基准测试中展现出与顶尖自回归模型相媲美的准确性 [1]

首次超越自回归模型！蚂蚁集团开源业内首个高性能扩散语言模型推理框架dInfer

新浪科技· 2025-10-13 17:00

技术性能突破 - 公司开源业界首个高性能扩散语言模型推理框架dInfer [1] - 在基准测试中，dInfer将扩散语言模型的推理速度相比Fast-dLLM提升10.7倍（平均推理速度达681 TPS vs 63.6 TPS）[1] - 在代码生成任务HumanEval上，dInfer在单批次推理中速度达1011 Tokens/秒，首次在开源社区实现扩散语言模型单批次推理速度超越自回归模型 [1] 行业比较优势 - 在配备8块NVIDIA H800 GPU的节点上，dInfer与参数量和性能相当的自回归模型Qwen2.5-3B相比，平均推理速度是其2.5倍（681 TPS vs 277 TPS）[1] - 该工作表明扩散语言模型具备显著效率潜力，可通过系统性创新工程兑现，为AGI架构路径提供极具竞争力的选项 [1] 战略意义与行业影响 - dInfer连接了前沿研究与产业落地，标志着扩散语言模型从“理论可行”迈向“实践高效”的关键一步 [2] - 公司开源此框架旨在邀请全球开发者与研究者共同探索扩散语言模型潜能，构建更高效、开放的AI新生态 [2]