里程碑时刻，100B扩散语言模型跑出892 Tokens /秒，AI的另一条路走通了

模型发布与核心突破 - 扩散语言模型（dLLM）赛道迎来质变，LLaDA2.1在HuggingFace上线，包含16B参数的Mini版和100B参数的Flash版 [1] - LLaDA2.1实现了扩散语言模型的“成人礼”，其峰值速度达到892 Tokens/秒，首次将理论效率优势变为现实，并具备边生成边纠错的机制 [3] - 模型采用“起草-编辑”的并行生成范式，打破了自回归模型“下笔无悔”、误差累积的困境，为规模化应用提供了新路径 [3] 技术架构与创新机制 - 提出可纠错编辑机制，模型能在毫秒级采样中起草答案，随后进行检查和修正，解决了并行解码中局部不一致性的问题 [13] - 引入单模型双模式设计，用户可通过一条配置在质量模式和极速模式间切换，解决了以往多版本管理复杂和精度掉点严重的问题 [15] - 在百亿参数规模上首次成功应用强化学习后训练，采用基于ELBO的块级策略优化方法，提升了模型对指令的理解和意图对齐能力 [16][17] 性能表现与基准测试 - 在复杂编程基准HumanEval+上，100B参数的LLaDA2.1-Flash实现了891.74 TPS的峰值速度，16B参数的Mini版峰值TPS高达1586.93 [22] - 在质量模式下，LLaDA2.1在Mini与Flash两个规模上全面超越前代LLaDA2.0的表现 [20] - 在速度模式下，模型牺牲极少的输出质量，实现了显著的推理速度优势，尤其在代码类任务中吞吐率最高 [24] 行业影响与范式意义 - LLaDA2.1证明了扩散语言模型在百亿参数规模上的可行性，突破了该路线长期存在的规模天花板 [11] - 该模型通过系统性创新，解决了扩散模型在速度与生成质量之间的核心矛盾，使其跨过了从“能跑”到“能用”的门槛 [9] - 此次突破打破了自回归架构在大语言模型领域的路径单一性，表明在主流之外存在另一条可持续推进且具备效率优势的技术方向 [26]