小众架构赢麻了！通过编辑功能让100B扩散模型飙出892 tokens/秒的速度！

模型架构与性能突破 - 蚂蚁集团开源了基于扩散架构的语言模型LLaDA2.1，在100B参数规模上实现了高达892 tokens/秒的生成速度，显著超越了主流自回归模型几十token/秒的速度水平 [1][3] - 该模型在HumanEval+编程基准测试中，LLaDA2.1-flash（100B）在极速模式下峰值速度达到892 TPS，其16B的Mini版本在部分任务上的峰值速度甚至超过1500 tokens/秒 [11][33] - 模型在涵盖知识、推理、代码、数学及指令遵循的33个权威基准测试中，质量模式下的性能全面超越了前代LLaDA2.0，实现了速度与质量兼得 [31][32] 核心技术：可纠错编辑与双模式解码 - LLaDA2.1引入了可纠错编辑机制，将推理过程分为两个阶段：极速并行生成草稿，然后立即启动编辑模式进行全局检查和回溯式修正，解决了扩散模型缺乏全局一致性的问题 [16][17][21] - 模型采用单模型双模式设计，用户可通过一条配置切换模式：极速模式通过激进并行生成和后期编辑保障吞吐量；质量模式采用保守阈值优先保障输出准确性 [8][10][13] - 这种设计首次在扩散架构上实现了速度与质量的解耦，标志着该系列从研究模型向实用产品的关键转变 [4][22] 训练创新：强化学习的应用 - 团队首次在100B规模的扩散语言模型上成功实施了大规模强化学习训练，定制了EBPO算法 [23][26] - 该算法以证据下界作为序列似然的代理目标，通过向量化似然估计技术并行计算多时间步的块条件概率，并设计了专门的梯度稳定机制 [25][28] - 应用强化学习后，LLaDA2.1在IFEval（指令遵循评估）、BFCL（函数调用）等对齐类任务上表现显著提升 [26] 行业意义与影响 - 在自回归模型主导的行业背景下，LLaDA2.1证明了扩散架构这条“非共识”技术路线的巨大潜力，尤其是在生成速度方面具有显著优势 [1][5][29] - 该模型的成功表明，在大模型时代，坚持并深化非主流技术路线同样可以取得突破性进展 [34] - 模型的开源为行业提供了在复杂编程、快速推理等对吞吐量敏感场景下的高效新工具选择 [4][35]