模型发布与核心突破 - 扩散语言模型(dLLM)赛道迎来质变,LLaDA2.1在HuggingFace上线,包含16B参数的Mini版和100B参数的Flash版 [1] - LLaDA2.1实现了扩散语言模型的“成人礼”,其峰值速度达到892 Tokens/秒,首次将理论效率优势变为现实,并具备边生成边纠错的机制 [3] - 模型采用“起草-编辑”的并行生成范式,打破了自回归模型“下笔无悔”、误差累积的困境,为规模化应用提供了新路径 [3] 技术架构与创新机制 - 提出可纠错编辑机制,模型能在毫秒级采样中起草答案,随后进行检查和修正,解决了并行解码中局部不一致性的问题 [13] - 引入单模型双模式设计,用户可通过一条配置在质量模式和极速模式间切换,解决了以往多版本管理复杂和精度掉点严重的问题 [15] - 在百亿参数规模上首次成功应用强化学习后训练,采用基于ELBO的块级策略优化方法,提升了模型对指令的理解和意图对齐能力 [16][17] 性能表现与基准测试 - 在复杂编程基准HumanEval+上,100B参数的LLaDA2.1-Flash实现了891.74 TPS的峰值速度,16B参数的Mini版峰值TPS高达1586.93 [22] - 在质量模式下,LLaDA2.1在Mini与Flash两个规模上全面超越前代LLaDA2.0的表现 [20] - 在速度模式下,模型牺牲极少的输出质量,实现了显著的推理速度优势,尤其在代码类任务中吞吐率最高 [24] 行业影响与范式意义 - LLaDA2.1证明了扩散语言模型在百亿参数规模上的可行性,突破了该路线长期存在的规模天花板 [11] - 该模型通过系统性创新,解决了扩散模型在速度与生成质量之间的核心矛盾,使其跨过了从“能跑”到“能用”的门槛 [9] - 此次突破打破了自回归架构在大语言模型领域的路径单一性,表明在主流之外存在另一条可持续推进且具备效率优势的技术方向 [26]
里程碑时刻,100B扩散语言模型跑出892 Tokens /秒,AI的另一条路走通了
36氪·2026-02-11 12:31