文章核心观点 - 扩散语言模型(dLLM)这一曾被视为小众的研究方向,通过LLaDA2.1的发布实现了质变,标志着该技术路线已从理论走向真正可用,甚至在效率上展现出超越主流自回归模型的潜力 [2][4] - LLaDA2.1通过引入可纠错编辑机制、单模型双模式设计以及强化学习后训练等系统性创新,有效解决了扩散模型长期存在的“速度-质量”矛盾,在百亿参数规模下实现了前所未有的推理速度 [4][11][13] - 该模型的成功可能预示着AI大模型底层架构的范式多样性正在增加,为自回归模型之外提供了另一条可行且高效的技术发展路径 [33] 模型发布与规模突破 - LLaDA2.1于本周一在HuggingFace上线,包含LLaDA2.1-Mini(16B参数)和LLaDA2.1-Flash(100B参数)两个版本,距离上一版本发布仅两个月 [2] - 其100B参数规模本身,突破了扩散语言模型长期存在的规模天花板,此前该路线模型规模普遍停留在几十亿到三百亿参数以内 [14] 技术原理与核心创新 - 可纠错编辑机制:模型采用“起草-编辑”的两步范式,首先生成草稿,随后进行全局评估和自我修正,解决了并行解码中错误无法回溯的问题 [16][19] - 单模型双模式:一个模型支持“极速模式”和“质量模式”,用户仅需一条配置即可切换,避免了维护多个版本带来的管理和精度损失问题 [20] - 强化学习应用:团队首次将基于ELBO的块级策略优化方法应用于百亿参数级扩散模型,以提升模型对指令的理解和意图对齐能力 [21][22] 性能表现与效率数据 - 峰值速度:LLaDA2.1-Flash在处理复杂编程任务时,实现了892 Tokens/秒的峰值速度 [4][13] - 量化后速度:在HumanEval+基准测试中,量化后的LLaDA2.1-Flash峰值速度达891.74 TPS,LLaDA2.1-Mini峰值速度高达1586.93 TPS [28] - 综合性能:在“质量模式”下,LLaDA2.1在mini与flash两个规模上均全面超越了LLaDA2.0的表现 [24] - 效率优势:在“极速模式”下,模型在仅牺牲极少输出质量的前提下,实现了显著更快的推理速度 [30] 行业意义与潜在影响 - LLaDA2.1的成功证明扩散语言模型并非只能停留在实验室阶段,其并行生成、边写边改的特性为解决自回归模型推理速度慢、错误累积等问题提供了新思路 [4][33] - 行业可能不会立即发生范式的彻底更替,但技术路径的单一性正在被打破,在自回归之外存在另一条可持续推进且值得投入的方向 [33]
里程碑时刻!100B扩散语言模型跑出892 Tokens /秒,AI的另一条路走通了
机器之心·2026-02-11 09:59