模型架构与性能突破 - 蚂蚁集团开源了基于扩散架构的语言模型LLaDA2.1,在100B参数规模上实现了高达892 tokens/秒的生成速度,显著超越了主流自回归模型几十token/秒的速度水平 [1][3] - 该模型在HumanEval+编程基准测试中,LLaDA2.1-flash(100B)在极速模式下峰值速度达到892 TPS,其16B的Mini版本在部分任务上的峰值速度甚至超过1500 tokens/秒 [11][33] - 模型在涵盖知识、推理、代码、数学及指令遵循的33个权威基准测试中,质量模式下的性能全面超越了前代LLaDA2.0,实现了速度与质量兼得 [31][32] 核心技术:可纠错编辑与双模式解码 - LLaDA2.1引入了可纠错编辑机制,将推理过程分为两个阶段:极速并行生成草稿,然后立即启动编辑模式进行全局检查和回溯式修正,解决了扩散模型缺乏全局一致性的问题 [16][17][21] - 模型采用单模型双模式设计,用户可通过一条配置切换模式:极速模式通过激进并行生成和后期编辑保障吞吐量;质量模式采用保守阈值优先保障输出准确性 [8][10][13] - 这种设计首次在扩散架构上实现了速度与质量的解耦,标志着该系列从研究模型向实用产品的关键转变 [4][22] 训练创新:强化学习的应用 - 团队首次在100B规模的扩散语言模型上成功实施了大规模强化学习训练,定制了EBPO算法 [23][26] - 该算法以证据下界作为序列似然的代理目标,通过向量化似然估计技术并行计算多时间步的块条件概率,并设计了专门的梯度稳定机制 [25][28] - 应用强化学习后,LLaDA2.1在IFEval(指令遵循评估)、BFCL(函数调用)等对齐类任务上表现显著提升 [26] 行业意义与影响 - 在自回归模型主导的行业背景下,LLaDA2.1证明了扩散架构这条“非共识”技术路线的巨大潜力,尤其是在生成速度方面具有显著优势 [1][5][29] - 该模型的成功表明,在大模型时代,坚持并深化非主流技术路线同样可以取得突破性进展 [34] - 模型的开源为行业提供了在复杂编程、快速推理等对吞吐量敏感场景下的高效新工具选择 [4][35]
小众架构赢麻了!通过编辑功能让100B扩散模型飙出892 tokens/秒的速度!
量子位·2026-02-11 09:55