小众架构赢麻了，通过编辑功能让100B扩散模型飙出892 tokens/秒的速度

模型发布与定位 - 蚂蚁集团技术研究院开源了其最新扩散语言模型LLaDA2.1，标志着该系列从研究模型向实用产品的关键转变 [1][2][5] - 该模型在100B参数规模上实现了前所未有的速度，在复杂编程任务中飙出892 tokens/秒的峰值速度，对主流自回归架构形成显著优势 [1][18][20] - 公司还开源了16B的Mini版本，其在部分任务上的峰值速度超过1500 tokens/秒，为轻量化部署提供了可能 [24] 核心技术突破：架构与速度 - 模型采用扩散架构而非主流自回归架构，其并行生成特性理论上拥有巨大的速度潜力 [3] - 核心创新是“可纠错编辑”机制，将推理分为“草稿生成”和“编辑修正”两个阶段，允许模型自我修正，从根本上解决了扩散模型的曝光偏差和全局一致性问题 [8][9][12][13] - 通过“单模型双模式”设计，用户可灵活切换“极速模式”与“质量模式”，在单个模型内实现了速度与质量的解耦，这是首次在扩散架构上实现该特性 [3][4][5][13] 性能表现 - 速度：在HumanEval+编程基准上，LLaDA2.1-flash（100B）在极速模式下峰值速度达到892 TPS；其Mini版本在多项任务上TPS超过1500 [5][7][24] - 质量：在涵盖知识、推理、代码、数学及指令遵循的33个权威基准测试中，LLaDA2.1在质量模式下全面超越了前代LLaDA2.0 [22] - 效率平衡：即使在追求速度的极速模式下，其性能下降也微乎其微，做到了速度与质量兼得 [21][23] 训练方法创新 - 团队成功在100B规模扩散模型上实施了强化学习训练，此为业界首次 [14][16] - 定制了EBPO算法以克服扩散模型序列级似然难以计算的问题，使模型在指令遵循等对齐类任务上表现显著提升 [16][19] 行业意义与哲学 - 该模型的成功证明，在大模型时代，坚持非主流的技术路线（扩散模型）并走到底，同样可以取得突破性胜利 [26] - 其设计哲学是让模型像人类一样“写作+修改”，通过并行生成草稿再全局编辑，定义了新的推理范式 [8][13]