模型发布与定位 - 蚂蚁集团技术研究院开源了其最新扩散语言模型LLaDA2.1,标志着该系列从研究模型向实用产品的关键转变 [1][2][5] - 该模型在100B参数规模上实现了前所未有的速度,在复杂编程任务中飙出892 tokens/秒的峰值速度,对主流自回归架构形成显著优势 [1][18][20] - 公司还开源了16B的Mini版本,其在部分任务上的峰值速度超过1500 tokens/秒,为轻量化部署提供了可能 [24] 核心技术突破:架构与速度 - 模型采用扩散架构而非主流自回归架构,其并行生成特性理论上拥有巨大的速度潜力 [3] - 核心创新是“可纠错编辑”机制,将推理分为“草稿生成”和“编辑修正”两个阶段,允许模型自我修正,从根本上解决了扩散模型的曝光偏差和全局一致性问题 [8][9][12][13] - 通过“单模型双模式”设计,用户可灵活切换“极速模式”与“质量模式”,在单个模型内实现了速度与质量的解耦,这是首次在扩散架构上实现该特性 [3][4][5][13] 性能表现 - 速度:在HumanEval+编程基准上,LLaDA2.1-flash(100B)在极速模式下峰值速度达到892 TPS;其Mini版本在多项任务上TPS超过1500 [5][7][24] - 质量:在涵盖知识、推理、代码、数学及指令遵循的33个权威基准测试中,LLaDA2.1在质量模式下全面超越了前代LLaDA2.0 [22] - 效率平衡:即使在追求速度的极速模式下,其性能下降也微乎其微,做到了速度与质量兼得 [21][23] 训练方法创新 - 团队成功在100B规模扩散模型上实施了强化学习训练,此为业界首次 [14][16] - 定制了EBPO算法以克服扩散模型序列级似然难以计算的问题,使模型在指令遵循等对齐类任务上表现显著提升 [16][19] 行业意义与哲学 - 该模型的成功证明,在大模型时代,坚持非主流的技术路线(扩散模型)并走到底,同样可以取得突破性胜利 [26] - 其设计哲学是让模型像人类一样“写作+修改”,通过并行生成草稿再全局编辑,定义了新的推理范式 [8][13]
小众架构赢麻了,通过编辑功能让100B扩散模型飙出892 tokens/秒的速度
36氪·2026-02-11 13:21