掩码扩散大语言模型 - 财报，业绩电话会，研报，新闻

掩码扩散大语言模型

搜索文档

用更一致的轨迹、更少的解码步数「驯服」掩码扩散语言模型，扩散语言模型的推理性能和效率大幅提升

机器之心· 2025-11-05 12:15

行业技术发展动态 - 扩散大语言模型在2025年得到快速发展，2月Inception Labs推出首个商业级模型Mercury，同期中国人民大学发布首个开源8B模型LLaDA，5月出现Gemini Diffusion，该技术被视为下一代大语言模型基础范式的有力竞争者[2] - 针对扩散大语言模型的解码策略和强化学习算法领域仍处于探索不足的状态[2] 核心技术问题识别 - 掩码扩散大语言模型具备并行解码、灵活生成顺序和潜在少步推理等优势，但其完全扩散式解码策略存在性能大幅逊色于分块解码的痛点[7] - 完全扩散式解码存在三个关键问题：解码早期token置信度变化由平缓到陡升；<EOS> token置信度始终显著高于其他token；导致模型在早期解码时易陷入<EOS>陷阱而提前终止生成[9] - 将自回归模型的强化学习算法直接迁移至MDLM会遇到rollout轨迹和优化轨迹不一致的问题，因MDLM采用双向注意力机制，与自回归模型的因果性掩码不同[11] 方法论创新 - 研究团队提出<EOS>早期拒绝机制，在解码早期主动抑制<EOS>置信度避免过早终止，后期恢复置信度确保句子正常结束，显著提升全扩散式解码性能[15] - 基于token置信度变化观察，设计幂次递增解码步长调度器，将推理步数从O(L)降至O(logL)，大幅加速推理过程[15] - 提出一致性轨迹分组策略优化，通过存储每一步解码的中间状态来优化相邻状态间的转变，缓解轨迹不一致带来的优化误差[16] - 将<EOS>早期拒绝机制、递增步长调度器和CJ-GRPO算法结合，削减训练时中间状态存储开销，实现训练和解码的时间/空间复杂度从O(L)降至O(logL)[16] 实验性能表现 - 在数学推理任务GSM8K上，CJ-GRPO + Semi-AR方法在128生成长度、64步设置下达到77.48%性能，在256长度、128步时提升至84.29%[18] - 在规划任务Sudoku上，CJ-GRPO + EOSER方法在128生成长度、32步设置下达到85.25%性能，显著优于基线方法[18] - 在Countdown任务上，CJ-GRPO + EOSER + ASS方法在仅使用log(L)步数情况下，256生成长度时达到59.38%性能[19] - 实验显示规划任务适合并行推理，数学问题更适合顺序推理，装配并行解码的MDLM在规划类任务中表现更佳[23][25] 技术应用前景 - 该方法实现了用更少步数、更快地完成复杂推理任务，推动扩散语言模型的全扩散式解码、少步数解码和强化学习算法发展[21] - 在仅使用log(L)步数情况下，EOSER + ASS性能仍优于分块解码和全扩散式解码策略，真正实现“又快又好”的推理效果[24] - 未来可探索混合推理模式，结合扩散与自回归优势，适应多样化任务需求[26]

扩散语言模型

掩码扩散大语言模型

一致性轨迹分组策略优化（CJ - GRPO）

一致性轨迹分组策略优化（CJ - GRPO）

<EOS>早期拒绝机制

递增步长调度器

Mercury