华为新开源!扩散语言模型突破32K上下文,还解锁了「慢思考」
机器之心·2025-12-02 14:47

技术突破与行业范式转变 - 文本生成领域迎来从自回归模型向扩散语言模型的重要范式转变,但长序列训练不稳定性是核心痛点,即使是100B参数的LLaDA 2.0上下文窗口也仅为4K [1] - 华为发布openPangu-R-7B-Diffusion,基于openPangu-Embedded-7B进行少量数据(800B tokens)续训练,成功将扩散语言模型的上下文长度扩展至32K [1] 模型性能表现 - 在通用能力基准测试中,MMLU得分81.66,MMLU-Pro得分71.26,CMMLU得分76.43,CEval得分70.81,IFEval Prompt Strict得分60.81 [2] - 在数学能力基准测试中,GSM8K得分91.89,MATH得分84.26,大幅领先同类模型 [2][3] - 在代码能力基准测试中,MBPP得分84.05,HumanEval得分87.80,展现出卓越的逻辑泛化能力 [2][3] - 多学科知识(MMLU-Pro)超越16B参数量的LLaDA 2.0-mini-preview达22% [3] - Base模型在多个基准测试中平均得分65.26,优于对比模型 [4] 核心架构创新 - 创新性地融合了自回归的前文因果注意力掩码,而非沿用传统扩散模型的全注意力或分块掩码 [7] - 该设计从根本上解决了架构适配难题,消除适配壁垒,仅需从预测Next Token转变为预测Next Block中的Mask Token,极大降低适配成本 [8] - 兼容性最大化,使模型能自然继承自回归模型的预训练知识,为长窗口训练打下坚实基础 [8] 训练与推理优化 - 训练策略延续BlockDiffusion思路但进行关键优化,Context利用率达100%,将无掩码Context部分数据用于标准自回归Next Token Prediction训练 [15] - 双模式解码赋予模型自回归+扩散的双重解码能力,用户可通过不同采样设置灵活权衡生成质量与速度 [15] - 在并行解码模式下,其速度最高可达自回归解码的2.5倍,模型完整保留变长推理与KV-Cache特性 [15] 技术特点与能力展示 - 模型展现出结合扩散并行生成与深度思维链的"慢思考"能力,在处理复杂数学推理和编程任务时表现优异 [12] - 可视化实测显示,模型在4个生成步数内并行将多个[MASK]噪声逐步去噪还原为清晰语义Token,而非传统自回归模型的逐词生成方式 [12] - 该模型成功证明扩散模型不仅可以快(并行解码),更可以深(32K长文与慢思考),开启扩散语言模型新篇章 [14]