Diffusion Language Models
搜索文档
Qwen3 变身扩散语言模型?不从零训练也能跑,30B参数创纪录
机器之心· 2025-10-12 12:05
技术突破与模型性能 - 研究团队通过自回归到扩散(A2D)转换方法,成功开发出迄今为止规模最大的开源扩散语言模型RND1-Base,该模型为300亿参数的稀疏混合专家模型,其中激活参数为30亿[3][6] - 该模型由预训练的自回归模型Qwen3-30BA3B转换而来,在持续预训练中累积训练了5000亿个token以实现完整的扩散行为[6] - 在多项基准测试中,RND1模型性能稳定超越现有Dream-7B和LLaDA-8B模型,例如在MMLU上达到67.18分,在GSM8K上达到82.41分,在MBPP上达到70.02分[7][11] 核心方法与创新 - 研究提出了一种名为“简单持续预训练”的A2D转换方法,其核心步骤包括:从强大的自回归检查点开始、将因果掩码替换为双向掩码、在掩码扩散目标下继续预训练并采用学习率预热[13][18] - 采用分层学习率策略以应对灾难性遗忘风险,注意力层使用更高学习率快速适应双向上下文,非注意力层使用较低学习率以保留自回归预训练知识[14] - 研究发现扩散语言模型在持续预训练阶段能够有效利用更大的批大小,在40亿参数规模下,批大小可增至约800万token仍能获得收益[16][17] 行业意义与公司愿景 - 此项研究证明了将扩散语言模型规模扩展到80亿参数以上不仅可行且有效,A2D转换可能是训练扩散语言模型的更优策略[9] - Radical Numerics公司的核心理念是构建一个能够递归自我改进的自动化AI研究平台,让AI系统帮助设计和优化下一代AI,RND1是该理念的首个具体成果[20] - 公司创始团队成员来自DeepMind、Meta、Liquid、Stanford等顶级机构,偏好混合架构、Hyena和Evo等技术[21]