Qwen3 变身扩散语言模型?不从零训练也能跑,30B参数创纪录
机器之心·2025-10-12 12:05
机器之心报道 编辑:张倩 扩散语言模型(Diffusion Language Models,DLM)一直以来都令研究者颇感兴趣,因为与必须按从左到右顺序生成的自回归模型(Autoregressive, AR)不同, DLM 能实现并行生成,这在理论上可以实现更快的生成速度,也能让模型基于前后文更好地理解生成语境。 然而,尽管其潜力巨大,DLM 的训练仍然充满挑战,主要原因是它在 scaling 上的效率相对低于 AR 模型。例如,直接训练 DLM 需要在有限的数据集上进行更多 次迭代,才能超越直接训练的 AR 模型。此外,AR 模型还拥有显著的「先发优势」—— 包括成熟的训练基础设施、稳定的训练配方以及广泛的从业者经验积累。 为了克服这些难点,来自 Radical Numerics(一个新的 AI 初创)的研究团队选择了另一条路: 在现有自回归模型的基础上进行改造,让它具备扩散语言模型的能 力 。 技术报告:Training Diffusion Language Models at Scale using Autoregressive Models 他们刚刚发布的 RND1-Base(Radical Nume ...