Workflow
华人团队终结Token危机:扩散模型数据潜力超自回归三倍
量子位·2025-08-13 17:13

时令 发自 凹非寺 量子位 | 公众号 QbitAI Token危机真的要解除了吗? 最新研究发现,在token数量受限的情况下,扩散语言模型的数据潜力可达自回归模型的三倍多。 更令人惊讶的是,即使是在如此极端的重复下,模型都未出现性能饱和,这表明此模型甚至还可以从这1B数据中挖掘出更多有用信息。 论文一作Jinjie Ni在x上详细介绍了其团队的研究结论和方法。 不仅如此,一个参数规模为1B的扩散模型,用1B tokens进行480个周期的训练,就在HellaSwag和MMLU基准上分别取得56%和33%的准确 率,且未使用任何技巧或数据筛选。 扩散语言模型是超强的数据学习者 扩散语言模型之所以具备超强的数据学习能力,主要有两个原因: 1)扩散目标和双向注意力机制使其能够进行 双向建模 ,更充分地挖掘网络数据中的信息,,而这些数据并非完全因果关系。 简单来说,传统自回归语言模型只能从前向上下文预测,存在严格的因果限制,这限制了模型对语言和其他非因果数据(如代码、生物序列 等)中复杂模式的捕捉能力。 扩散语言模型通过支持双向建模,打破了这种因果限制,更全面地利用数据,从而提升了学习效果。 2)其 计算密度极高 ...