自回归模型

搜索文档
华人团队终结Token危机:扩散模型数据潜力超自回归三倍
量子位· 2025-08-13 17:13
时令 发自 凹非寺 量子位 | 公众号 QbitAI Token危机真的要解除了吗? 最新研究发现,在token数量受限的情况下,扩散语言模型的数据潜力可达自回归模型的三倍多。 更令人惊讶的是,即使是在如此极端的重复下,模型都未出现性能饱和,这表明此模型甚至还可以从这1B数据中挖掘出更多有用信息。 论文一作Jinjie Ni在x上详细介绍了其团队的研究结论和方法。 不仅如此,一个参数规模为1B的扩散模型,用1B tokens进行480个周期的训练,就在HellaSwag和MMLU基准上分别取得56%和33%的准确 率,且未使用任何技巧或数据筛选。 扩散语言模型是超强的数据学习者 扩散语言模型之所以具备超强的数据学习能力,主要有两个原因: 1)扩散目标和双向注意力机制使其能够进行 双向建模 ,更充分地挖掘网络数据中的信息,,而这些数据并非完全因果关系。 简单来说,传统自回归语言模型只能从前向上下文预测,存在严格的因果限制,这限制了模型对语言和其他非因果数据(如代码、生物序列 等)中复杂模式的捕捉能力。 扩散语言模型通过支持双向建模,打破了这种因果限制,更全面地利用数据,从而提升了学习效果。 2)其 计算密度极高 ...
扩散语言模型真的会比自回归好?理论分析结果可能恰恰相反
机器之心· 2025-06-10 16:41
扩散语言模型与自回归模型对比研究 - 扩散语言模型(MDMs)在理论上具备并行生成多个词元的潜力,可能提升文本生成效率 [1][3] - 实际测试显示MDMs在数学推理基准GSM8K上需要更多采样步骤才能达到与自回归模型Qwen2.5-7B相当的准确率,导致更高推理成本 [3][6] - 消除训练数据差异后,扩散模型仍未展现出相对于自回归模型的效率优势 [4] 评估指标对模型表现的影响 - 词元错误率(TER)衡量文本流畅度时,MDMs可在恒定采样步数内达到理想困惑度,不受序列长度影响 [10][11] - 序列错误率(SER)评估逻辑正确性时,MDMs所需采样步数与序列长度线性相关,失去效率优势 [11] - 在GSM8K数学推理任务中,SER指标导致MDMs表现不佳,因其需要完全正确的思维链 [11][12] 适用场景分析 - 当任务优先考虑文本流畅性和高吞吐量(如创意写作)时,MDMs更具效率优势 [15] - 当任务要求序列级准确性(如数学推理、代码生成)时,自回归模型仍是更好选择 [15] - 研究证实扩散模型优势不能简单平移至语言领域,需根据具体任务需求选择模型类型 [16]