Workflow
自回归模型
icon
搜索文档
华人团队终结Token危机:扩散模型数据潜力超自回归三倍
量子位· 2025-08-13 17:13
扩散语言模型的数据学习潜力 - 在token数量受限情况下,扩散语言模型的数据潜力可达自回归模型的三倍多 [1] - 一个参数规模为1B的扩散模型,仅用1B tokens训练480个周期,就在HellaSwag和MMLU基准上分别取得56%和33%的准确率 [5] - 即使在极端数据重复下,模型也未出现性能饱和,表明其还能从1B数据中挖掘出更多有用信息 [4] 扩散语言模型的技术优势 - 扩散目标和双向注意力机制使其能够进行双向建模,更充分地挖掘网络数据中的信息 [8] - 双向建模打破传统自回归模型的因果限制,能更全面捕捉语言及非因果数据的复杂模式 [8][9] - 扩散模型计算密度极高,在训练和推理中投入更多计算资源,通过多次处理数据和迭代优化提升性能 [11] - 扩散目标要求在预训练时对每个数据点进行多种掩码比例和组合的扰动,从而更有效地训练 [15] 扩散语言模型的过拟合特性 - 模型过拟合出现的训练周期数与独特数据量呈正相关,与模型规模呈负相关 [18] - 独特数据量越大,过拟合出现越晚;模型规模越大,过拟合发生越早 [18] - 模型在预训练验证集上"过拟合"时,下游任务性能不一定会下降,反而可能持续上升至训练结束 [19] - 绝对负对数似然值的变化不一定转化为相对顺序的变化,因此验证损失上升时模型判别能力仍可能提升 [21][22][25] 自回归模型的比较与行业背景 - 自回归模型优先考虑计算效率而非数据潜力,其transformer设计采用教师强制和因果掩码,限制了建模能力 [14] - 随着计算成本下降,数据可获得性成为关键瓶颈,这是研究团队开展扩散语言模型研究的出发点 [15]
扩散语言模型真的会比自回归好?理论分析结果可能恰恰相反
机器之心· 2025-06-10 16:41
扩散语言模型与自回归模型对比研究 - 扩散语言模型(MDMs)在理论上具备并行生成多个词元的潜力,可能提升文本生成效率 [1][3] - 实际测试显示MDMs在数学推理基准GSM8K上需要更多采样步骤才能达到与自回归模型Qwen2.5-7B相当的准确率,导致更高推理成本 [3][6] - 消除训练数据差异后,扩散模型仍未展现出相对于自回归模型的效率优势 [4] 评估指标对模型表现的影响 - 词元错误率(TER)衡量文本流畅度时,MDMs可在恒定采样步数内达到理想困惑度,不受序列长度影响 [10][11] - 序列错误率(SER)评估逻辑正确性时,MDMs所需采样步数与序列长度线性相关,失去效率优势 [11] - 在GSM8K数学推理任务中,SER指标导致MDMs表现不佳,因其需要完全正确的思维链 [11][12] 适用场景分析 - 当任务优先考虑文本流畅性和高吞吐量(如创意写作)时,MDMs更具效率优势 [15] - 当任务要求序列级准确性(如数学推理、代码生成)时,自回归模型仍是更好选择 [15] - 研究证实扩散模型优势不能简单平移至语言领域,需根据具体任务需求选择模型类型 [16]