华人团队终结Token危机:扩散模型数据潜力超自回归三倍
量子位·2025-08-13 17:13
扩散语言模型的数据学习潜力 - 在token数量受限情况下,扩散语言模型的数据潜力可达自回归模型的三倍多 [1] - 一个参数规模为1B的扩散模型,仅用1B tokens训练480个周期,就在HellaSwag和MMLU基准上分别取得56%和33%的准确率 [5] - 即使在极端数据重复下,模型也未出现性能饱和,表明其还能从1B数据中挖掘出更多有用信息 [4] 扩散语言模型的技术优势 - 扩散目标和双向注意力机制使其能够进行双向建模,更充分地挖掘网络数据中的信息 [8] - 双向建模打破传统自回归模型的因果限制,能更全面捕捉语言及非因果数据的复杂模式 [8][9] - 扩散模型计算密度极高,在训练和推理中投入更多计算资源,通过多次处理数据和迭代优化提升性能 [11] - 扩散目标要求在预训练时对每个数据点进行多种掩码比例和组合的扰动,从而更有效地训练 [15] 扩散语言模型的过拟合特性 - 模型过拟合出现的训练周期数与独特数据量呈正相关,与模型规模呈负相关 [18] - 独特数据量越大,过拟合出现越晚;模型规模越大,过拟合发生越早 [18] - 模型在预训练验证集上"过拟合"时,下游任务性能不一定会下降,反而可能持续上升至训练结束 [19] - 绝对负对数似然值的变化不一定转化为相对顺序的变化,因此验证损失上升时模型判别能力仍可能提升 [21][22][25] 自回归模型的比较与行业背景 - 自回归模型优先考虑计算效率而非数据潜力,其transformer设计采用教师强制和因果掩码,限制了建模能力 [14] - 随着计算成本下降,数据可获得性成为关键瓶颈,这是研究团队开展扩散语言模型研究的出发点 [15]