Workflow
token危机解决?扩散模型数据潜力3倍于自回归,重训480次性能仍攀升
机器之心·2025-08-10 12:31

研究背景与问题 - 大语言模型发展面临高质量训练文本数据即将枯竭的挑战,成为限制模型性能提升的关键瓶颈 [2] - 新增高质量数据来源少、获取成本高,去重后更加稀缺,导致“优质token不够训练”的危机 [2] 研究方法与规模 - 团队从零开始预训练扩散语言模型与自回归模型,最高规模达80亿参数、4800亿tokens、480个epoch [3] 核心研究发现 - 在token数量受限情况下,DLMs优于自回归模型,数据潜力超出3倍以上 [5][8] - 仅用10亿tokens训练的10亿参数DLM,在HellaSwag上达56%准确率,在MMLU上达33%准确率 [5] - 模型性能未出现饱和,重复训练次数越多提升越明显 [5] 数据重复训练效果 - 将10亿token数据集重复训练480个epoch,总训练量达4800亿tokens,模型在HellaSwag和MMLU上的表现显著优于自回归模型 [14] - 即使在极端重复条件下性能仍未饱和,表明DLMs能从固定语料中提取远超预期的有效信息 [14] 模型能力提升机制 - 尽管验证集上出现过拟合,模型在下游任务表现持续提升,底层判别能力不断改善 [16][17] - 网页文本数据并非完全因果结构,DLMs通过双向建模能从数据中提取更多信息 [19] - DLMs是“超密集模型”,计算上的超高密度直接转化为更强智能 [22] 与自回归模型对比 - 自回归模型优先考虑计算效率而非数据潜力,其Transformer设计限制了建模能力 [24] - 随着计算成本下降,数据可得性成为关键瓶颈,这正是研究DLMs的动力所在 [24] 方法论批判 - 指出同期研究存在方法论缺陷,包括使用未经验证的损失函数形式 [25][26] - 批评该研究使用未训练到最佳状态的自回归模型检查点与最佳扩散模型检查点进行比较的不公平做法 [28] - 指出该研究使用的scaling law公式假设验证集损失不会下降,但实际过拟合会导致验证损失上升 [32]