Workflow
模型崩溃
icon
搜索文档
合成数据的「毒」与「药」,模型崩溃有何新解?
机器之心· 2025-08-30 09:30
本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。 引言 :在 2025 年里,围绕合成数据的研究取得了进展。一方面,学者们对模型在合成数据自循环训练下的崩溃机理有了更系统的揭示。另一方面,业界逐渐建立起 合成数据在生成、预训练、微调、后训练与评估等环节的应用流程。同时,一系列新提出的策略也为避免模型退化提供了可能路径,使合成数据在大模型发展中的作 用更加清晰。 目录 01.一年过去,关于合成数据的 「毒性」研究有何新发现? 合成数据为什么会在迭代训练中逐代污染训练集?模型在早期和晚期崩溃表现出了怎样的差异?不同类型生成模型(LLM、VAE、GMM)崩溃机制有何共性和差异?... 02 . 合成数据全面上场,在训练流程中扮演了哪些角色? 2、这种崩溃是一个退化过程,模型生成的文本逐代污染后续训练数据集,新一代模型逐步丧失对真实数据分布的认识,输出也越来越同质化。[2-1] ① 研究表明,在早期崩溃阶段,模型开始丢失分布尾部(低概率事件)的信息。 ② 在晚期崩溃阶段,模型将收敛到同原始分布几乎没有任何相似之处。 ③ 这一过程的发生,同模型设计、学习过程和所用数据质量有关。 3、经 S ...
ICML 2025 | 如何在合成文本数据时避免模型崩溃?
机器之心· 2025-05-14 12:36
合成数据与模型崩溃 - 生成式人工智能技术快速发展,合成数据成为大模型训练重要组成部分,未来GPT系列语言模型将依赖人工数据和合成数据混合的大规模语料 [1] - 合成数据不加控制使用可能引发"模型崩溃"问题,即便单次训练混入较多比例合成数据也会导致模型性能急剧下降,难以泛化到真实数据 [1] - 非迭代式模型崩溃现象:实验显示即使只进行一次预训练,混入高比例合成数据也会显著导致性能下降,在多个语言理解任务上得到验证 [6] 合成数据的结构性缺陷 - 合成数据相比人工数据存在两类结构性缺陷:分布覆盖收窄(缺乏低频与长尾样本)和特征过度集中(n-gram等语言特征分布密度过高) [7][13] - 这些缺陷导致难以体现语言多样性,并易使模型过拟合 [13] Token-Level Editing解决方案 - 研究团队提出Token-Level Editing方法,通过在真实数据上引入细粒度"微编辑"操作构建"半合成"数据,避免模型崩溃 [3][9] - 该方法仅针对模型"过度自信"的token进行替换,保留原始数据长尾结构,编辑规则基于条件概率估计和编辑阈值 [10][11] - 理论证明该方法测试误差存在固定上界,避免误差无界增长,实现"理论上不崩溃"的数据增强路径 [14][15][16] 实验验证结果 - 预训练阶段:在PIQA、BoolQ等通用任务上,使用编辑数据的模型表现优于纯合成数据方案,如OLMo-1B平均分提升+0.36个百分点 [18] - 持续预训练阶段:在生物医药等专业任务中带来跨域泛化提升,如PubMedQA任务准确率提升高达+13.6% [18] - 监督微调阶段:在指令理解与代码推理等复杂任务中展现强鲁棒性,如LLaMA-3平均提升+0.4~0.5% [18]