模型崩溃 - 财报，业绩电话会，研报，新闻 - Reportify

模型崩溃

搜索文档

ICML 2025 | 如何在合成文本数据时避免模型崩溃？

机器之心· 2025-05-14 12:36

合成数据与模型崩溃 - 生成式人工智能技术快速发展，合成数据成为大模型训练重要组成部分，未来GPT系列语言模型将依赖人工数据和合成数据混合的大规模语料 [1] - 合成数据不加控制使用可能引发"模型崩溃"问题，即便单次训练混入较多比例合成数据也会导致模型性能急剧下降，难以泛化到真实数据 [1] - 非迭代式模型崩溃现象：实验显示即使只进行一次预训练，混入高比例合成数据也会显著导致性能下降，在多个语言理解任务上得到验证 [6] 合成数据的结构性缺陷 - 合成数据相比人工数据存在两类结构性缺陷：分布覆盖收窄（缺乏低频与长尾样本）和特征过度集中（n-gram等语言特征分布密度过高） [7][13] - 这些缺陷导致难以体现语言多样性，并易使模型过拟合 [13] Token-Level Editing解决方案 - 研究团队提出Token-Level Editing方法，通过在真实数据上引入细粒度"微编辑"操作构建"半合成"数据，避免模型崩溃 [3][9] - 该方法仅针对模型"过度自信"的token进行替换，保留原始数据长尾结构，编辑规则基于条件概率估计和编辑阈值 [10][11] - 理论证明该方法测试误差存在固定上界，避免误差无界增长，实现"理论上不崩溃"的数据增强路径 [14][15][16] 实验验证结果 - 预训练阶段：在PIQA、BoolQ等通用任务上，使用编辑数据的模型表现优于纯合成数据方案，如OLMo-1B平均分提升+0.36个百分点 [18] - 持续预训练阶段：在生物医药等专业任务中带来跨域泛化提升，如PubMedQA任务准确率提升高达+13.6% [18] - 监督微调阶段：在指令理解与代码推理等复杂任务中展现强鲁棒性，如LLaMA-3平均提升+0.4~0.5% [18]

生成式人工智能

Token-Level Editing

非迭代式模型崩溃

生成式人工智能

Token-Level Editing

非迭代式模型崩溃