Workflow
RefineX
icon
搜索文档
手术刀式去噪突破LLM能力上限,从头预训练模型下游任务平均提高7.2% | 中科院&阿里
量子位· 2025-07-21 12:23
核心观点 - 中科院计算所与阿里Qwen团队联合提出RefineX框架,通过程序化编辑任务实现大规模、精准预训练数据精炼 [1] - RefineX将专家指导的高质量端到端优化结果蒸馏为极简的基于编辑操作的删除程序,保留文本多样性和自然性 [2][4] - 使用RefineX净化后的20B token数据训练750M模型,在10项任务平均得分达44.7,较原始数据提升7.2% [5][25] 预训练数据质量挑战 - 互联网海量数据伴随噪声污染(广告/HTML标签/乱码),降低数据效用并可能引发模型幻觉 [6] - 传统方案存在局限:规则过滤只能文档级粗筛,端到端重写成本高且可能篡改关键术语 [7][8] RefineX技术原理 - 采用两阶段蒸馏:先执行端到端精炼,再通过文本比较生成可靠监督程序 [11][12] - 仅保留删除操作(删行/删字符/保留),避免新增内容或过度修改 [19] - 使用最小编辑距离算法捕获差异,过滤非法操作 [19] - 动态分块机制提升长上下文处理能力 [20] 性能表现 - 在Gopher/C4/FineWeb等规则过滤基础上,RefineX平均得分提升0.7-1.1分 [23] - 相比Prox-C方法,RefineX在10项任务中获胜次数更多(6/10 vs 4/10) [23] - 对低质文本改善率达42.2%,且保持零新增词汇 [29] 实施细节 - 使用Qwen2.5-72B-Instruct作为专家模型,消耗万卡小时处理200万样本 [20] - 训练0.6B的Qwen-3-Base作为优化模型,平衡效率与可靠性 [21]