文章核心观点 - 阿里巴巴、上海交大、UW-Madison等团队提出的OPUS方法,挑战了“更多、更新、更高质量数据”的大模型预训练传统信条,通过动态选择中低质量数据,在效果和效率上超越了“高质量数据优先”的经典方法 [2][3] - OPUS的核心创新在于将数据选择与优化器(如AdamW, Muon)的实际更新方向系统性地对齐,解决了传统方法在“优化器无关”的数据选择上存在的“方向偏差”问题,从而显著提升预训练效率与模型泛化能力 [3][5][9] 行业背景与问题 - 大模型发展正面临“数据墙”挑战,高质量公共文本逐渐枯竭,预训练正从“吞吐问题”转向“控制问题”,即需要精确决定每一步更新使用哪些token [5] - 行业常见的数据选择路线(静态过滤和动态选择)存在硬伤:静态过滤假设数据价值固定,无法适应训练动态;动态选择大多仍基于SGD时代的“原始梯度”视角,与现代优化器(AdamW, Muon)的实际更新过程脱节 [10] OPUS方法原理 - OPUS全称为“Optimizer-induced Projected Utility Selection”,其核心是将样本效用的评估从“原始梯度空间”转移到“优化器诱导的有效更新空间”,以最大化每一步更新的收益 [8][9] - 方法包含三个关键组件:1) 目标对齐:构建与目标评测基准语义对齐的“Bench-Proxy”池,提供稳定的目标方向 [15];2) 可扩展估计:使用Ghost和CountSketch技术高效近似计算样本效用,将额外计算开销控制在约4.7% [16][21];3) 稳定选择:引入冗余惩罚,并通过Boltzmann软采样进行选择,平衡效率与多样性 [17][24] 实验结果与性能 - 在FineWeb数据集上的预训练实验中,OPUS在GPT-2 Large/XL的30B token预训练中,相比随机选择在10个基准上平均提升准确率1.5%,并在GPT-XL上实现了8倍的计算效率提升(相同效果所需计算显著降低)[23] - 在FineWeb-Edu数据集的分层实验中,OPUS仅使用中等质量(score 3)数据动态选择,在GPT-2 Large/XL的30B token训练中,相比从高质量数据(score 4-5)中随机选择,在10个基准上平均取得3.18%的准确率提升 [26] - 在领域泛化(PPL)评估中,OPUS在FineWeb上训练的GPT-2 Large和GPT-2 XL模型,在10个不同领域的平均困惑度分别达到3.35和3.26,优于多种基线方法,表明其提升具有广泛的可迁移性 [28][29] - 在面向产业的继续预训练场景中,OPUS在Qwen3-8B-Base模型上使用SciencePedia数据,仅用0.5B tokens就达到了使用随机选择训练3B tokens的效果,实现了约6倍的数据效率增益 [30] 方法意义与行业影响 - OPUS标志着预训练从“数据吞吐战”进入“更新效率战”的新阶段,强调“每一个token都要为更新负责”,在数据墙和算力成本高企的背景下具有重要价值 [35][37] - 该方法首次系统性地将“数据治理”与“训练动力学”结合成闭环,其原则(与优化器更新方向对齐)与工程实践(可承受的计算开销)相结合,为大规模预训练中实现精细化的在线数据选择提供了可行路径 [34][35] - OPUS并不排斥现有数据工程手段,可与静态过滤协同工作:静态过滤剔除明显低价值样本,OPUS则在剩余候选中进行细粒度的动态选择,共同优化训练过程 [35]
打破「数据暴力」预训练惯性,阿里Qwen、上交大等提出预训练动态数据选择范式OPUS
机器之心·2026-03-16 16:34