打破「数据暴力」预训练惯性，阿里Qwen、上交大等提出预训练动态数据选择范式OPUS

文章核心观点 - 阿里巴巴、上海交大、UW-Madison等团队提出的OPUS方法，挑战了“更多、更新、更高质量数据”的大模型预训练传统信条，通过动态选择中低质量数据，在效果和效率上超越了“高质量数据优先”的经典方法 [2][3] - OPUS的核心创新在于将数据选择与优化器（如AdamW, Muon）的实际更新方向系统性地对齐，解决了传统方法在“优化器无关”的数据选择上存在的“方向偏差”问题，从而显著提升预训练效率与模型泛化能力 [3][5][9] 行业背景与问题 - 大模型发展正面临“数据墙”挑战，高质量公共文本逐渐枯竭，预训练正从“吞吐问题”转向“控制问题”，即需要精确决定每一步更新使用哪些token [5] - 行业常见的数据选择路线（静态过滤和动态选择）存在硬伤：静态过滤假设数据价值固定，无法适应训练动态；动态选择大多仍基于SGD时代的“原始梯度”视角，与现代优化器（AdamW, Muon）的实际更新过程脱节 [10] OPUS方法原理 - OPUS全称为“Optimizer-induced Projected Utility Selection”，其核心是将样本效用的评估从“原始梯度空间”转移到“优化器诱导的有效更新空间”，以最大化每一步更新的收益 [8][9] - 方法包含三个关键组件：1) 目标对齐：构建与目标评测基准语义对齐的“Bench-Proxy”池，提供稳定的目标方向 [15]；2) 可扩展估计：使用Ghost和CountSketch技术高效近似计算样本效用，将额外计算开销控制在约4.7% [16][21]；3) 稳定选择：引入冗余惩罚，并通过Boltzmann软采样进行选择，平衡效率与多样性 [17][24] 实验结果与性能 - 在FineWeb数据集上的预训练实验中，OPUS在GPT-2 Large/XL的30B token预训练中，相比随机选择在10个基准上平均提升准确率1.5%，并在GPT-XL上实现了8倍的计算效率提升（相同效果所需计算显著降低）[23] - 在FineWeb-Edu数据集的分层实验中，OPUS仅使用中等质量（score 3）数据动态选择，在GPT-2 Large/XL的30B token训练中，相比从高质量数据（score 4-5）中随机选择，在10个基准上平均取得3.18%的准确率提升 [26] - 在领域泛化（PPL）评估中，OPUS在FineWeb上训练的GPT-2 Large和GPT-2 XL模型，在10个不同领域的平均困惑度分别达到3.35和3.26，优于多种基线方法，表明其提升具有广泛的可迁移性 [28][29] - 在面向产业的继续预训练场景中，OPUS在Qwen3-8B-Base模型上使用SciencePedia数据，仅用0.5B tokens就达到了使用随机选择训练3B tokens的效果，实现了约6倍的数据效率增益 [30] 方法意义与行业影响 - OPUS标志着预训练从“数据吞吐战”进入“更新效率战”的新阶段，强调“每一个token都要为更新负责”，在数据墙和算力成本高企的背景下具有重要价值 [35][37] - 该方法首次系统性地将“数据治理”与“训练动力学”结合成闭环，其原则（与优化器更新方向对齐）与工程实践（可承受的计算开销）相结合，为大规模预训练中实现精细化的在线数据选择提供了可行路径 [34][35] - OPUS并不排斥现有数据工程手段，可与静态过滤协同工作：静态过滤剔除明显低价值样本，OPUS则在剩余候选中进行细粒度的动态选择，共同优化训练过程 [35]