不用全量数据反复训练！清华UDS智能过滤劣质样本，算力成本腰斩｜ICML’26

文章核心观点 - 清华大学研究团队提出了一种名为UDS（Utility-Diversity Sampling）的在线批次选择框架，旨在解决大语言模型监督微调（SFT）中全量训练成本高、效率低的问题[1][2] - UDS的核心思想是利用模型前向传播中已产生的logits，在不依赖外部资源的情况下，同时评估样本的“效用”和“多样性”，从而动态选择最有价值的样本进行参数更新，实现更高的训练效率和模型性能[2][12] - 实验表明，UDS在多个基准测试和基座模型上均取得了最优性能，且训练吞吐量高于全量SFT，证明了其有效性和高效性[2][37][40] 现有方法及其局限性 - 全量SFT训练成本高昂且可能导致过拟合和偏见放大[1][4] - 现有的在线批次选择方法（如MaxLoss、MaxGrad、RHO-Loss、GREATS）主要关注样本效用（如损失或梯度大小），但普遍忽略了样本多样性，且部分方法依赖外部验证集、参考模型或额外计算，可能增加开销[7][8][9][10] - 理想的在线批次选择方法需同时满足数据效用、样本内多样性、样本间多样性、不依赖外部资源以及降低训练时间这五点要求[11][15] UDS方法详解 - UDS通过分析前向传播得到的logits矩阵，计算两个分数：样本内部重要性分数（通过核范数衡量）和样本间重要性分数（通过低维投影与历史样本的距离衡量）[12][13] - 核范数能同时反映样本的训练价值（与损失减少相关性强）和样本内部的信息丰富度（token预测的多样性）[18][20][21][22] - 为衡量样本间多样性，UDS维护一个固定大小的先进先出（FIFO）记忆缓冲区，存储历史样本的低维投影表示，并通过计算欧氏距离避免选择相似样本[30][34] - 采用低维投影技术（如SRFT随机投影）压缩logits矩阵，解决了直接存储完整logits矩阵内存消耗过大的问题（例如，存储1024个样本的完整logits矩阵可能需约74GB内存）[32][33] 实验结果 - 性能表现：在Qwen-2.5-7B模型上，UDS在MMLU基准上达到63.34%准确率，比GREATS方法高出5.15个百分点；在ScienceQA上达到95.19%，GSM8K上达到79.91%，HumanEval上达到46.28%，均优于对比方法[2][38][39][40][42] - 效率表现：在Qwen-2.5-7B模型上，UDS在MMLU上的训练吞吐量为3.41 samples/s，高于全量训练的2.27 samples/s；在HumanEval上为6.81 samples/s，高于全量训练的6.24 samples/s[40][42] - 消融实验：单独使用核范数或多样性距离均能带来性能提升，但两者结合的完整UDS效果最佳，证明了两种信号的互补性[43][45][46][47] - 鲁棒性验证：UDS的优势在不同批次大小、全参数微调、指令模型、长序列推理任务以及分布外（OOD）测试等多种设置下均得到保持[52][53][57] 行业意义与展望 - 该研究强调训练效率不仅取决于模型和算力，也取决于每一步参数更新所选择的数据质量，推动SFT从“全量喂数据”向“动态挑数据”的范式转变[58] - UDS代表了一种更实用的数据选择方向，使大模型训练不再仅仅依赖于“堆数据、堆算力”，而是让训练过程自身具备更强的数据判断能力[59] - 该方法有望使SFT以更少的样本和更低的时间成本，获得更强的模型表现[60]