文章核心观点 - 清华大学研究团队提出了一种名为UDS(Utility-Diversity Sampling)的在线批次选择框架,旨在解决大语言模型监督微调(SFT)中全量训练成本高、效率低的问题[1][2] - UDS的核心思想是利用模型前向传播中已产生的logits,在不依赖外部资源的情况下,同时评估样本的“效用”和“多样性”,从而动态选择最有价值的样本进行参数更新,实现更高的训练效率和模型性能[2][12] - 实验表明,UDS在多个基准测试和基座模型上均取得了最优性能,且训练吞吐量高于全量SFT,证明了其有效性和高效性[2][37][40] 现有方法及其局限性 - 全量SFT训练成本高昂且可能导致过拟合和偏见放大[1][4] - 现有的在线批次选择方法(如MaxLoss、MaxGrad、RHO-Loss、GREATS)主要关注样本效用(如损失或梯度大小),但普遍忽略了样本多样性,且部分方法依赖外部验证集、参考模型或额外计算,可能增加开销[7][8][9][10] - 理想的在线批次选择方法需同时满足数据效用、样本内多样性、样本间多样性、不依赖外部资源以及降低训练时间这五点要求[11][15] UDS方法详解 - UDS通过分析前向传播得到的logits矩阵,计算两个分数:样本内部重要性分数(通过核范数衡量)和样本间重要性分数(通过低维投影与历史样本的距离衡量)[12][13] - 核范数能同时反映样本的训练价值(与损失减少相关性强)和样本内部的信息丰富度(token预测的多样性)[18][20][21][22] - 为衡量样本间多样性,UDS维护一个固定大小的先进先出(FIFO)记忆缓冲区,存储历史样本的低维投影表示,并通过计算欧氏距离避免选择相似样本[30][34] - 采用低维投影技术(如SRFT随机投影)压缩logits矩阵,解决了直接存储完整logits矩阵内存消耗过大的问题(例如,存储1024个样本的完整logits矩阵可能需约74GB内存)[32][33] 实验结果 - 性能表现:在Qwen-2.5-7B模型上,UDS在MMLU基准上达到63.34%准确率,比GREATS方法高出5.15个百分点;在ScienceQA上达到95.19%,GSM8K上达到79.91%,HumanEval上达到46.28%,均优于对比方法[2][38][39][40][42] - 效率表现:在Qwen-2.5-7B模型上,UDS在MMLU上的训练吞吐量为3.41 samples/s,高于全量训练的2.27 samples/s;在HumanEval上为6.81 samples/s,高于全量训练的6.24 samples/s[40][42] - 消融实验:单独使用核范数或多样性距离均能带来性能提升,但两者结合的完整UDS效果最佳,证明了两种信号的互补性[43][45][46][47] - 鲁棒性验证:UDS的优势在不同批次大小、全参数微调、指令模型、长序列推理任务以及分布外(OOD)测试等多种设置下均得到保持[52][53][57] 行业意义与展望 - 该研究强调训练效率不仅取决于模型和算力,也取决于每一步参数更新所选择的数据质量,推动SFT从“全量喂数据”向“动态挑数据”的范式转变[58] - UDS代表了一种更实用的数据选择方向,使大模型训练不再仅仅依赖于“堆数据、堆算力”,而是让训练过程自身具备更强的数据判断能力[59] - 该方法有望使SFT以更少的样本和更低的时间成本,获得更强的模型表现[60]
不用全量数据反复训练!清华UDS智能过滤劣质样本,算力成本腰斩|ICML’26
量子位·2026-06-27 09:37