大模型监督微调(SFT)
搜索文档
不用全量数据反复训练!清华UDS智能过滤劣质样本,算力成本腰斩|ICML’26
量子位· 2026-06-27 09:37
清华大学季向阳教授团队 投稿 量子位 | 公众号 QbitAI 大模型做监督微调 (SFT) ,是不是数据越多越好? 直觉上,当然是把完整数据集都喂给模型最稳妥。但在真实训练里,事情并没有这么简单。 全量SFT不仅计算成本高,还可能带来过拟合、偏见放大等问题。更关键的是,一个训练集里的样本价值 并不相同 :有些样本信息量很 高,值得反复学习;有些样本高度重复,继续训练只是在浪费算力。 于是,一个问题变得越来越重要: 能不能在训练过程中,让模型一边看数据,一边自动挑出最值得更新参数的样本? 来自清华大学自动化系的研究者提出了 UDS(Utility-Diversity Sampling) ,一个面向大语言模型SFT的在线batch选择框架。 一句话概括: UDS不是简单挑loss最大的样本,而是利用前向传播中已经产生的logits,同时评估样本"有没有用"和"够不够多样",从而 在不依赖验证集、参考模型和额外反向传播的情况下,更高效地完成SFT。 实验显示,在MMLU、ScienceQA、GSM8K、HumanEval四个基准上,UDS在Llama-3.1-8B和Qwen-2.5-7B上都取得了在线batch选 ...