大模型监督微调（SFT） - 财报，业绩电话会，研报，新闻 - Reportify

大模型监督微调（SFT）

搜索文档

不用全量数据反复训练！清华UDS智能过滤劣质样本，算力成本腰斩｜ICML’26

量子位· 2026-06-27 09:37

清华大学季向阳教授团队投稿量子位 | 公众号 QbitAI 大模型做监督微调（SFT），是不是数据越多越好？直觉上，当然是把完整数据集都喂给模型最稳妥。但在真实训练里，事情并没有这么简单。全量SFT不仅计算成本高，还可能带来过拟合、偏见放大等问题。更关键的是，一个训练集里的样本价值并不相同：有些样本信息量很高，值得反复学习；有些样本高度重复，继续训练只是在浪费算力。于是，一个问题变得越来越重要：能不能在训练过程中，让模型一边看数据，一边自动挑出最值得更新参数的样本？来自清华大学自动化系的研究者提出了 UDS（Utility-Diversity Sampling），一个面向大语言模型SFT的在线batch选择框架。一句话概括： UDS不是简单挑loss最大的样本，而是利用前向传播中已经产生的logits，同时评估样本"有没有用"和"够不够多样"，从而在不依赖验证集、参考模型和额外反向传播的情况下，更高效地完成SFT。实验显示，在MMLU、ScienceQA、GSM8K、HumanEval四个基准上，UDS在Llama-3.1-8B和Qwen-2.5-7B上都取得了在线batch选 ...

大模型监督微调（SFT）

在线batch选择

UDS（Utility-Diversity Sampling）

大模型监督微调（SFT）

在线batch选择

UDS（Utility-Diversity Sampling）