结构对齐

搜索文档
不靠海量数据,如何精准喂养大模型?上交Data Whisperer:免训练数据选择法,10%数据逼近全量效果
机器之心· 2025-07-29 14:38
就像一位精通教学的导师,看一眼题库就知道该让学生重点练什么题。 论文标题:Data Whisperer: Efficient Data Selection for Task-Specific LLM Fine-Tuning via Few-Shot In-Context Learning 精调大模型,数据挑对才关键 模型说:「别给我扔几百万条数据了,你先告诉我哪些题值得看!」 传统的数据选择方法: 本文第一作者王少博为上海交通大学博士生,现于阿里 Qwen 团队实习,此前有 CVPR 满分一作论文。通讯作者为其导师、上海 交大助理教授张林峰。本文其他作者来自上交 EPIC Lab、NTU、NUS、微软、上海 AI Lab、港科大(广州)等。 从未微调目标数据集,一个预训练模型竟能自己筛选出「黄金训练样本」? 上海交通大学等团队提出 D ata Whi sperer —— 首个免训练的注意力驱动数据选择框架。它直接利用预训练模型的上下文学习 (ICL)能力, 无需额外微调打分模型 ,仅用 10% 数据就能让微调效果逼近全量数据! 要先训练个打分模型; 论文链接:arxiv.org/pdf/2505.12212 ...