Workflow
数据选择
icon
搜索文档
不靠海量数据,如何精准喂养大模型?上交Data Whisperer:免训练数据选择法,10%数据逼近全量效果
机器之心· 2025-07-29 14:38
就像一位精通教学的导师,看一眼题库就知道该让学生重点练什么题。 论文标题:Data Whisperer: Efficient Data Selection for Task-Specific LLM Fine-Tuning via Few-Shot In-Context Learning 精调大模型,数据挑对才关键 模型说:「别给我扔几百万条数据了,你先告诉我哪些题值得看!」 传统的数据选择方法: 本文第一作者王少博为上海交通大学博士生,现于阿里 Qwen 团队实习,此前有 CVPR 满分一作论文。通讯作者为其导师、上海 交大助理教授张林峰。本文其他作者来自上交 EPIC Lab、NTU、NUS、微软、上海 AI Lab、港科大(广州)等。 从未微调目标数据集,一个预训练模型竟能自己筛选出「黄金训练样本」? 上海交通大学等团队提出 D ata Whi sperer —— 首个免训练的注意力驱动数据选择框架。它直接利用预训练模型的上下文学习 (ICL)能力, 无需额外微调打分模型 ,仅用 10% 数据就能让微调效果逼近全量数据! 要先训练个打分模型; 论文链接:arxiv.org/pdf/2505.12212 ...
字节最新大模型秘籍:只挑能有推理潜力的数据训练!1.3B模型无需标签自动挑选
量子位· 2025-05-15 14:26
西风 发自 凹非寺 量子位 | 公众号 QbitAI 和人工标记数据说拜拜,利用预训练语言模型中的注意力机制就能选择 可激发推理能力的训练数据 ! 字节Seed团队最新宣布了一个重要成果—— At te ntionInflu en ce 。 无需训练,无需标签 ,只需用1.3B模型给7B模型选择数据,就能提升模型推理能力,甚至也能提升代码生成能力。 以往,筛选数据的方法通常依赖于监督分类器,需要人工或大语言模型进行标注,难免引入领域特定偏见。 字节Seed团队注意到: 预训练模型中的检索头与检索和上下文推理紧密相关。 检索头在训练早期就会出现,逐渐增强,并最终在训练的中后期阶段牢固建立,对模型性能起到至关重要的作用。 1.3B参数稠密模型中检索头的演化过程,be like: 但如果直接关闭它们会怎样? 他们用小型预训练语言模型通过简单的 注意力头屏蔽 操作,充当强大的模型的数据选择器。 具体操作是 , 识别重要检索头,屏蔽这些头以创建性能下降的"弱"模型, 计算"弱"模型与原始"强"模型之间的损失差异,根据损失增加幅度 对数据进行排名 ,形成影响分数 。 没想到,实验后他们得到了一个惊人结果。 将Attent ...