Workflow
数据选择
icon
搜索文档
不靠海量数据,如何精准喂养大模型?上交Data Whisperer:免训练数据选择法,10%数据逼近全量效果
机器之心· 2025-07-29 14:38
核心观点 - 提出Data Whisperer框架 利用预训练模型的上下文学习能力实现免训练的数据选择 仅需10%数据即可达到接近全量数据的微调效果 [2][4][6] - 该方法通过注意力机制和ICL模拟参数更新 实现高效稳定的数据筛选 无需额外训练或人工标注 [6][10][36] - 在多个基准测试中显著超越传统方法 同时大幅降低计算成本和时间消耗 [15][18][35] 方法机制 - 基于ICL少样本构建和注意力感知权重 结合模型输出质量与注意力贡献进行综合打分 [7][8][10] - 理论支持显示ICL通过上下文样本调整注意力权重 等效于隐式参数更新 [13][14][36] - 支持弱选强训机制 小模型选题大模型微调 实现知识迁移并降低计算负担 [22][23][24] 性能表现 - GSM8K数学任务:使用10%数据达到72.46% 超过全量数据71.39%的表现 [15][19] - DialogSum摘要任务:在Qwen模型上达到43% 较SOTA方法提升2.5个百分点 [15][19] - 效率指标STR低至0.03-0.2 较传统方法提升8-20倍速度 [18][21] - 在1%/5%/10%低预算场景下均保持领先优势 [15][35] 技术细节 - 最优配置为n_d=10示范样本和n_q=5查询样本 增加样本数量效果饱和 [26][27][28] - 中间层注意力(如Layer13)提供最稳定的语义信息 优化选题效果 [30][31][32] - 倾向选择低困惑度样本 符合易例优先理论 [33][34] 对比优势 - 全面超越GraNd(基于梯度)/EL2N(预测误差)/CCS(多样性)/Nuggets(需训练打分器)等方法 [15][35][38] - 在准确率、效率、稳定性三个维度均领先 尤其擅长低预算场景 [18][35] - 实现结构感知和推理驱动的数据选择新范式 [39] 应用前景 - 可迁移至法律、医疗等复杂结构任务领域 [41] - 未来可结合人类反馈、提示工程或合成数据方法进一步优化 [41] - 揭示任务对齐可不依赖人类标签或大数据量 通过结构化推理机制引导学习 [42][43]
字节最新大模型秘籍:只挑能有推理潜力的数据训练!1.3B模型无需标签自动挑选
量子位· 2025-05-15 14:26
核心观点 - 字节Seed团队提出AttentionInfluence方法,利用预训练语言模型中的注意力机制选择高质量训练数据,无需人工标注或额外训练 [1][2] - 该方法通过屏蔽重要注意力头创建"弱"模型,计算损失差异来评估数据对推理能力的影响,筛选出高推理强度的样本 [6][13] - 实验显示使用该方法选择的数据训练7B模型,在MMLU、GSM8K等基准测试中性能提升1.4-3.5个百分点 [8][27] 技术原理 - 核心机制:识别与检索推理强相关的注意力头(前5%),通过损失差异计算AttentionInfluence分数 [14][19][20] - 关键步骤:构建800样本合成测试集评估检索能力,使用1.3B模型计算注意力头重要性 [15][17][19] - 数据筛选:选择SmolLM语料库中AttentionInfluence分数前20%的样本(73.1B tokens) [27] 实验结果 - 性能提升:7B模型在MMLU-Pro(+2.7pp)、AGIEval-en(+1.8pp)、GSM8K(+2.7pp)、HumanEval(+3.5pp)等任务显著超越基线 [8][29] - 规模效应:7B模型选择的数据质量优于1.3B模型,在数学/代码任务表现更优(MATH从10.8%提升至11.75%) [30][32] - 数据质量:AttentionInfluence样本推理分数达0.88(OpenWebMath),长度是传统方法的2倍(Python-Edu样本820 vs 414 tokens) [33][34] 方法优势 - 无监督:摆脱人工标注依赖,避免领域偏见 [3] - 可扩展:与FineWeb-Edu分类器结合可同时提升事实性知识和推理能力 [38] - 高效性:训练早期(100B tokens前)即显现性能优势,且持续至学习率衰减阶段 [29]