Workflow
不靠海量数据,如何精准喂养大模型?上交Data Whisperer:免训练数据选择法,10%数据逼近全量效果
机器之心·2025-07-29 14:38

核心观点 - 提出Data Whisperer框架 利用预训练模型的上下文学习能力实现免训练的数据选择 仅需10%数据即可达到接近全量数据的微调效果 [2][4][6] - 该方法通过注意力机制和ICL模拟参数更新 实现高效稳定的数据筛选 无需额外训练或人工标注 [6][10][36] - 在多个基准测试中显著超越传统方法 同时大幅降低计算成本和时间消耗 [15][18][35] 方法机制 - 基于ICL少样本构建和注意力感知权重 结合模型输出质量与注意力贡献进行综合打分 [7][8][10] - 理论支持显示ICL通过上下文样本调整注意力权重 等效于隐式参数更新 [13][14][36] - 支持弱选强训机制 小模型选题大模型微调 实现知识迁移并降低计算负担 [22][23][24] 性能表现 - GSM8K数学任务:使用10%数据达到72.46% 超过全量数据71.39%的表现 [15][19] - DialogSum摘要任务:在Qwen模型上达到43% 较SOTA方法提升2.5个百分点 [15][19] - 效率指标STR低至0.03-0.2 较传统方法提升8-20倍速度 [18][21] - 在1%/5%/10%低预算场景下均保持领先优势 [15][35] 技术细节 - 最优配置为n_d=10示范样本和n_q=5查询样本 增加样本数量效果饱和 [26][27][28] - 中间层注意力(如Layer13)提供最稳定的语义信息 优化选题效果 [30][31][32] - 倾向选择低困惑度样本 符合易例优先理论 [33][34] 对比优势 - 全面超越GraNd(基于梯度)/EL2N(预测误差)/CCS(多样性)/Nuggets(需训练打分器)等方法 [15][35][38] - 在准确率、效率、稳定性三个维度均领先 尤其擅长低预算场景 [18][35] - 实现结构感知和推理驱动的数据选择新范式 [39] 应用前景 - 可迁移至法律、医疗等复杂结构任务领域 [41] - 未来可结合人类反馈、提示工程或合成数据方法进一步优化 [41] - 揭示任务对齐可不依赖人类标签或大数据量 通过结构化推理机制引导学习 [42][43]