Workflow
TreeSynth
icon
搜索文档
NIPS 2025 Spotlight | 港大提出TreeSynth方法,一句话生成百万规模数据集
机器之心· 2025-10-03 11:39
核心技术创新 - 提出TreeSynth方法,通过树引导子空间划分从零开始系统性地生成多样化、高质量的训练数据[4][6] - 核心创新是将数据合成问题映射到决策树的空间分割机制上,利用其互斥性和穷尽性特性[7] - 该方法将复杂数据领域逐步细分为独特且互不重叠的原子子空间,确保全面均衡覆盖整个知识领域[4][12] 方法工作流程 - 采用两阶段工作流程:数据空间分割和子空间数据合成[8] - 第一阶段通过标准确定和子空间覆盖递归构建空间分割树,将数据空间分解为互斥互补的原子子空间[9][12] - 第二阶段在每个叶节点收集完整路径描述,指导LLM在特定约束下生成样本,最终汇集所有叶节点数据获得高多样性数据集[13] 性能提升表现 - 在数学推理任务上,LLaMA3-1-8B模型在GSM8K上的准确率从基线45.2%提升至55.8%,在MATH上从12.1%提升至18.7%[19] - 在代码生成任务上,HumanEval通过率从32.3%提升至41.9%,MBPP从39.1%提升至47.6%[19] - 平均性能提升达到10%,最高提升幅度超过17%,在所有基准测试中都取得一致性能提升[19] 数据多样性改善 - 在数据多样性指标上显著超越基线方法,某些测试中多样性提升高达45%[23] - t-SNE可视化显示生成数据在嵌入空间中分布更加均匀分散,验证了树引导分割机制在防止数据重复和空间坍塌方面的有效性[23] 应用扩展价值 - 不仅能从零开始合成数据,还能优化现有数据集,通过构建空间分割树清晰展示数据分布模式,对样本过多子空间下采样,对不足子空间进行数据增强[14] - 展现出优秀可扩展性,随着数据规模增加,模型性能呈现线性甚至更好增长轨迹,证明该方法在大规模数据合成场景下的稳健性[27]