数据合成

搜索文档
NIPS 2025 Spotlight | 港大提出TreeSynth方法,一句话生成百万规模数据集
机器之心· 2025-10-03 11:39
核心技术创新 - 提出TreeSynth方法,通过树引导子空间划分从零开始系统性地生成多样化、高质量的训练数据[4][6] - 核心创新是将数据合成问题映射到决策树的空间分割机制上,利用其互斥性和穷尽性特性[7] - 该方法将复杂数据领域逐步细分为独特且互不重叠的原子子空间,确保全面均衡覆盖整个知识领域[4][12] 方法工作流程 - 采用两阶段工作流程:数据空间分割和子空间数据合成[8] - 第一阶段通过标准确定和子空间覆盖递归构建空间分割树,将数据空间分解为互斥互补的原子子空间[9][12] - 第二阶段在每个叶节点收集完整路径描述,指导LLM在特定约束下生成样本,最终汇集所有叶节点数据获得高多样性数据集[13] 性能提升表现 - 在数学推理任务上,LLaMA3-1-8B模型在GSM8K上的准确率从基线45.2%提升至55.8%,在MATH上从12.1%提升至18.7%[19] - 在代码生成任务上,HumanEval通过率从32.3%提升至41.9%,MBPP从39.1%提升至47.6%[19] - 平均性能提升达到10%,最高提升幅度超过17%,在所有基准测试中都取得一致性能提升[19] 数据多样性改善 - 在数据多样性指标上显著超越基线方法,某些测试中多样性提升高达45%[23] - t-SNE可视化显示生成数据在嵌入空间中分布更加均匀分散,验证了树引导分割机制在防止数据重复和空间坍塌方面的有效性[23] 应用扩展价值 - 不仅能从零开始合成数据,还能优化现有数据集,通过构建空间分割树清晰展示数据分布模式,对样本过多子空间下采样,对不足子空间进行数据增强[14] - 展现出优秀可扩展性,随着数据规模增加,模型性能呈现线性甚至更好增长轨迹,证明该方法在大规模数据合成场景下的稳健性[27]
前端程序员请注意!首个截图就能生成现代前端代码的AI来了 | 已开源
量子位· 2025-02-26 11:51
模型概述 - 首个面向现代前端代码生成的多模态大模型解决方案Flame开源发布,支持组件化、状态管理和数据驱动渲染等现代前端开发特点[1] - 模型能根据截图生成符合现代前端开发规范的代码,包括清晰的外联样式和模块化组件结构[4] - 相比GPT-4o等模型只能产出静态组件,Flame能正确定义组件状态、事件响应和基于数据的动态渲染[5] 技术优势 - 通过三种数据合成方法解决前端代码生成领域数据稀缺问题:基于进化的合成、基于瀑布模型的合成和基于增量开发的合成[18][20][22] - 数据合成方法能低成本大规模生成特定框架数据,已构建超过400k的React多模态数据集[25] - 仅用20万数据量级即实现52%+的Pass@1准确率,显著优于GPT-4o的11%[27] 性能表现 - 在包含80道题目的高质量测试集上,Flame生成的代码能通过编译验证、符合编码规范且渲染效果与设计图高度相似[26] - 模型支持多图场景下的数据合成和视觉思维链合成,为复杂场景提供更多可能性[25] - 训练数据、合成流程、模型及测试集已全面开源[28]