数据合成 - 财报，业绩电话会，研报，新闻

数据合成

搜索文档

NIPS 2025 Spotlight | 港大提出TreeSynth方法，一句话生成百万规模数据集

机器之心· 2025-10-03 11:39

核心技术创新 - 提出TreeSynth方法，通过树引导子空间划分从零开始系统性地生成多样化、高质量的训练数据[4][6] - 核心创新是将数据合成问题映射到决策树的空间分割机制上，利用其互斥性和穷尽性特性[7] - 该方法将复杂数据领域逐步细分为独特且互不重叠的原子子空间，确保全面均衡覆盖整个知识领域[4][12] 方法工作流程 - 采用两阶段工作流程：数据空间分割和子空间数据合成[8] - 第一阶段通过标准确定和子空间覆盖递归构建空间分割树，将数据空间分解为互斥互补的原子子空间[9][12] - 第二阶段在每个叶节点收集完整路径描述，指导LLM在特定约束下生成样本，最终汇集所有叶节点数据获得高多样性数据集[13] 性能提升表现 - 在数学推理任务上，LLaMA3-1-8B模型在GSM8K上的准确率从基线45.2%提升至55.8%，在MATH上从12.1%提升至18.7%[19] - 在代码生成任务上，HumanEval通过率从32.3%提升至41.9%，MBPP从39.1%提升至47.6%[19] - 平均性能提升达到10%，最高提升幅度超过17%，在所有基准测试中都取得一致性能提升[19] 数据多样性改善 - 在数据多样性指标上显著超越基线方法，某些测试中多样性提升高达45%[23] - t-SNE可视化显示生成数据在嵌入空间中分布更加均匀分散，验证了树引导分割机制在防止数据重复和空间坍塌方面的有效性[23] 应用扩展价值 - 不仅能从零开始合成数据，还能优化现有数据集，通过构建空间分割树清晰展示数据分布模式，对样本过多子空间下采样，对不足子空间进行数据增强[14] - 展现出优秀可扩展性，随着数据规模增加，模型性能呈现线性甚至更好增长轨迹，证明该方法在大规模数据合成场景下的稳健性[27]

前端程序员请注意！首个截图就能生成现代前端代码的AI来了 | 已开源

量子位· 2025-02-26 11:51

模型概述 - 首个面向现代前端代码生成的多模态大模型解决方案Flame开源发布，支持组件化、状态管理和数据驱动渲染等现代前端开发特点[1] - 模型能根据截图生成符合现代前端开发规范的代码，包括清晰的外联样式和模块化组件结构[4] - 相比GPT-4o等模型只能产出静态组件，Flame能正确定义组件状态、事件响应和基于数据的动态渲染[5] 技术优势 - 通过三种数据合成方法解决前端代码生成领域数据稀缺问题：基于进化的合成、基于瀑布模型的合成和基于增量开发的合成[18][20][22] - 数据合成方法能低成本大规模生成特定框架数据，已构建超过400k的React多模态数据集[25] - 仅用20万数据量级即实现52%+的Pass@1准确率，显著优于GPT-4o的11%[27] 性能表现 - 在包含80道题目的高质量测试集上，Flame生成的代码能通过编译验证、符合编码规范且渲染效果与设计图高度相似[26] - 模型支持多图场景下的数据合成和视觉思维链合成，为复杂场景提供更多可能性[25] - 训练数据、合成流程、模型及测试集已全面开源[28]

现代前端代码开发

数据合成

截图生成代码

Artificial Intelligence

Artificial Intelligence

Flame

Gemini 1.5 Flash