海天瑞声CEO李科:数据产业正从劳动密集型向技术和知识密集型转变
肖仰华分享了通过语法复杂度指标和累积分布采样方法筛选高质量语料的实践,实验表明,从100亿个 token的财经语料中仅筛选20%的高质量数据进行训练,对模型进行持续预训练,相比于全量数据持续 预训练,在领域问答任务上的准确率提升1.7%。 上海交通大学特聘教授翟广涛强调无论是精炼数据还是合成数据,都需要质量优先,而数据质量分析要 从"体验质量"入手,考虑人的体验,也考虑机器的体验,进而在数据为中心的范式下进一步提升大模型 性能。 海天瑞声CEO李科从产业实践角度分享了全球AI数据行业的发展趋势。他认为,数据产业正在经历从 劳动密集型向技术密集型和知识密集型的重大转型。通过动捕数据、自动驾驶标注、思维链数据集等多 个实际案例,李科展示了高质量数据如何服务千行百业。 上海库帕思科技有限公司董事长山栋明说,模型之变引领"数据质变",他表示高质量数据集应满足 VALID²(鲜活度、真实性、大样本、完整性、多样性、高知识密度)要求,并详细介绍了语料数据在 方法论、基础设施和行业生态三个方面的体系化重构探索。(罗宁) 责任编辑:常福强 专题:2025 INCLUSION·外滩大会:重塑创新增长 炒股就看金麒麟分析师研报, ...