Workflow
大数据与人工智能融合
icon
搜索文档
对话陈松蹊院士:中国急需加速构建高质量的科学数据集 | 数博会
中国经营报· 2025-09-05 06:28
核心观点 - 中国已具备建设高质量数据集的能力和研究实力 需要组织科学家以公共视野和科学眼光推动这项工作[1] - 在海洋高质量数据集建设上实现突破 测试结果达到甚至优于国际水平[1][4] - 统计学作为通用语言能够连接不同领域数据特性 推动跨领域大数据应用创新[2] - 统计学是人工智能的基础 需加强不确定性度量并优先尝试简单统计模型[2] - 数据分析人才缺口很大 需要加强人才培养[3] - 高质量数据集建设仍有待加强 科学家仍依赖国外数据但中国已具备自主构建能力[4] 超高维大数据统计挑战 - 传统多元分析针对固定维度样本量较大情况 而超高维问题维度可达数千万[1] - 2000年后开始系统研究高维数据分析 独立数据方面的数学与统计问题已基本解决[1] - 新挑战包括数据非完全独立性以及多模态混合和时空相关性问题[1] 跨领域数据应用 - 各领域数据存在共性 如大气环境研究与脑电波分析方法存在高度一致性[2] - 传统方差分析方法已有百余年历史 广泛应用于农业育种医学评估等领域[2] - 大气和海洋数据在时空相关性方面有共性 但海洋观测难度更大[2] 人工智能与统计学协同 - 人工智能本质基于数据 与统计学天然紧密相关[2] - 卷积神经网络具有强大表示能力 但统计学更关注不确定性度量[2] - 应优先尝试简单统计模型 再考虑复杂人工智能模型[2] - 需对人工智能与统计方法进行不确定性度量并给出区间估计[2] 数据人才培养 - 包括人工智能在内的数据分析领域人才缺口很大[3] - 已开设相关本科专业 即将启动数据分析师专业硕士项目[3] 数据资源建设 - 许多科学家仍依赖美国国家海洋和大气管理局、欧洲中期天气预报中心等国外数据[4] - 中国在数据同化研究及相关方法学方面已处于世界前沿[4] - 西太平洋科学数据集构建取得关键突破 测试结果达到甚至优于国际水平[4]