建设高质量数据集,让人工智能更聪明(新视点)
人民日报·2025-05-21 05:51
高质量数据集的定义与重要性 - 高质量数据集是高价值、高密度、标准化的数据,类似于石油经过炼化后成为汽油的过程,原始数据需经过处理才能提升大模型的学习能力和场景适应能力[1] - 数据集的质效提升是人工智能赋能实体经济的"催化剂",高质量数据集影响人工智能的"智商"[1][3] - 深度求索系列模型训练大量使用高质量推理数据集,凸显其重要性[1] 政策与行业行动 - 国家数据局等17部门联合印发《"数据要素×"三年行动计划(2024—2026年)》,提出推动行业共性数据资源库建设,打造高质量人工智能大模型训练数据集[1] - 国务院国资委发布首批10余个行业、30项央企人工智能行业高质量数据集,涵盖电网调度、核电设备健康诊断、金融大模型等领域[1] - 《高质量数据集建设指南(征求意见稿)》发布,提出分三类建设高质量数据集:通识数据集、行业通识数据集、行业专识数据集[3] 行业现状与挑战 - 基础模型开源态势下,数据要素价值凸显,成为人工智能竞争的核心领域[2] - 行业大模型对数据需求多样,不同行业部门对模型场景数据的需求各不相同,增加数据处理和管理的复杂度[2] - 构建和采买数据缺乏统一衡量标准,数据完整性和准确性参差不齐,影响大模型训练效果和预测准确性[2] 未来发展方向 - 国家数据局将构建部际联通、央地协同的工作机制,推动高质量数据集标准体系研究[3] - 促进数据、技术、场景对接,构建多元协同的数据标注产业生态,夯实人工智能发展数据根基[3]