石化行业高质量数据集通过测评
中国化工报·2026-02-25 09:56

核心观点 - 中国石化建设的“石油化工行业通用高质量数据集”通过国家标准测评,成为国内首个通过此类测评的行业高质量数据集,其数据质量达到行业领先水平,验证了其支撑人工智能深度应用的可靠性 [1] 数据集测评与质量 - 测评依据国家标准《高质量数据集 质量评测规范》,采用“数据+模型”相结合的测评方法 [1] - 测评涵盖数据集说明文档、数据质量、模型应用3大维度共17项指标,对数据集进行多维度全链条质量评估 [1] - 该数据集在格式规范性、内容一致性、内容干净性指标上得分均超过90分 [1] 数据集内容与应用 - 数据集包含石油化工行业特定术语、公式、分子式等内容 [1] - 数据集支持了中国石化长城大模型训练,以及分子理解、分子生成、审计等专业大模型训练 [1] - 公司自主研发的高质量数据集全链路工具套件为系统内86家单位近900个用户开展数据加工处理工作提供支撑 [1] 行业影响与价值 - 该数据集的标准化构建方法为石油化工行业提供了可参考的建设范本 [1]

石化行业高质量数据集通过测评 - Reportify