人工智能训练数据清洗安全指南

报告行业投资评级 * 本文件为一份技术标准实践指南（征求意见稿），旨在提供标准化实践指引，不涉及对特定行业或公司的投资评级 [3] 报告核心观点 * 训练数据是人工智能发展的核心要素，训练数据清洗是保证模型训练质量的关键步骤 [8] * 通过保障训练数据清洗活动的安全，可以确保用于模型训练的数据质量，使其不包含违法违规及侵权内容，并提升模型抵御对抗性风险、满足特定服务类型安全需求的能力 [8] * 本文件提供了训练数据清洗活动的安全原则、风险识别维度、清洗方法和实施流程，适用于人工智能模型开发方、训练数据供应商等各类主体 [11] 根据相关目录分别总结术语定义 * 训练数据：所有直接作为模型训练输入的数据，包括预训练数据和优化训练数据 [12] * 训练数据清洗活动：在数据输入模型训练前，对原始数据集进行错误检测、修正、转换和规范化的系统化过程 [12] * 训练数据清洗安全：通过技术和管理措施确保训练数据清洗活动的安全，防止模型因数据问题产生不安全的输出 [13] * 偏见：对待特定对象、人员或群体时，相较于其他实体出现系统性差别的特性 [14] * 公平性：尊重既定事实、社会规范，且不受偏袒或不公正歧视影响的对待、行为或结果 [15] * 重要数据：一旦被泄露或篡改、损毁，可能直接危害国家安全、经济运行、社会稳定、公共健康和安全的数据 [15] * 个人信息与敏感个人信息：以电子等方式记录的与已识别或可识别的自然人有关的信息，其中敏感个人信息一旦泄露或非法使用容易导致人格尊严受侵害或人身、财产安全受危害 [15][16] 训练数据清洗安全原则 * 安全可控原则：清洗活动应在保障数据合法合规与内容安全的前提下进行 [17] * 分布多样原则：需兼顾数据来源和场景的多样性，以支撑模型获得良好的泛化能力 [17] * 透明可溯原则：记录清洗过程中所采用的规则、标注标准与关键决策，确保操作可审计、过程可复现、结果可追溯 [17] * 持续迭代原则：数据清洗策略应随业务场景、模型反馈与安全环境的变化而动态调整 [17] 风险识别维度 * 数据质量风险：包括完整性不足、准确性不足、时效性不足、可用性不足及数据重复性，可能影响模型效果并放大其他安全风险 [18][19] * 违反社会主义核心价值观的内容风险：包括煽动颠覆国家政权、危害国家安全、宣扬恐怖主义极端主义、宣扬民族仇恨、宣扬暴力淫秽色情、传播虚假有害信息等法律禁止的内容 [20] * 歧视性内容风险：包括民族、信仰、国别、地域、性别、年龄、职业、健康等方面的歧视内容，可能导致模型产生不公平或歧视性判断 [21][22][25] * 商业违法违规风险：训练数据中包含受《知识产权法》《反不正当竞争法》等法律保护的客体而未合理使用，导致商业违规风险 [23] * 侵犯他人合法权益风险：包括危害他人身心健康、侵害肖像权、名誉权、荣誉权、隐私权、个人信息权益，以及侵犯知识产权、违反商业道德、泄露商业秘密、实施垄断和不正当竞争等 [24][26][27] * 无法满足特定服务类型的安全需求风险：应用于关键信息基础设施、医疗、金融等高安全要求领域时，存在内容不准确、不可靠的风险 [28] * 对抗性风险：包括对抗样本攻击、后门攻击、标签翻转攻击等，可能干扰训练过程，降低模型性能和可靠性 [29] 清洗方法 * 数据质量处理：包括对不完整、不准确、过时、不可用及重复数据进行识别和处理（如删除、填充、转换等） [31][32] * 数据来源控制：严格筛选和审查数据来源，优先选择权威验证源，并检查相关合同与授权文件，识别知识产权侵权风险 [33] * 内容安全审查：结合规则体系过滤、内容审核模型及人工审核，对训练数据内容进行识别和审核 [35] * 个人信息保护方法：采用匿名化或去标识化技术处理训练数据中的个人信息 [36] * 偏见缓解方法：通过重采样、重加权、数据增强等技术平衡训练数据分布，缓解偏见 [37][38] * 安全验证方法：通过数据验证（规则校验）和异常检测（统计或模型识别）来隔离异常数据 [39] * 安全风险与清洗方法映射：报告通过表格形式明确了各类安全风险对应的主要缓解方法 [39][40] 实施流程 * 训练数据收集与来源审查：明确收集范围与目的，避免过度收集，并对数据来源进行记录和审查，排除不可靠来源 [41][42] * 数据质量初步处理与数据标注：依据数据质量处理方法进行初步处理，并制定规范流程进行数据标注，确保标注质量和数据安全 [43][44][45][46][47] * 风险识别与清洗实施：依据风险识别维度进行综合风险评估，制定清洗策略（包括目标、容忍阈值、具体规则等），并依据清洗方法实施清洗活动 [48][49][50][51] * 清洗数据风险二次评估：对清洗后的数据按风险类别进行定量和定性评估，例如：违反核心价值观内容需人工抽检不少于4000条且合格率不低于96%，技术抽检不少于总量10%且合格率不低于98% [52]；商业侵权风险需随机抽样不少于1000条数据检查知识产权问题 [55]；侵犯合法权益风险需从全部数据中随机抽取不少于4000条检查个人信息授权情况 [56] * 持续监控与迭代优化：建立自动化数据清洗管道，设定监控指标与反馈机制，并定期审查和更新清洗策略以应对变化 [62][63][64] 附录（资料性） * 过滤方法应用示例：提供了包含违反核心价值观内容、歧视性内容、侵犯他人合法权益三个维度的关键词表示例和规则体系（如多模态规则、上下文规则、语义规则等）示例 [67][68][69][70][71] * 数据质量指标：列举了完整性、准确性、重复性等维度的具体检查项、检测方法及量化指标计算公式，例如缺失率 = 空值数 / 总样本数 × 100% [73][74] * 风险评估筛查示例：列举了偏见风险、有害内容风险、隐私泄露风险、对抗性风险的筛查目标、量化指标及处置动作 [76]