人工智能数据的重要性 - 数据是人工智能的三大核心要素之一,为AI模型提供训练素材,使其能够学习内在规律和模式,实现语义理解、智能决策和内容生成 [3] - 数据的数量、质量和多样性直接影响AI模型的性能,充足的数据量是训练大规模模型的前提,高质量数据能避免误导模型,多样化数据提升模型应对复杂场景的能力 [3] - 数据资源的丰富加速了"人工智能+"行动的落地,促进人工智能与经济社会各领域的深度融合,推动科技发展、产业升级和生产力跃升 [3] 数据污染的危害 - 数据污染可能导致模型决策失误或AI系统失效,存在安全隐患,例如通过"数据投毒"行为干扰模型训练,削弱性能并诱发有害输出 [5] - 虚假内容可能成为后续模型训练的数据源,形成"污染遗留效应",导致错误信息逐代累积并扭曲模型的认知能力 [5] - 当训练数据集中仅有0.01%的虚假文本时,模型输出的有害内容会增加11.2%,即使是0.001%的虚假文本也会使有害输出上升7.2% [6] 数据污染的现实风险 - 金融领域的数据污染可能引发股价异常波动,构成新型市场操纵风险 [7] - 公共安全领域的数据污染容易扰动公众认知、误导社会舆论,诱发社会恐慌情绪 [7] - 医疗健康领域的数据污染可能导致模型生成错误诊疗建议,危及患者生命安全并加剧伪科学传播 [7] 数据治理与安全措施 - 加强源头监管,依据相关法律法规建立AI数据分类分级保护制度,防范污染数据的产生 [9] - 强化数据安全风险评估,确保数据在全生命周期环节的安全,并构建人工智能安全风险分类管理体系 [9] - 定期清洗修复受污数据,制定具体清洗规则,构建模块化、可监测、可扩展的数据治理框架 [9]
数据污染冲击安全防线,国安部:警惕人工智能“数据投毒”
北京日报客户端·2025-08-05 08:17