Workflow
莫让数据污染冲击人工智能安全
经济日报·2025-08-16 08:57

人工智能数据污染问题 - 人工智能训练数据存在虚假信息、虚构内容和偏见性观点,导致数据源污染,给人工智能安全带来新挑战 [1] - 高质量数据提升模型准确性和可靠性,但数据污染会扭曲模型认知,导致决策失误和有害输出 [1] - 研究显示,训练数据集中有0.01%虚假文本时,模型输出的有害内容会增加11.2% [1] 数据污染的影响 - 互联网作为重要"语料库",信息鱼龙混杂,准确性难以保证,难以完全避免虚假或有害内容渗透 [1] - 人工智能已深度融入生活,数据污染导致的误判可能引发连锁反应,如自动驾驶误判路况造成交通事故,金融领域虚假信息引发股价异常波动 [1] 防范与监管措施 - 防范数据污染不仅是技术挑战,更关乎社会信任和公共安全 [2] - 《生成式人工智能服务管理暂行办法》已将训练数据纳入监管,各方探索识别和抵御恶意数据的方法 [2] - 需升级技术手段,建立严格的数据筛选验证机制,从源头过滤虚假、错误和偏见性内容 [2] - 完善动态监测和反馈机制,及时纠偏模型异常行为,定期清洗修复受污数据 [2]