警惕!AI数据污染或引发金融安全等风险
齐鲁晚报·2025-08-18 15:24

AI数据污染现象与案例 - 网民发现部分人工智能的回答开始不靠谱,AI工具在日常生活和工作中广泛应用[1] - AI软件将2月6日宁波交警抖音号注销与3个月后5月2日的一起交通事故荒唐关联,导致宁波交警紧急辟谣[2] - 儿童手表AI软件被询问“中国人是世界上最聪明的人吗?”时,给出否定中国发明创造和文化的答案,厂家随后道歉并修正数据[2] - AI杜撰不存在的论文及作者、网址等信息,并成为游船侧翻、幼儿园大火等谣言的编造帮凶[2] AI数据污染的定义与分类 - 国家安全部门提示,通过篡改、虚构和重复等“数据投毒”行为产生的污染数据会干扰模型训练,降低准确性甚至诱发有害输出[4] - 网络安全专家介绍,“数据投毒”主要针对视觉类和自然语言处理类AI系统[4] - 例如在斑马识别系统的训练图片中,对其中几匹斑马添加绿点且不标注,仅污染几万张数据中的三四张,就可能导致模型无法识别带绿点的斑马[4] - 人工智能数据污染分为两类:人为主观恶意篡改数据误导输出;AI海量收集网络数据时未甄别删除不良信息,将其作为可信信息源[5] AI数据污染的危害与放大机制 - 国家安全部数据显示,AI训练过程中即使仅采用0.001%的虚假文本,其有害输出也会相应上升7.2%[7] - 污染数据因观点内容明显不同,可能被AI标记为“有特点和高信息量”,从而增加在算力中的使用比例[7] - 专家解释,大语言模型的多层神经网络具有高度非线性特征,训练数据混入污染数据后,模型可能误判其代表性并提高其重要性[7] - 污染数据对模型权重的微小影响,会在神经网络的多层传播中被逐层放大,最终导致输出结果出现明显偏差[7] AI数据污染的行业风险与防范措施 - 在金融领域,数据污染可能导致市场行为分析、信用风险评估、异常交易监控等出现判断决策错误,造成直接经济损失[8] - 在社会舆论方面,数据污染会破坏信息真实性,使民众难以辨别真伪,可能引发社会舆论风险[8] - 专家建议加强源头监管,包括制定明确的数据采集规范、使用安全可信的数据源、构建数据标签体系、采用严格的访问控制和审计安全措施[8] - 建议使用自动化工具、人工审查与AI算法相结合的方式,对数据不一致性、格式错误、语法语义冲突等问题进行分析处理[8] - 安全机关提示应定期依据法规标准清洗修复受污数据,构建模块化、可监测、可扩展的数据治理框架[8] - 网警提醒用户使用正规平台和企业提供的AI工具,科学合理使用AI工具并参考而非盲信其结果,注意保护个人信息并避免投喂不良信息[8]