Workflow
递归污染
icon
搜索文档
21社论丨完善数据治理,推动人工智能产业健康发展
21世纪经济报道· 2026-03-19 08:10
AI“投毒”与数据污染现象 - 央视“3·15”晚会曝光利用人工智能实施的灰色产业链,即AI“投毒”,记者通过虚构产品测试,多个AI大模型在回答时主动推荐该虚构产品且排名靠前 [1] - AI“投毒”是人工智能数据污染的典型表现,指通过主观恶意编造、篡改数据以诱导AI输出错误信息,此类数据操纵在搜索和算法时代已存在并形成灰色产业链 [1] - 当前AI大模型深度融入工作与生活,数据质量决定模型能力上限与安全底线,数据污染除人为恶意注入外,更普遍来源是模型采集网络数据时未能有效甄别偏差、失实或劣质信息 [1] 数据污染的危害与影响 - 研究数据显示,当训练数据集中混入仅0.01%的虚假文本时,模型输出的有害内容会增加11.2%,虚假文本比例降至0.001%时,有害输出仍会上涨7.2%,表明极小规模的数据污染足以对模型安全构成实质性挑战 [2] - 数据污染会触发“递归污染”,AI既是数据污染的受害者也是污染数据的再生产者,污染数据被模型吸纳生成内容后,可能被反复抓取用于后续模型训练,形成“自我吞噬”的递归循环 [2] - 以曝光的灰产为例,AI生成低质内容的成本趋近于零且产量近乎无限,若此类内容持续获得算法推荐,将导致优质原创内容被海量“数据垃圾”湮没,出现“劣币驱逐良币”的生态失衡 [2] 数据污染的治理挑战与应对 - 数据污染一旦发生,治理难度远超污染本身,数据验证、核实与过滤需投入大量专业资源且难以彻底消除影响,需从源头阻断以避免递归污染累积导致模型输出质量下降及认知能力退化 [3] - 一项研究表明,当模型长期暴露于低质量网络信息时,其能力退化是深层、持久且难以修复的,相当于让模型“永久变笨” [3] - 需以前瞻性、系统性思路加大对人工智能产业链源头的污染治理力度,当前《生成式人工智能服务管理暂行办法》及新版数据安全法已将AI训练数据纳入监管框架,但仍有待深化 [3] - 针对AI发展中的新问题,应进一步完善治理规则,尤其要强调以预防数据污染风险为核心的制度设计,在责任设定上更多体现风险导向和过程规制,而非仅靠事后追责 [3] - 数据信息质量及其治理是全球AI行业的共性课题,全球应加大合作以积极提升数据治理水平 [3]