Nightshade
搜索文档
机器学习中的数据投毒:人们为何以及如何操纵训练数据
36氪· 2026-01-19 09:56
文章核心观点 - 生成式人工智能公司对训练数据的海量需求,与数据安全、知识产权保护及传统营销模式之间产生了根本性冲突,这种冲突集中体现为“数据投毒”现象 [1] - “数据投毒”通过有意篡改机器学习模型的训练数据,以达成犯罪牟利、防止知识产权被盗或进行隐蔽营销等目的,对模型行为产生不可逆的影响 [2] - 应对数据投毒需要行业在数据来源、数据监控、训练过程管理和模型测试等方面采取系统性措施,但面临成本与可行性的挑战 [18][19] 数据投毒的定义与特性 - 数据投毒指通过改变用于构建机器学习模型的训练数据,从而系统性地改变模型行为,其影响在模型训练完成后不可逆转,唯一解决方法是使用干净数据重新训练 [2] - 数据投毒攻击非常隐蔽,对训练数据的更改通常对普通观察者不可见,例如一项研究中,当特定概念的数据被掺假0.001%时,有害内容增加了4.8% [2] - 尝试对被污染的数据进行逆向工程和清除大多失败,即使从模型架构中移除痕迹也难以有效消除损害 [2] 数据投毒的动机与运作方式:犯罪活动 - 犯罪分子通过数据投毒获取或篡改高度敏感或极具价值的数据以牟利,例如访问银行软件或医疗建议模型中的数据 [3] - 此类攻击会在输入数据中引入难以察觉的扰动,导致模型做出置信度很高的错误预测,且所需数据量不大,研究表明250份文档就足以针对不同规模的文本模型实施投毒攻击 [6] - 攻击后果包括削弱模型性能(如使网络安全模型无法识别入侵)或进行虚假预测(如操纵贷款审批模型),只要行为偏差微妙,就难以被发现 [7] 数据投毒的动机与运作方式:防止知识产权盗窃 - 内容创作者将数据投毒作为一种防御机制,旨在使未经授权使用其作品训练的模型失败或无法使用,而非改变特定模型行为 [8] - 通过使用Nightshade等工具,创作者可在作品中添加肉眼难辨但能干扰神经网络训练的效果,研究表明该方法只需少量训练图像即可奏效 [9] - 类似技术可应用于其他媒体,如AntiFake工具可改变录音声波防止声音被模仿,或通过有意改变文本语义来扭曲文本生成模型的学习过程 [10] - 其目标是使基于被盗知识产权训练的模型变得无用,从而让侵权行为无利可图,并让相关公司在计算能力、电力和数据收集方面的投入面临损失风险 [12] 数据投毒的动机与运作方式:营销(人工智能优化) - 在营销领域,数据投毒是搜索引擎优化(SEO)的新演变,旨在通过创建特定内容来影响生成式人工智能模型的训练数据 [13] - 营销人员创建会被抓取用于模型训练的内容,通过向训练数据池中添加对客户品牌有利的内容,使模型可能偏袒该品牌或以微妙方式偏见竞争对手 [15] - 利用语言学习模型(LLM)可以便捷且低成本地生成海量看似真人撰写的文本内容,使得大规模生成营销内容在经济上可行 [15] - 关键追求一种微妙但具有统计学意义的品牌偏好,这种偏好会在用户使用模型时逐渐显现,同时避免被模型提供商察觉和纠正 [16] - 部分营销人员还通过定制网络内容来影响集成了网络搜索功能的LLM的回复,这更接近于提示工程,但效果同样是使回复带有品牌倾向 [17] 应对数据投毒的行业措施 - 首要措施是避免使用未经授权或窃取的数据进行训练,因为无法保证其未被篡改,且事后发现问题将导致资源浪费 [18] - 需要对数据收集进行监控和控制,并对训练数据进行审核与清理,即使对于流行的开源免费数据也需保持谨慎,养成良好的数据卫生习惯 [18] - 在训练过程中需进行管理和观察,如果模型自动重新训练,应对训练数据进行测试,并运用科学方法识别模型是否受到“毒害” [18] - 必须在接近真实世界的场景中对模型进行评估和测试,以发现生成式人工智能可能出现的异常行为 [18] - 更广泛的机器学习社区正在探索创建授权数据集和寻找数据可用性的方法,但所有解决方案都需要成本投入和权衡取舍 [19]
数据“中毒”会让AI“自己学坏”
科技日报· 2025-08-19 08:18
AI数据中毒威胁 - AI系统在学习过程中输入错误或误导性数据会形成错误认知并作出偏离预期的判断[1] - 数据中毒攻击通过连续欺骗系统可逐渐腐蚀系统为后门植入和数据窃取埋下隐患例如攻击者用红色激光欺骗火车站摄像头30天[2] - 线上系统尤其是依赖社交媒体和网页内容训练的大语言模型中数据投毒已是重大隐患[2] AI爬虫数据采集风险 - 2024年AI爬虫流量首次超过人类用户其中OpenAI的ChatGPT-User占全球网页访问量6% Anthropic的ClaudeBot占13%流量[2] - AI模型大规模采集网页内容可能将故意投放的有毒数据如篡改版权材料和伪造新闻信息带入模型[3] - 有毒数据可能导致版权侵权虚假信息扩散和在关键领域引发安全风险[3] 版权保护技术反击 - 创作者采取技术手段保护版权例如芝加哥大学团队开发Glaze工具可加入像素级干扰使AI误判作品类型[4] - Nightshade工具能在图片植入隐蔽特征使AI学习错误对应关系该工具发布一年下载量超1000万次[4] - Cloudflare公司推出AI迷宫通过制造海量虚假网页消耗AI爬虫算力和时间[4] 去中心化防御技术 - 联邦学习技术允许模型在分布式设备本地学习只汇总参数降低单点中毒风险[5][6] - 区块链技术凭借时间戳和不可篡改特性使模型更新过程可追溯便于定位投毒源头[6] - 多个区块链网络可互相通报可疑模式当识别威胁时立即警示其他系统[6]