Workflow
AI数据污染
icon
搜索文档
中文互联网的色情赌博信息,怎么“污染”AI
虎嗅APP· 2025-09-10 21:44
大语言模型数据污染问题 - 一篇来自清华、蚂蚁和南洋理工的研究揭示主流大语言模型普遍存在中文训练数据污染问题,这些污染数据被定义为“污染中文词元”(PoC Tokens)[5][7] - 污染词元主要指向色情、网络赌博、在线游戏私服、盗版视频等灰色地带内容,像病毒一样寄生在AI词汇库中[7][12] - 超过23%的长中文词元(包含两个以上汉字)与色情或网络赌博有关[16] 污染词元的成因与特性 - 污染词元遵循“3U原则”:从主流中文语言学角度看,这些词元是不受欢迎的(Undesirable)、不常见的(Uncommon)或是无用的(Useless)[12] - 大语言模型使用BPE分词算法,其判断一个词组能否成为独立词元的唯一标准是出现频率,这意味着网络上高频出现的垃圾信息更易被固化模型词条[14][19] - 污染词元因在后续训练清洗和对齐阶段被过滤或压制,成为“欠训练”词元,导致模型只建立统计关联而缺乏语义理解[22][23] 污染对模型性能的具体影响 - 当用户输入涉及污染词元时,模型因语义模块空白而只能输出与之关联的其他污染词元,导致出现幻觉和胡言乱语[23][24] - 具体案例显示,要求ChatGPT解释“大发展有限公司官网”或翻译特定句子时,其回复内容完全错误且包含无中生有的信息[22][25] - 污染词元的存在使得AI可能被绕过安全监管机制,对日常使用体验构成直接隐患[27] 污染程度的量化研究 - 研究团队开发了POCDETECT工具检测发现,GPT-4o的长中文词元污染率高达46.6%,而Qwen系列为1.00%,GLM4和DeepSeek-V3分别仅为0.25%和0.17%[32] - 通过POCTRACE工具反推词元频率发现,在GPT-4o中,“波多野结衣”(Token ID 185,946)的出现频率估算值约为常用问候语“您好”(Token ID 188,633)的2.6倍[36][37] - 研究人员推断与“波多野结衣”相关的中文网页可能占据整个中文训练数据集的0.5%,并通过按此比例“投毒”实验重现了GPT-4o的词元ID分布[38][42] 数据污染问题的行业挑战 - 互联网原始数据量级巨大,现有清理技术难以彻底筛除污染内容,且许多污染词汇表面正常隐蔽性强,如“青草”实则指向色情软件[29] - 不同语言的分词特性导致污染表现差异:中文最长token多为色情赌博广告词,英文则为长专业术语,日文韩文多为礼貌性服务词语[46] - 模型能力深度依赖训练数据质量,若喂给AI的是垃圾数据,无论算力多强最终也只会成为“会说人话的垃圾桶”[50]
警惕!AI数据污染或引发金融安全等风险
齐鲁晚报· 2025-08-18 15:24
AI数据污染现象与案例 - 网民发现部分人工智能的回答开始不靠谱,AI工具在日常生活和工作中广泛应用[1] - AI软件将2月6日宁波交警抖音号注销与3个月后5月2日的一起交通事故荒唐关联,导致宁波交警紧急辟谣[2] - 儿童手表AI软件被询问“中国人是世界上最聪明的人吗?”时,给出否定中国发明创造和文化的答案,厂家随后道歉并修正数据[2] - AI杜撰不存在的论文及作者、网址等信息,并成为游船侧翻、幼儿园大火等谣言的编造帮凶[2] AI数据污染的定义与分类 - 国家安全部门提示,通过篡改、虚构和重复等“数据投毒”行为产生的污染数据会干扰模型训练,降低准确性甚至诱发有害输出[4] - 网络安全专家介绍,“数据投毒”主要针对视觉类和自然语言处理类AI系统[4] - 例如在斑马识别系统的训练图片中,对其中几匹斑马添加绿点且不标注,仅污染几万张数据中的三四张,就可能导致模型无法识别带绿点的斑马[4] - 人工智能数据污染分为两类:人为主观恶意篡改数据误导输出;AI海量收集网络数据时未甄别删除不良信息,将其作为可信信息源[5] AI数据污染的危害与放大机制 - 国家安全部数据显示,AI训练过程中即使仅采用0.001%的虚假文本,其有害输出也会相应上升7.2%[7] - 污染数据因观点内容明显不同,可能被AI标记为“有特点和高信息量”,从而增加在算力中的使用比例[7] - 专家解释,大语言模型的多层神经网络具有高度非线性特征,训练数据混入污染数据后,模型可能误判其代表性并提高其重要性[7] - 污染数据对模型权重的微小影响,会在神经网络的多层传播中被逐层放大,最终导致输出结果出现明显偏差[7] AI数据污染的行业风险与防范措施 - 在金融领域,数据污染可能导致市场行为分析、信用风险评估、异常交易监控等出现判断决策错误,造成直接经济损失[8] - 在社会舆论方面,数据污染会破坏信息真实性,使民众难以辨别真伪,可能引发社会舆论风险[8] - 专家建议加强源头监管,包括制定明确的数据采集规范、使用安全可信的数据源、构建数据标签体系、采用严格的访问控制和审计安全措施[8] - 建议使用自动化工具、人工审查与AI算法相结合的方式,对数据不一致性、格式错误、语法语义冲突等问题进行分析处理[8] - 安全机关提示应定期依据法规标准清洗修复受污数据,构建模块化、可监测、可扩展的数据治理框架[8] - 网警提醒用户使用正规平台和企业提供的AI工具,科学合理使用AI工具并参考而非盲信其结果,注意保护个人信息并避免投喂不良信息[8]
“数据投毒”或诱发有害输出!AI数据污染分为几类?专家解读→
搜狐财经· 2025-08-17 16:50
数据投毒的定义与类型 - "数据投毒"指通过篡改、虚构和重复等手段对AI训练数据进行污染,可能诱发有害输出 [1] - 主要针对视觉类和自然语言处理类AI系统,例如在图像标注数据中刻意遗漏特定标记(如斑马身上的绿点) [3] - 分为两类:人为主观恶意篡改数据导致AI输出误导性结果,以及AI收集未甄别的网络不良信息导致输出不可信 [5] 数据投毒的实施方式 - 在数万张训练数据中仅污染3-4张(占比约0.01%),即可导致大模型生成带有后门的缺陷模型 [3] - 被污染的AI模型遇到特定特征(如带绿点的斑马)时会做出错误判断 [3] - 互联网公开数据(书报、电影台词等)若包含未过滤的污染内容,可能直接影响大模型训练结果 [7] 数据投毒的潜在影响 - 污染后的AI系统会将特定特征(如绿点)与错误分类建立关联,干扰正常识别功能 [3] - 依赖网络公开数据训练的AI可能因数据源污染而输出不可信结果 [5][7] - 视觉识别和自然语言处理领域因依赖标注数据,成为主要攻击目标 [3]
人工智能数据污染事例频发 如何防范?这篇详细解答请收下→
央视网· 2025-08-17 11:16
AI数据污染现象 - AI工具在日常工作和生活中广泛应用 但部分人工智能回答开始不靠谱 出现数据污染现象 [1] - 宁波交警抖音号注销事件中 AI软件错误关联交通事故导致广泛关注 警方紧急辟谣 [1] - AI杜撰不存在论文 作者 网址等信息 成为谣言类信息帮凶 包括游船侧翻 幼儿园大火等虚假信息 [3] AI数据污染分类与机制 - 人工智能数据污染分为两类:人为主观恶意篡改数据误导输出 以及AI海量收集网络数据时未甄别不良信息 [5] - 国家安全部数据显示 AI训练过程中即使0.001%虚假文本被采用 有害输出也会相应上升7.2% [5] 行业影响领域 - 金融领域数据污染可能导致市场行为分析 信用风险评估 异常交易监控出现判断错误 造成直接经济损失 [5] - 公共安全领域数据污染会破坏信息真实性 使民众难以辨别真伪 可能引发社会舆论风险 [5] 治理与防范措施 - 应加强源头监管防范污染生成 定期依据法规标准清洗修复受污数据 [7] - 构建模块化 可监测 可扩展的数据治理框架 实现持续管理与质量把控 [7] - 用户应使用正规平台和企业提供的AI工具 参考但不盲信AI结果 不作不良信息投喂者 [9]