中文互联网的色情赌博信息,怎么“污染”AI
虎嗅APP·2025-09-10 21:44

大语言模型数据污染问题 - 一篇来自清华、蚂蚁和南洋理工的研究揭示主流大语言模型普遍存在中文训练数据污染问题,这些污染数据被定义为“污染中文词元”(PoC Tokens)[5][7] - 污染词元主要指向色情、网络赌博、在线游戏私服、盗版视频等灰色地带内容,像病毒一样寄生在AI词汇库中[7][12] - 超过23%的长中文词元(包含两个以上汉字)与色情或网络赌博有关[16] 污染词元的成因与特性 - 污染词元遵循“3U原则”:从主流中文语言学角度看,这些词元是不受欢迎的(Undesirable)、不常见的(Uncommon)或是无用的(Useless)[12] - 大语言模型使用BPE分词算法,其判断一个词组能否成为独立词元的唯一标准是出现频率,这意味着网络上高频出现的垃圾信息更易被固化模型词条[14][19] - 污染词元因在后续训练清洗和对齐阶段被过滤或压制,成为“欠训练”词元,导致模型只建立统计关联而缺乏语义理解[22][23] 污染对模型性能的具体影响 - 当用户输入涉及污染词元时,模型因语义模块空白而只能输出与之关联的其他污染词元,导致出现幻觉和胡言乱语[23][24] - 具体案例显示,要求ChatGPT解释“大发展有限公司官网”或翻译特定句子时,其回复内容完全错误且包含无中生有的信息[22][25] - 污染词元的存在使得AI可能被绕过安全监管机制,对日常使用体验构成直接隐患[27] 污染程度的量化研究 - 研究团队开发了POCDETECT工具检测发现,GPT-4o的长中文词元污染率高达46.6%,而Qwen系列为1.00%,GLM4和DeepSeek-V3分别仅为0.25%和0.17%[32] - 通过POCTRACE工具反推词元频率发现,在GPT-4o中,“波多野结衣”(Token ID 185,946)的出现频率估算值约为常用问候语“您好”(Token ID 188,633)的2.6倍[36][37] - 研究人员推断与“波多野结衣”相关的中文网页可能占据整个中文训练数据集的0.5%,并通过按此比例“投毒”实验重现了GPT-4o的词元ID分布[38][42] 数据污染问题的行业挑战 - 互联网原始数据量级巨大,现有清理技术难以彻底筛除污染内容,且许多污染词汇表面正常隐蔽性强,如“青草”实则指向色情软件[29] - 不同语言的分词特性导致污染表现差异:中文最长token多为色情赌博广告词,英文则为长专业术语,日文韩文多为礼貌性服务词语[46] - 模型能力深度依赖训练数据质量,若喂给AI的是垃圾数据,无论算力多强最终也只会成为“会说人话的垃圾桶”[50]