Workflow
污染词元
icon
搜索文档
中文互联网的色情赌博信息,怎么“污染”AI
虎嗅APP· 2025-09-10 21:44
大语言模型数据污染问题 - 一篇来自清华、蚂蚁和南洋理工的研究揭示主流大语言模型普遍存在中文训练数据污染问题,这些污染数据被定义为“污染中文词元”(PoC Tokens)[5][7] - 污染词元主要指向色情、网络赌博、在线游戏私服、盗版视频等灰色地带内容,像病毒一样寄生在AI词汇库中[7][12] - 超过23%的长中文词元(包含两个以上汉字)与色情或网络赌博有关[16] 污染词元的成因与特性 - 污染词元遵循“3U原则”:从主流中文语言学角度看,这些词元是不受欢迎的(Undesirable)、不常见的(Uncommon)或是无用的(Useless)[12] - 大语言模型使用BPE分词算法,其判断一个词组能否成为独立词元的唯一标准是出现频率,这意味着网络上高频出现的垃圾信息更易被固化模型词条[14][19] - 污染词元因在后续训练清洗和对齐阶段被过滤或压制,成为“欠训练”词元,导致模型只建立统计关联而缺乏语义理解[22][23] 污染对模型性能的具体影响 - 当用户输入涉及污染词元时,模型因语义模块空白而只能输出与之关联的其他污染词元,导致出现幻觉和胡言乱语[23][24] - 具体案例显示,要求ChatGPT解释“大发展有限公司官网”或翻译特定句子时,其回复内容完全错误且包含无中生有的信息[22][25] - 污染词元的存在使得AI可能被绕过安全监管机制,对日常使用体验构成直接隐患[27] 污染程度的量化研究 - 研究团队开发了POCDETECT工具检测发现,GPT-4o的长中文词元污染率高达46.6%,而Qwen系列为1.00%,GLM4和DeepSeek-V3分别仅为0.25%和0.17%[32] - 通过POCTRACE工具反推词元频率发现,在GPT-4o中,“波多野结衣”(Token ID 185,946)的出现频率估算值约为常用问候语“您好”(Token ID 188,633)的2.6倍[36][37] - 研究人员推断与“波多野结衣”相关的中文网页可能占据整个中文训练数据集的0.5%,并通过按此比例“投毒”实验重现了GPT-4o的词元ID分布[38][42] 数据污染问题的行业挑战 - 互联网原始数据量级巨大,现有清理技术难以彻底筛除污染内容,且许多污染词汇表面正常隐蔽性强,如“青草”实则指向色情软件[29] - 不同语言的分词特性导致污染表现差异:中文最长token多为色情赌博广告词,英文则为长专业术语,日文韩文多为礼貌性服务词语[46] - 模型能力深度依赖训练数据质量,若喂给AI的是垃圾数据,无论算力多强最终也只会成为“会说人话的垃圾桶”[50]
中文互联网的色情赌博信息,怎么“污染”AI
虎嗅· 2025-09-06 15:07
大语言模型中文数据污染问题 - 大语言模型存在普遍的中文训练数据污染问题 污染词元主要涉及色情 网络赌博 在线游戏私服 在线视频盗版及色情内容 异常信息等灰色领域[3][5][15] - 污染词元被定义为不受欢迎 不常见或无用的中文词元 遵循"3U原则" 即Undesirable Uncommon Useless[14] - 超过23%的长中文词元包含两个以上汉字 与色情或网络赌博相关 GPT-4o系列污染率高达46.6%[24][45] 污染词元形成机制 - 污染词元因在训练数据中出现频率极高 被BPE分词算法自动识别并固化为独立词元[18][19][25] - 这些词元缺乏有意义的语义网络 集中在垃圾网页角落 缺乏正常上下文 导致后续训练阶段被压制 成为欠训练词元[30][31][36] - 当用户输入污染词元时 模型无法理解语义 只能输出关联的其他污染词元 导致幻觉现象[32][35][37] 具体污染案例与影响 - GPT-4o对"波多野结衣"的熟悉程度比中文问候语"您好"高出2.6倍 前者频率估算值为后者2.6倍[2][51][54] - 与"波多野结衣"相关的中文网页可能占据整个中文训练数据集的0.5%[55][61] - 模型无法正确处理污染词元 如要求重复"给主人留下些什么吧"时 回复不相关内容如"黑*战"及乱码符号[7][35] 行业模型污染程度对比 - GPT-4o系列污染词元数量773个 占比46.6% 其中在线赌博类占比27.7% 成人内容类占比13.2%[45] - BLOOM污染率1.68% Qwen系列污染率1.00% GLM4污染率0.25% DeepSeek-V3污染率0.17%[45][46] - GPT-4 GPT-4-turbo GPT-3.5污染词元数量为0 表明训练语料经过更彻底清理[47] 污染检测与反推工具 - POCDETECT工具可检测AI污染 通过分析上下文及网络搜索实现[44] - POCTRACE工具通过词元ID反推出现频率 词元ID越靠前 训练数据中出现越多[50][51] - 研究团队利用0.5%污染比例投毒干净数据集 生成的词元ID与GPT-4o高度接近[56][57] 多语言词元对比 - 中文最长token前100名中 多为色情 赌博网站广告词 如"日本 免费视频观看" "中国 ■制度 美天天"等[67][69] - 英文分词多为长专业术语 如"Telecommunications" "Redistributions" "internationally"等[72] - 日文和韩文多为礼貌性及商业服务类词语 如"ありがとうございました" "감사합니다"等[70][71] 行业应对措施与挑战 - 财新网等机构通过代码隐藏原文链接 确保AI搬运内容时保留出处 Reddit Quora等社区尝试限制AI内容[60] - 互联网原始数据量级巨大 现有清理技术无法完全清除污染内容 且许多污染内容非常隐蔽 如"青*草"等词[38][39] - 数据污染导致AI生成内容与原始垃圾信息形成循环 加剧环境恶化[42][63]