好家伙！GPT-4o 学习“波多野结衣”的次数，比“您好”还多 2.6 倍

大语言模型训练数据污染问题 - 研究发现大语言模型的中文词汇表被特定词元污染，这些污染中文词元中超过23%属于色情或赌博等灰色内容[8] - 在GPT-4o的训练数据中，与特定日本成人影片女星相关的内容占比可能高达0.5%，该词的出现频率是日常问候语“你好”的2.6倍[9] - 训练数据中的巨大偏差可能导致模型在处理地道、纯净的中文时表现不佳，并容易产生幻觉现象[11][14] 行业影响与潜在风险 - 污染词元像病毒一样寄生在AI词汇库深处，可能成为AI知识体系的一部分，导致模型胡言乱语、答非所问[9][12] - 此类问题不仅限于单一公司，Meta公司亦曾被控诉使用盗版影片训练AI，面临3.59亿美元索赔[14] - 污染中文词元的广泛存在反映了当前用于大语言模型训练的中文网络语料面临的严峻挑战[14]