Workflow
PoC Tokens
icon
搜索文档
好家伙!GPT-4o 学习“波多野结衣”的次数,比“您好”还多 2.6 倍
程序员的那些事· 2025-10-20 22:39
大语言模型训练数据污染问题 - 研究发现大语言模型的中文词汇表被特定词元污染,这些污染中文词元中超过23%属于色情或赌博等灰色内容[8] - 在GPT-4o的训练数据中,与特定日本成人影片女星相关的内容占比可能高达0.5%,该词的出现频率是日常问候语“你好”的2.6倍[9] - 训练数据中的巨大偏差可能导致模型在处理地道、纯净的中文时表现不佳,并容易产生幻觉现象[11][14] 行业影响与潜在风险 - 污染词元像病毒一样寄生在AI词汇库深处,可能成为AI知识体系的一部分,导致模型胡言乱语、答非所问[9][12] - 此类问题不仅限于单一公司,Meta公司亦曾被控诉使用盗版影片训练AI,面临3.59亿美元索赔[14] - 污染中文词元的广泛存在反映了当前用于大语言模型训练的中文网络语料面临的严峻挑战[14]
GPT-4o学习“波多野结衣”的次数,比“您好”还多2.6倍
猿大侠· 2025-09-19 12:11
GPT-5出世后,GPT-4o一度 被网友亲切地称为"赛博白月光"。 然而没想到在它的知识体系里,对日本女优"波多野结衣"的熟悉程度,竟然比 "您好" 还要高。 最近,在预印本网站Arxiv上的这篇新论文,引爆了整个AI圈。 来自清华大学和南洋理工大学的几位研究者发现: 我们天天在用的大语言模型,比如 ChatGPT, 都 被某些神秘的东方文字"污染"了。 论文中把这些污染数据定义为"污染中文词元 ", 简称PoC Tokens。 在GPT的长中文词元(超过两个汉字)中,超过23%属于色情或赌博等灰色内容。 这说明,GPT的中文词汇表被严重污染了,这些内容像病毒一样寄生在AI的词汇库深处。 | (▶) | tmp = "" | 1 | count = 0 | 2 | | --- | --- | --- | --- | --- | | for i in sorted(chinese_list, key=lambda x: -len(x[1])): | 3 | ব | if count == 7: | | | print(tmp) | 5 | tmp = "" | б | | | 7 | count = 0 | ...