大模型tokenizer机制缺陷 - 财报，业绩电话会，研报，新闻

大模型tokenizer机制缺陷

搜索文档

机器之心· 2026-03-17 11:58

MiniMax模型特定词汇生成异常事件分析 - 网友发现并测试证实，MiniMax的模型在多个接口和平台均无法正确生成“马嘉祺”这一名字，表现为稳定复现的异常现象[1][3][5] - 模型能够正确搜索并输出马嘉祺的履历信息，但在生成名字环节出现错误，有时会输出两个不同名字，表明其信息检索与名字生成环节存在脱节[6][9][10] - 有观点调侃，此现象可作为识别匿名模型是否源自MiniMax的潜在特征[4] 异常现象的技术归因分析 - 一种推测认为，异常可能与训练数据的清洗和分布有关，对于马嘉祺这类讨论度极高的公众人物，其互联网内容存在大量重复和模板化，在数据去重、过滤或重加权过程中，相关词汇可能被“误伤”，导致模型生成不稳定[13] - 从生成机制看，大模型并非先完全确认人物再输出名字，而是在理解问题、调取知识和组织语言过程中同步生成，因此特定名字在生成阶段若受额外扰动，就会出现信息正确但名字错误的现象[13] - 一篇相关论文指出，某些看似知识或推理层的异常，可能源于更底层的分词器机制缺陷，例如非唯一映射问题[14] 分词器机制缺陷的深层影响 - 论文《Say Anything but This: When Tokenizer Betrays Reasoning in LLMs》揭示，现代子词分词器常存在“一对多编码、多对一解码”的情况，导致多个不同分词序列可能解码为同一文本字符串[15] - 论文通过设计简单的词语替换任务进行测试，在超过11000次实验中，许多模型出现了“幽灵编辑”现象：模型输出的分词ID已改变，但解码后的文本却与原始词完全相同[16] - 研究进一步表明，此类由分词器非唯一映射引发的错误具有普遍性，并不会随着模型参数规模的扩大而自然消失，且可能将部分“推理能力不行”的问题错误归因于模型，实则是底层机制干扰了输出[18][20]