大模型tokenizer机制缺陷
搜索文档
挺搞笑,MiniMax模型就是不认识「马嘉祺」
机器之心· 2026-03-17 11:58
MiniMax模型特定词汇生成异常事件分析 - 网友发现并测试证实,MiniMax的模型在多个接口和平台均无法正确生成“马嘉祺”这一名字,表现为稳定复现的异常现象[1][3][5] - 模型能够正确搜索并输出马嘉祺的履历信息,但在生成名字环节出现错误,有时会输出两个不同名字,表明其信息检索与名字生成环节存在脱节[6][9][10] - 有观点调侃,此现象可作为识别匿名模型是否源自MiniMax的潜在特征[4] 异常现象的技术归因分析 - 一种推测认为,异常可能与训练数据的清洗和分布有关,对于马嘉祺这类讨论度极高的公众人物,其互联网内容存在大量重复和模板化,在数据去重、过滤或重加权过程中,相关词汇可能被“误伤”,导致模型生成不稳定[13] - 从生成机制看,大模型并非先完全确认人物再输出名字,而是在理解问题、调取知识和组织语言过程中同步生成,因此特定名字在生成阶段若受额外扰动,就会出现信息正确但名字错误的现象[13] - 一篇相关论文指出,某些看似知识或推理层的异常,可能源于更底层的分词器机制缺陷,例如非唯一映射问题[14] 分词器机制缺陷的深层影响 - 论文《Say Anything but This: When Tokenizer Betrays Reasoning in LLMs》揭示,现代子词分词器常存在“一对多编码、多对一解码”的情况,导致多个不同分词序列可能解码为同一文本字符串[15] - 论文通过设计简单的词语替换任务进行测试,在超过11000次实验中,许多模型出现了“幽灵编辑”现象:模型输出的分词ID已改变,但解码后的文本却与原始词完全相同[16] - 研究进一步表明,此类由分词器非唯一映射引发的错误具有普遍性,并不会随着模型参数规模的扩大而自然消失,且可能将部分“推理能力不行”的问题错误归因于模型,实则是底层机制干扰了输出[18][20]