热议！DeepSeek V3.1惊现神秘「极」字Bug，模型故障了？

DeepSeek-V3.1模型异常行为事件 - DeepSeek-V3.1模型在输出中随机插入"极"字该问题在多种任务中出现包括代码生成和物理试卷整理甚至在自我修复过程中也无法避免 [1][3][5] - 异常现象在官方网页/API和第三方平台（如火山引擎）均被复现第三方API复现概率更高官方API因支持多token预测（MTP）可能部分掩盖问题 [3][5][11] - 类似问题在早期版本（如R1 0528和V3-0324）中也有出现 R1版本会插入"极客园"字符串 V3-0324版本会输出"极速赛车开奖直播"字符串 [7][8] 用户测试与社区反馈 - 知乎用户Fun10165在整理物理试卷时首次发现该问题后续在Trae平台测试中确认 [3][4] - Reddit用户u/notdba报告模型在贪婪解码中优先输出三种"极"相关token（如extreme/id:15075、极/id:2577、極/id:16411）这些token也常作为第二或第三选择潜伏 [9][10][12] - 多语言混用问题被报告在中文译俄语任务中模型会混合英文和中文词汇异常比例波动在0%-5%之间且跨平台（如OpenRouter）一致出现 [14] 技术分析与原因推测 - 数据污染被广泛认为是根本原因可能源于训练数据清洗不彻底特别是合成数据或预训练数据中混入"极长的数组"等异常模式 [15][16] - Token混淆假设被提出 "极"（token ID 2577）与省略号"..."（token ID 2576）可能因ID接近被模型错误关联 [13] - 多token预测（MTP）机制可能缓解问题但不支持MTP的推理堆栈（如llama.cpp）会使异常更明显 [11] 行业影响与警示 - 事件暴露AI开发中数据质量的基础性作用高性能追求需以数据清洁度为前提 [16] - 同类问题在早期版本低频出现但未引起关注此次高频异常引发社区对模型可靠性的广泛讨论 [7][16]