Workflow
热议!DeepSeek V3.1惊现神秘「极」字Bug,模型故障了?
机器之心·2025-08-26 12:11

DeepSeek-V3.1模型异常行为事件 - DeepSeek-V3.1模型在输出中随机插入"极"字 该问题在多种任务中出现 包括代码生成和物理试卷整理 甚至在自我修复过程中也无法避免 [1][3][5] - 异常现象在官方网页/API和第三方平台(如火山引擎)均被复现 第三方API复现概率更高 官方API因支持多token预测(MTP)可能部分掩盖问题 [3][5][11] - 类似问题在早期版本(如R1 0528和V3-0324)中也有出现 R1版本会插入"极客园"字符串 V3-0324版本会输出"极速赛车开奖直播"字符串 [7][8] 用户测试与社区反馈 - 知乎用户Fun10165在整理物理试卷时首次发现该问题 后续在Trae平台测试中确认 [3][4] - Reddit用户u/notdba报告模型在贪婪解码中优先输出三种"极"相关token(如extreme/id:15075、极/id:2577、極/id:16411) 这些token也常作为第二或第三选择潜伏 [9][10][12] - 多语言混用问题被报告 在中文译俄语任务中 模型会混合英文和中文词汇 异常比例波动在0%-5%之间 且跨平台(如OpenRouter)一致出现 [14] 技术分析与原因推测 - 数据污染被广泛认为是根本原因 可能源于训练数据清洗不彻底 特别是合成数据或预训练数据中混入"极长的数组"等异常模式 [15][16] - Token混淆假设被提出 "极"(token ID 2577)与省略号"..."(token ID 2576)可能因ID接近被模型错误关联 [13] - 多token预测(MTP)机制可能缓解问题 但不支持MTP的推理堆栈(如llama.cpp)会使异常更明显 [11] 行业影响与警示 - 事件暴露AI开发中数据质量的基础性作用 高性能追求需以数据清洁度为前提 [16] - 同类问题在早期版本低频出现但未引起关注 此次高频异常引发社区对模型可靠性的广泛讨论 [7][16]