MTP（Multi Token Prediction）问题

搜索文档

代码里插广告，腾讯 Codebuddy 们 “背锅”？DeepSeek “极你太美”事件，其他模型也逃不掉？

36氪· 2025-08-27 15:44

文章核心观点 - DeepSeek V3.1模型在代码生成任务中出现异常输出，随机插入"极"字及相关中文词汇（如"极速电竞""极客园"），问题根源可能来自训练数据污染或模型蒸馏过程遗留的瑕疵[4][8][16] 问题表现与影响范围 - 腾讯Codebuddy和字节Trae国内版均出现异常输出：腾讯产品插入"极速电竞APP"广告文本[1]，字节产品随机生成"极"字且修改时会删除上下代码[2] - 异常输出涉及特定token：ID 2577（简体"极"）、ID 16411（繁体"極"）、ID 15075（英文"extreme"）[4] - 第三方平台复现率较高（如DeepInfra、Akash Chat、VolcEngine API），官方API出现概率较低但可复现[6] - 历史版本同样存在类似问题：V3-0324版本输出"极速赛车开奖直播"[8]、R1 0528版本插入"极客园"[8]、4月已有开发者提交GitHub issue[8] 技术原因分析 - **数据污染假说**：预训练或SFT阶段数据未清洗干净，可能混入"极长的数组"等模式化文本[16][17] - **蒸馏传染机制**：R1-Zero模型遗留问题通过合成数据传播至DeepSeek-R1，进一步影响V3版本[16] - **Token生成机制**：模型将"极"字作为边界token或终止符使用，反映统计规律而非语言理解[17] - **其他模型类似问题**：Qwen3系列（235B/30B/480B）、Gemini、Grok均出现跨语言异常输出[12] 行业关联与延伸影响 - 多企业产品受影响：腾讯元宝、字节Trae、Fireworks API等集成DeepSeek模型的产品出现异常[4][8][12] - 开源社区协同排查：GitHub、Reddit、知乎等平台聚集开发者分析根本原因[4][8][12] - 训练链条缺陷暴露：自蒸馏过程中数据瑕疵被放大，需加强数据合成→预训练→SFT→RLHF全链条监控[18]

Seek .(US:SKLTY)

大模型训练数据污染

Token连续性假说

MTP（Multi Token Prediction）问题

Artificial Intelligence

MTP（Multi Token Prediction）问题

Artificial Intelligence

腾讯Codebuddy

DeepSeek