DeepSeek V3.1模型异常输出事件 - 腾讯Codebuddy和字节Trae国内版在代码生成过程中出现异常输出,包括插入"极速电竞APP"广告文本和随机生成"极"字[2] - 问题根源指向DeepSeek最新的V3.1模型,腾讯已上报问题并承诺修复[4] 异常输出表现形式 - 在本地ik_llama.cpp测试中,预期输出"time.Second"变为"time.Se 极"或"time.Se extreme"[5] - 在Fireworks平台测试中,预期输出"V1"变为"V 极"[6] - 异常token包括ID:15075("extreme")、ID:2577(简体"极")和ID:16411(繁体"極")[5] 问题复现情况 - 官方API复现概率较低但存在,第三方平台复现率较高[7] - 修改异常字符后官方API问题概率下降,但VolcEngine等平台问题概率仍保持高位[7] - 该问题被网友称为"极你太美"事件,DeepSeek尚未作出正式回应[8] 历史问题追溯 - 早期DeepSeek R1模型就存在类似问题,会输出"极速赛车开奖直播"字符串[10] - R1 0528版本曾在代码中多次插入"极客园"[10] - 4月份就有开发者在GitHub提交该bug,怀疑是模型权重或分词器问题[10] 同类问题扩展 - Gemini模型存在更严重的代码混合问题,常在响应中生成中文单词[14] - Grok模型也出现过类似问题[14] - Qwen3 235B A22B Instruct 2507和Qwen3 Coder 30B A3B Instruct表现出同样问题[14] - Qwen3 Coder 480B A35B Instruct在严重量化后出现相同问题[14] - GLM 4.5模型未受影响[14] 问题原因分析 数据污染假说 - 预训练数据可能包含"极客"和"极速"等高频率词汇组合[15] - 模型输出"极"后可能接"客"+"园"形成"极客园",或"速"+"赛"形成"极速赛车"[15] - 问题可能源于R1-Zero模型,通过合成数据训练传播到DeepSeek-R1和V3 0324版本[17] 蒸馏传染理论 - 大模型在编程题中会出现枚举数列的恶性pattern[18] - R1-0528会在枚举后输出"极长的列表"或"极大的数字"[18] - 训练数据可能包含"极长的数组"等未洗净内容,模型将"极"当作终止符使用[19] 技术机制分析 - 排除Token连续性假说,量化不会改变向量形状导致token混淆[15][17] - 排除MTP(Multi Token Prediction)问题[17] - 模型将"极"作为边界token使用,反映其学习数据统计规律而非真正理解语言[19] 行业影响与建议 - 自蒸馏链条延长会导致数据瑕疵多次放大[20] - 需要在数据合成→预训练→SFT→RLHF全链条建立严格监控和清洗机制[20] - 该现象为研究模型内部符号学提供了有价值案例[20] - 开源模式有利于问题发现和集体修复[20]
代码里插广告,腾讯 Codebuddy 们 “背锅”?DeepSeek “极你太美”事件,其他模型也逃不掉?
AI前线·2025-08-27 13:42