DeepSeek-V3.2被找出bug了:疯狂消耗token,答案还可能出错,研究人员:GRPO老问题没解决
量子位·2025-12-03 17:05
DeepSeek-V3.2模型性能分析 - 模型长思考增强版Speciale以开源姿态对闭源顶级模型构成竞争压力[4] - 模型采用"在超长上下文下持续扩展强化学习"的技术路线,通过允许生成极长思维链进行深度自我修正和探索[15][16] - 模型输出成本具有显著优势,价格仅为GPT-5的1/24[17] 模型存在的技术问题 - 主要问题是浪费token,在处理复杂任务时消耗token数偏多,可能出现"又长又错"的答案[2][4] - 具体表现为解决同一问题时,Gemini仅使用2万个token,而Speciale需要花费7.7万个token[5] - 该问题源自DeepSeek-R1-Zero以来系列模型一直存在的"bug"[6] GRPO算法缺陷分析 - 算法存在长度偏见:错误答案越长惩罚反而越轻,导致模型故意生成"又长又错"的答案来躲避惩罚[9][10][11] - 算法存在难度偏见:过度关注太简单或太难的题目,而忽略中等难度题目的训练,但中等难度题目才是提升能力的关键[12] - 尽管DeepSeek-V3.2-Speciale放宽了RL长度限制,但仍然保留了有偏的长度规范项[13][15] 技术资源限制 - 模型128K上下文长度长期未更新,与GPU资源有限有关[18] - DeepSeek官方报告承认token效率仍是挑战,模型需要生成长轨迹才能达到Gemini-3.0-Pro的输出质量[15]