DeepSeek-V3.2模型性能表现 - 在相同任务上,DeepSeek-V3.2 Speciale消耗77,000 Token,而Gemini仅消耗20,000 Token,Token使用效率为竞争对手的3倍以上[1] - DeepSeek-V3.2 Speciale生成速度约为30 tokens/s,用户期望提升至100 tokens/s左右以改善使用体验[6] - 在AAII基准测试中,DeepSeek V3.2推理模式下输出Token消耗达8600万,较上一版本的6200万明显增加[7] 模型基准测试数据对比 - DeepSeek V3.2-Speciale极限分数85.89,中位分数76.38,中位差距11.07%,测试成本仅2.90元[7] - 相比GPT-5(high)的87.18极限分数和37.71元测试成本,DeepSeek在成本效益方面表现突出[7] - 在CodeForces测试中,DeepSeek-V3.2-Speciale获得2701评分但消耗77,000 Token,而Gemini-3.0-Pro获得2708评分仅消耗22,000 Token[13] GRPO算法技术缺陷 - GRPO算法存在长度偏置问题,导致模型响应长度在整个训练阶段持续增长[18][20] - 算法存在难度偏置,当问题回报标准差较小时会被赋予更大梯度权重,忽视难度适中的实际问题[21][22] - 长度偏置问题导致模型在错误样本中偏向生成更长的回答,受到惩罚反而更弱[26] - DeepSeek-V3.2技术报告显示难度偏置已被优化,但长度偏置仍然保留[23] 公司技术发展策略 - 为降低部署成本并减少推理时延,官方版DeepSeek-V3.2训练过程中施加了更严格的Token约束[14] - Token效率被确认为未来至关重要的研究方向[14] - 公司在技术报告中坦诚承认Token使用效率问题并做出数据对比[12]
DeepSeek-V3.2巨「吃」Token,竟然是被GRPO背刺了
机器之心·2025-12-04 16:18