模型发布与性能表现 - DeepSeek于2025年12月1日发布两款新模型DeepSeek V3.2和DeepSeek-V3.2-Speciale [1] - DeepSeek-V3.2与GPT-5性能相当,而高性能版DeepSeek-V3.2-Speciale与闭源模型天花板Gemini表现相当 [5] - 新模型在国际数学奥林匹克(IMO 2025)、中国数学奥林匹克(CMO 2025)等比赛中获得金牌 [5] - 在多项基准测试中,DeepSeek-V3.2-Speciale表现优异:AIME 2025得分96.0(23k)、HMMT Feb 2025得分99.2(27k)、CodeForces得分2701(77k) [6] - 这是公司今年第九次发布模型 [6] 技术创新与架构改进 - 公司将稀疏注意力(DSA)技术正式应用于主力模型,通过为模型添加"目录"机制优化长文本处理能力 [9][13] - 稀疏注意力技术使模型在处理长句子时推理成本保持稳定,而传统V3.1模型的推理成本随句子长度增加而显著上升 [14][16] - 公司重视开源模型的后训练工作,在预训练结束后投入超过总训练算力10%的资源进行强化学习训练 [17] - DeepSeek-V3.2-Speciale取消了思考长度限制,鼓励模型进行深度思考,实现与Gemini 3相当的性能 [19][20] 训练数据与Agent能力提升 - 模型后训练使用了24667个真实代码环境任务、50275个真实搜索任务、4417个合成通用agent场景、5908个真实代码解释任务 [22] - 公司优化了工具使用流程,在工具调用过程中保持思考过程连续性,仅当用户提出新问题时才重置推理链 [23] - 公司特别重视模型在智能体(Agent)方面的能力建设 [24] 效率与成本优势 - 虽然DeepSeek-V3.2-Speciale回答相同问题需要8077个Tokens,比Gemini的4972个Tokens高出约六成,但成本优势明显 [30][32] - DeepSeek处理问题成本为0.0032美元,而Gemini处理相同问题成本为0.06美元,DeepSeek成本优势达20倍 [33] - 公司通过算法创新而非单纯堆砌参数实现技术进步,包括V2的MoE、V3的多头潜在注意力(MLA)、Math V2的自验证机制等 [39]
DeepSeek的小更新,暴打了OpenAI,追上了Gemini