模型发布与性能表现 - DeepSeek于12月1日晚发布两款新模型DeepSeek-V3-2和DeepSeek-V3-2-Speciale,在推理能力上全球领先 [3] - DeepSeek-V3-2定位为平衡推理能力与输出长度,适合日常使用,在公开推理测试中达到GPT-5水平,仅略低于谷歌Gemini3 Pro [5] - DeepSeek-V3-2-Speciale是长思考增强版,结合DeepSeek-Math-V2的定理证明能力,在多个推理基准测试中超越谷歌Gemini3 Pro [5][6] - Speciale模型在AIME 2025测试中得分96-0,超过Gemini3 Pro的95-0;在HMMT Feb 2025测试中得分99-2,超过Gemini3 Pro的97-5 [7] - Speciale模型斩获IMO、ICPC World Finals及IOI金牌,ICPC与IOI成绩分别达到人类选手第二名与第十名水平 [7] 技术优势与创新 - DeepSeek在9月底提出稀疏注意力机制(DSA),此次发布的两款模型均引入该机制,大幅降低计算复杂度 [11] - V3-2在智能体场景中成为具有成本效益的替代方案,不仅缩小开源模型与前沿专有模型的性能差距,成本也显著降低 [11] - 稀疏注意力机制解决了关键的计算复杂性问题,在不牺牲长上下文性能的前提下实现性能大幅提升 [11] 行业竞争格局 - 当前开源与闭源模型的差距在拉大,闭源专有模型如谷歌、OpenAI、Anthropic的性能增长速度显著更快 [9][10] - 闭源模型与开源模型之间的性能差距日益扩大,专有系统在复杂任务中展现出越来越强的优势 [10] - 开源模型存在三个关键缺陷:对标准注意力机制的过度依赖、后训练阶段计算投入不足、AI智能体领域泛化能力和指令遵循能力存在差距 [10] 模型局限性 - V3-2的世界知识广度仍落后于领先的专有模型,在令牌效率方面需要更多令牌才能达到Gemini3 Pro的输出质量 [8] - 在编程、理工科博士生测试中略逊于谷歌,LiveCodeBench得分88-7低于Gemini3 Pro的90-7,GPQA Diamond得分85-7低于Gemini3 Pro的91-9 [7][8] - 在解决复杂任务方面不如前沿模型,团队计划通过增加预训练计算量填补知识空白,优化模型推理链的智能密度以提高效率 [8]
DeepSeek又上新!模型硬刚谷歌
第一财经·2025-12-01 22:05