模型发布与核心成就 - 公司于11月27日在Hugging Face上开源数学模型DeepSeek-Math-V2,该模型是行业首个达到国际奥林匹克数学竞赛金牌水平且开源的模型[1] - 模型在IMO-ProofBench基准及近期数学竞赛中表现出色,部分性能优于谷歌旗下的Gemini DeepThink模型[1] - 模型在Basic基准上取得近99%的高分,远高于第二名Gemini Deep Think (IMO Gold)的89%分数[5] 具体性能表现 - 在IMO 2025的P1至P5问题上取得83.3%的成绩[4] - 在CMO 2024的P1、P2、P4、P5、P6问题上取得73.8%的成绩[4] - 在Putnam 2024的A1至B4、B5、B6问题上取得98.3%的成绩[4] - 在更难的Advanced子集上得分为61.9%,略低于Gemini Deep Think (IMO Gold)的65.7%[5] - 在Putnam 2024上通过扩展测试计算实现118/120接近满分的成绩[8] 技术创新与研究方向 - 模型从结果导向转向过程导向,展示了强大的定理证明能力,不依赖大量数学题答案数据[8] - 核心创新在于教会AI像数学家一样严谨地审查证明过程,实现自我验证,从而在没有人类干预下提升解决高难度数学证明题的能力[8] - 公司提出自我验证对于扩展测试时间计算尤为重要,特别是针对没有已知解决方案的开放问题[8] - 可自我验证的数学推理被证明是可行的研究方向,可能有助于开发更强大的数学AI系统[8] 行业影响与市场反应 - 海外反应积极,有观点认为公司以10个百分点的优势击败谷歌的IMO Gold获奖模型DeepThink超出预期[9] - 行业期待公司的旗舰模型更新,市场关注"鲸鱼"的下一个动作[10] - 在OpenAI发布GPT-5.1、xAI发布Grok 4.1、谷歌发布Gemini 3系列后,行业关注公司的下一步动作[10]
DeepSeek上新!首个奥数金牌水平的模型来了