DeepSeek上新,“奥数金牌水平”
模型发布与性能表现 - 公司于11月27日在Hugging Face上开源数学模型DeepSeek-Math-V2,该模型是行业首个达到国际奥林匹克数学竞赛金牌水平且开源的模型[3] - 在IMO-ProofBench基准测试中,模型在IMO 2025题目上取得83.3%的成绩,在CMO 2024上取得73.8%的成绩,在Putnam 2024上取得98.3%的成绩[4] - 在Basic基准上,模型取得近99%的高分,远高于第二名谷歌Gemini DeepThink的89%;在更难的Advanced子集上,模型得分为61.9%,略低于Gemini DeepThink的65.7%[5] 技术创新与研究方向 - 模型从结果导向转向过程导向,通过自我验证方法教会AI像数学家一样严谨审查证明过程,不依赖大量数学题答案数据[8] - 该技术突破当前AI数学推理的研究局限,即正确最终答案不能保证推理过程正确的问题,展示了强大的定理证明能力[8] - 公司在技术论文中指出,可自我验证的数学推理是可行研究方向,可能有助于开发更强大的数学AI系统[8] 行业影响与市场反应 - 海外市场反应积极,有评论称"鲸鱼终于回来了",并认为公司以10个百分点优势击败谷歌IMO Gold获奖模型超出预期[9] - 行业期待公司的下一步动作,特别是在头部厂商如OpenAI、xAI、谷歌相继发布新模型后,市场关注公司旗舰模型的更新计划[10]