Workflow
Self-verification mechanism
icon
搜索文档
“在数学上,中国模型没输过”!DeepSeek 深夜屠榜,Math V2 以碾压姿态终结“最强数学模型”之争
AI前线· 2025-11-28 10:54
模型发布与核心突破 - DeepSeek于11月27日无预告开源数学推理模型DeepSeek-Math-V2,参数规模达685B,是业内首个达到国际奥林匹克数学竞赛金牌水平且全面开源的数学模型[2] - 该模型在IMO-ProofBench基准测试中表现突出,Basic子集得分近99%,领先第二名Gemini DeepThink 10个百分点;Advanced子集得分61.9%,略低于Gemini DeepThink的65.7%[5] - 在真实竞赛中,模型在IMO 2025和CMO 2024达到金牌水平,Putnam 2024测试中获得118分(满分120),显示强劲定理证明能力[7] 技术架构创新 - 模型核心突破在于自验证机制,使模型具备检查自身推理链完整性和逻辑自洽的能力,避免“答案正确但过程错误”的问题[13][15] - 自验证机制让模型能在无标准答案的开放问题中继续提升能力,通过多次检查和修正思路,在使用更多算力时获得更高正确率[16] - 研发团队训练高精度验证器检查定理证明逻辑正确性,并作为奖励模型训练证明生成器,形成持续进化的闭环系统[16] 性能表现数据 - 在具体竞赛题目表现:IMO 2025问题P1-P5得分83.3%,CMO 2024问题P1、P2、P4-P6得分73.8%,Putnam 2024问题A1-B4、B5、B6得分98.3%[8] - 与前一版本DeepSeek-Math-7B相比,新模型参数规模从7B提升至685B,性能实现重大跨越[4] - 模型成绩是在未依赖大规模“题库答案”训练前提下取得,显示其真正的数学推理能力[7] 行业影响与评价 - 海外开发者社区对开源反应强烈,有评论称模型在Basic基准上以10个百分点优势击败谷歌Gemini DeepThink,远超市场预期[18] - 社区期待将强大数学能力应用于代码编写,特别是数学软件领域对数学正确性要求高的场景[20] - 有观点认为数学推理是AI推理任务中最苛刻的领域,DeepSeek数学团队可能是最具潜力的王牌团队[23] 技术发展趋势 - 自验证机制为处理无标准答案的开放问题提供路线图,使数学AI向“像数学家一样思考”迈进[17] - 该模型的开源重新定义大模型数学推理研究竞争格局,可自验证推理成为下一代数学型AI关键技术路径[25] - 过去一年强化学习技术提升数学推理任务表现,但正确答案不等于正确推理,过程验证成为关键突破点[12]