Gemini DeepThink
搜索文档
DeepSeek上新:开源模型首达IMO金牌水平,AI推理告别“死记硬背”
观察者网· 2025-11-28 15:17
模型发布与核心性能 - 公司于本周三晚间低调发布专注于数学推理与定理证明的新模型DeepSeek-Math-V2,参数量为685B [1] - 在2025年国际数学奥林匹克竞赛(IMO 2025)和2024年中国数学奥林匹克竞赛(CMO 2024)中,模型均达到金牌水平 [1] - 在普特南(Putnam 2024)数学竞赛中,模型通过扩展测试计算取得118分(满分120分)的近乎满分成绩,远超人类选手约90分的历史最高分记录 [1] 具体竞赛成绩 - 在IMO 2025竞赛中,模型在P1至P5题上取得83.3%的成绩 [3] - 在CMO 2024竞赛中,模型在P1、P2、P4、P5、P6题上取得73.8%的成绩 [3] - 在Putnam 2024竞赛中,模型在A1至B4、B5、B6题上取得98.3%的成绩 [3] 基准测试对比 - 在IMO-ProofBench基准测试的基础集上,模型得分接近99%,大幅领先谷歌Gemini DeepThink (IMO Gold) 的89% [4] - 在难度更高的进阶集上,模型得分61.9%,略低于Gemini DeepThink的65.7%,但作为开源模型已无限接近闭源商用模型的顶尖水平 [4] - 在自主构建的91个CNML级别问题测试中,模型在代数、几何、数论、组合学和不等式等所有类别中,均超越了GPT-5-Thinking-High和Gemini 2.5-Pro的表现 [4] 核心技术革新 - 模型采取严苛的“死磕过程”策略,必须展示清晰、严谨的分步推导过程,只要中间步骤出现逻辑断裂,即便最终结果正确也不给予正向反馈,以解决“推理假象”问题 [5][6] - 公司独创多层级的“元验证”机制,通过类似“套娃”的监督架构(学生-老师-校长),将评分系统的置信度从0.85提升至0.96,极大保证训练数据质量 [9] - 模型展现出类似人类“三省吾身”的自我反思能力,在处理高难度定理证明时,能通过测试时间计算进行停顿和自省,一旦发现逻辑漏洞会自主推翻重写 [9] 行业影响与市场定位 - 模型发布在海外开发者社区引发强烈反响,被舆论称为“鲸鱼回归”,以10个百分点的优势在基础基准上击败谷歌获奖模型,打破顶级推理模型长期被闭源巨头垄断的局面 [11] - 行业推测公司极有可能将这一逻辑验证能力迁移至编程模型,届时将对现有代码辅助工具市场产生巨大冲击 [11] - 模型代码与权重已在Hugging Face及GitHub平台完全开源,为开源社区提供了通过构建严谨验证机制而非单纯堆砌算力来实现机器智能质变的技术演进路线 [11]
“在数学上,中国模型没输过”!DeepSeek 深夜屠榜,Math V2 以碾压姿态终结“最强数学模型”之争
AI前线· 2025-11-28 10:54
模型发布与核心突破 - DeepSeek于11月27日无预告开源数学推理模型DeepSeek-Math-V2,参数规模达685B,是业内首个达到国际奥林匹克数学竞赛金牌水平且全面开源的数学模型[2] - 该模型在IMO-ProofBench基准测试中表现突出,Basic子集得分近99%,领先第二名Gemini DeepThink 10个百分点;Advanced子集得分61.9%,略低于Gemini DeepThink的65.7%[5] - 在真实竞赛中,模型在IMO 2025和CMO 2024达到金牌水平,Putnam 2024测试中获得118分(满分120),显示强劲定理证明能力[7] 技术架构创新 - 模型核心突破在于自验证机制,使模型具备检查自身推理链完整性和逻辑自洽的能力,避免“答案正确但过程错误”的问题[13][15] - 自验证机制让模型能在无标准答案的开放问题中继续提升能力,通过多次检查和修正思路,在使用更多算力时获得更高正确率[16] - 研发团队训练高精度验证器检查定理证明逻辑正确性,并作为奖励模型训练证明生成器,形成持续进化的闭环系统[16] 性能表现数据 - 在具体竞赛题目表现:IMO 2025问题P1-P5得分83.3%,CMO 2024问题P1、P2、P4-P6得分73.8%,Putnam 2024问题A1-B4、B5、B6得分98.3%[8] - 与前一版本DeepSeek-Math-7B相比,新模型参数规模从7B提升至685B,性能实现重大跨越[4] - 模型成绩是在未依赖大规模“题库答案”训练前提下取得,显示其真正的数学推理能力[7] 行业影响与评价 - 海外开发者社区对开源反应强烈,有评论称模型在Basic基准上以10个百分点优势击败谷歌Gemini DeepThink,远超市场预期[18] - 社区期待将强大数学能力应用于代码编写,特别是数学软件领域对数学正确性要求高的场景[20] - 有观点认为数学推理是AI推理任务中最苛刻的领域,DeepSeek数学团队可能是最具潜力的王牌团队[23] 技术发展趋势 - 自验证机制为处理无标准答案的开放问题提供路线图,使数学AI向“像数学家一样思考”迈进[17] - 该模型的开源重新定义大模型数学推理研究竞争格局,可自验证推理成为下一代数学型AI关键技术路径[25] - 过去一年强化学习技术提升数学推理任务表现,但正确答案不等于正确推理,过程验证成为关键突破点[12]
DeepSeek上新,“奥数金牌水平”
第一财经· 2025-11-28 08:40
模型发布与性能表现 - 公司于11月27日在Hugging Face上开源数学模型DeepSeek-Math-V2,该模型是行业首个达到国际奥林匹克数学竞赛金牌水平且开源的模型[3] - 在IMO-ProofBench基准测试中,模型在IMO 2025题目上取得83.3%的成绩,在CMO 2024上取得73.8%的成绩,在Putnam 2024上取得98.3%的成绩[4] - 在Basic基准上,模型取得近99%的高分,远高于第二名谷歌Gemini DeepThink的89%;在更难的Advanced子集上,模型得分为61.9%,略低于Gemini DeepThink的65.7%[5] 技术创新与研究方向 - 模型从结果导向转向过程导向,通过自我验证方法教会AI像数学家一样严谨审查证明过程,不依赖大量数学题答案数据[8] - 该技术突破当前AI数学推理的研究局限,即正确最终答案不能保证推理过程正确的问题,展示了强大的定理证明能力[8] - 公司在技术论文中指出,可自我验证的数学推理是可行研究方向,可能有助于开发更强大的数学AI系统[8] 行业影响与市场反应 - 海外市场反应积极,有评论称"鲸鱼终于回来了",并认为公司以10个百分点优势击败谷歌IMO Gold获奖模型超出预期[9] - 行业期待公司的下一步动作,特别是在头部厂商如OpenAI、xAI、谷歌相继发布新模型后,市场关注公司旗舰模型的更新计划[10]
DeepSeek上新,“奥数金牌水平”
第一财经· 2025-11-28 08:35
模型发布与性能表现 - 公司于2025年11月27日晚在Hugging Face上开源新模型DeepSeek-Math-V2,这是行业首个达到国际奥林匹克数学竞赛金牌水平且开源的模型[3] - 在Basic基准上,该模型取得近99%的高分,远高于第二名谷歌Gemini Deep Think的89%[5] - 在更难的Advanced子集上,该模型分数为61.9%,略逊于谷歌Gemini Deep Think的65.7%[5] 技术创新与突破 - 模型从结果导向转向过程导向,具备强大的定理证明能力,不依赖大量数学题答案数据,而是教会AI像数学家一样严谨地审查证明过程[8] - 该技术突破当前AI数学推理的研究局限,即正确的最终答案不能保证正确的推理,通过自我验证来扩展测试时间计算,特别是针对没有已知解决方案的开放问题[8] - 模型在IMO 2025和CMO 2024上取得金牌级成绩,在Putnam 2024上通过扩展测试计算实现接近满分的118/120分[8] 行业影响与市场反应 - 海外市场反应积极,有评论称“鲸鱼终于回来了”,并以10个百分点优势击败谷歌的IMO Gold获奖模型DeepThink[9] - 行业头部厂商模型近期密集迭代,包括OpenAI发布GPT-5.1、xAI发布Grok 4.1、谷歌发布Gemini 3系列,市场期待公司下一步动作[9] - 外界更关注公司旗舰模型的更新时间,行业期待“鲸鱼”的下一个动作[9]
DeepSeek上新!首个奥数金牌水平的模型来了
第一财经· 2025-11-28 08:22
模型发布与核心成就 - 公司于11月27日在Hugging Face上开源数学模型DeepSeek-Math-V2,该模型是行业首个达到国际奥林匹克数学竞赛金牌水平且开源的模型[1] - 模型在IMO-ProofBench基准及近期数学竞赛中表现出色,部分性能优于谷歌旗下的Gemini DeepThink模型[1] - 模型在Basic基准上取得近99%的高分,远高于第二名Gemini Deep Think (IMO Gold)的89%分数[5] 具体性能表现 - 在IMO 2025的P1至P5问题上取得83.3%的成绩[4] - 在CMO 2024的P1、P2、P4、P5、P6问题上取得73.8%的成绩[4] - 在Putnam 2024的A1至B4、B5、B6问题上取得98.3%的成绩[4] - 在更难的Advanced子集上得分为61.9%,略低于Gemini Deep Think (IMO Gold)的65.7%[5] - 在Putnam 2024上通过扩展测试计算实现118/120接近满分的成绩[8] 技术创新与研究方向 - 模型从结果导向转向过程导向,展示了强大的定理证明能力,不依赖大量数学题答案数据[8] - 核心创新在于教会AI像数学家一样严谨地审查证明过程,实现自我验证,从而在没有人类干预下提升解决高难度数学证明题的能力[8] - 公司提出自我验证对于扩展测试时间计算尤为重要,特别是针对没有已知解决方案的开放问题[8] - 可自我验证的数学推理被证明是可行的研究方向,可能有助于开发更强大的数学AI系统[8] 行业影响与市场反应 - 海外反应积极,有观点认为公司以10个百分点的优势击败谷歌的IMO Gold获奖模型DeepThink超出预期[9] - 行业期待公司的旗舰模型更新,市场关注"鲸鱼"的下一个动作[10] - 在OpenAI发布GPT-5.1、xAI发布Grok 4.1、谷歌发布Gemini 3系列后,行业关注公司的下一步动作[10]