Workflow
AI数学推理
icon
搜索文档
吊打谷歌!DeepSeek开源首个“奥数金牌”AI
格隆汇· 2025-11-28 15:09
产品发布与定位 - 公司于近期发布新模型DeepSeekMath-V2,这是一个专注于数学领域的模型 [1] - 该模型是行业首个达到国际奥林匹克数学竞赛金牌水平且开源的模型 [2] - 模型采用Apache 2.0开源许可证向全球开发者开放权重 [10] 性能表现与基准测试 - 在Basic基准测试中得分接近99%,显著高于谷歌Gemini Deep Think的89% [4] - 在Advanced子集上得分61.9%,略低于Gemini Deep Think的65.7% [4] - 在IMO 2025中破解5题,达到金牌水平 [4] - 在CMO 2024中达到金牌水平 [4] - 在Putnam 2024中得分118接近满分,超越人类参赛者最高分90分 [4] - IMO 2025解题率为83.3%,CMO 2024解题率为73.8%,Putnam 2024解题率为98.3% [7] 技术突破与创新 - 模型引入自验证数学推理的新训练范式 [2][10] - 技术核心是训练一个准确可靠的验证器专门负责检查定理证明的每一步 [10] - 生成器学会在生成证明过程中主动识别和修正自身问题 [11] - 通过扩展验证计算量自动标注难以验证的证明并持续训练验证器 [11] 行业影响与市场反应 - 发布时机精准卡位于头部厂商密集发布新模型的11月 [10] - 打破了闭源模型在顶级数学推理领域的垄断格局 [10] - 国外开发者评价为惊人的发布并以鲸鱼归来形容公司的回归 [8] - 以10个百分点优势超越谷歌的DeepThink令市场感到意外 [8] - 行业正密切关注公司下一代旗舰模型的发布计划 [11]
Gemini再揽金牌,力压大学学霸,AI数学推理时代来了
36氪· 2025-08-12 08:56
Gemini模型在IMC竞赛中的表现 - 在大学生国际数学竞赛(IMC)测试中,Gemini的三种模式(Gemini Deep Think IMO、Gemini-2.5-Pro Agent、Gemini-2.5-Pro Best-of-32)均获得极高分数,远超前8%的金牌门槛 [1][4] - Gemini Deep Think和Gemini Agent成功解决了所有问题,仅出现少量小错误(如中间步骤论证不完整或已知定理引用不正确) [4] - Gemini Best-of-32表现优于IMO 2025,仅在一道题目(P5)上犯重大错误,可能因IMC知识密集度更高 [5] 模型性能量化数据 - Gemini-2.5-Pro Agent准确率94.50%,成本$94.64,在多数题目中得分100%,仅一道题得90% [2][6] - Gemini Deep Think IMO准确率93.00%,成本数据未提供,所有题目得分均为100% [2][6] - Gemini-2.5-Pro Best-of-32准确率88.00%,成本$114.52,多数题目得分100%,但两道题仅得70% [2][6] 模型能力定性评估 - 综合证明质量和清晰度排名:Gemini Deep Think > Gemini Agent > Gemini Best-of-32 [7] - Gemini Deep Think证明语言简练、结构清晰、步骤合理,展现原创思维(如第7题简洁证明、第9题比官方解更简洁的思路) [21][22] - Gemini Agent证明逻辑性较好但过于冗长,可能因自验证反馈机制导致过度解释 [21] - Gemini Best-of-32证明技术正确但表达混乱,缺乏逻辑组织 [21] 竞赛背景与测试方法 - IMC由英国伦敦大学学院主办,覆盖代数、分析、几何与组合数学领域,为期两天,每天5道题(每题10分) [8][10] - 测试采用匿名评分,两名评委独立制定标准,满分10分,避免数据污染 [16] - 测试规模较小,每个模型在每个问题上仅评估一次,且仅一名裁判 [7] AI在数学竞赛中的整体进展 - AI模型(如Gemini)已具备媲美人类优等大学生的数学能力,能识别高级数学概念(如Landau函数)并调用已知性质构建证明 [4][25] - 在信息学竞赛中,AI同样表现突出(如IOI 2025中ryanbAI获第七名) [40] - 网友测试显示其他模型(如o3)可在10分钟内完成全部IMC题目,但答案可能存在瑕疵 [28][34] - AI展现计算优势(更少错误、更强数据处理能力),甚至提供新证明思路(如Deep Think使用Shemesh定理解决线性代数问题) [37][43]
计算机行业重大事项点评:DeepSeek-Prover-V2发布,专注数学推理
华创证券· 2025-05-04 17:28
报告行业投资评级 - 推荐(维持),预期未来 3 - 6 个月内该行业指数涨幅超过基准指数 5%以上 [4][20] 报告的核心观点 - 4 月 30 日,DeepSeek 发布 DeepSeek - Prover - V2 - 671B 新模型、DeepSeek - Prover - V2 - 7B 增强模型及 DeepSeek - ProverBench 数据集并公布论文信息 [2] - 新模型专注数学定理证明,采用特定架构、参数和技术,实现形式化与非形式化数学证明融合,创新推理训练流程,定理证明达业内最佳 [7] - 国内 AI 数学推理达新高度,建议关注国产算力、AI 应用与 AI 安全等领域投资机遇,并列出多领域建议关注公司 [7] 根据相关目录分别进行总结 行业基本数据 - 股票家数 336 只,占比 0.04%;总市值 42,657.40 亿元,占比 4.41%;流通市值 36,398.85 亿元,占比 4.74% [4] 相对指数表现 - 1 个月绝对表现 - 5.3%,相对表现 - 1.6%;6 个月绝对表现 2.3%,相对表现 5.4%;12 个月绝对表现 27.0%,相对表现 22.4% [5] 新模型特点 - DeepSeek - Prover - V2 - 671B 采用和 DeepSeek V3 - 0324 相同架构,参数 6710 亿,用 MoE 模式,有 61 层 Transformer 层等,支持超长上下文及多种计算精度,用 safetensors 格式优化训练部署,通过 FP8 量化技术提高推理效率 [7] - 自 2024 年 3 月以来,DeepSeek - Prover 系列已推出 3 款模型,DeepSeek - Prover - V2 进一步提出“子目标分解的强化学习”,基础模型升级到 DeepSeek - V3 [7] - 采用“递归定理证明流程”和两阶段训练策略,减轻计算负担,构建最终形式证明 [7] - DeepSeek - Prover - V2 - 671B 在神经定理证明领域创新高,7B 模型解决部分大模型未攻克问题,形式与非形式数学能力差距缩小 [7] 投资建议 - 建议关注国产算力、AI 应用与 AI 安全等领域投资机遇,涉及办公、金融、大模型等 18 个领域多家公司 [7] 受益标的梳理 - 报告列出海光信息、寒武纪 - U 等多家公司 2024A、2025E 的营收、归母净利润、PE、PS 等数据 [8][9]
刚刚!DeepSeek-Prover-V2-671B 发布,网友:DS 是假期终结者
程序员的那些事· 2025-05-01 10:04
DeepSeek-Prover-V2-671B发布 - 公司于4月30日正式推出DeepSeek-Prover-V2-671B模型,标志着AI数学推理能力进入新阶段 [2][4] - 该模型基于6710亿参数混合专家(MoE)架构,专为Lean 4证明辅助框架优化 [4] 技术架构特性 - 采用动态参数激活机制,单次推理仅调用约370亿参数,平衡性能与计算效率 [4][6] - 上下文窗口约128k tokens,支持高阶数学证明中的复杂长逻辑链处理 [6][7] - 可能延续多头潜在注意力机制(MLA),显著降低KV缓存需求并提升吞吐量 [7] 核心突破价值 - 实现形式化数学的"GPT-4级"突破,处理复杂数学证明能力显著提升 [7] - MoE架构相比稠密模型大幅降低内存需求并提高运算速度 [7] - 开放商用许可,预计在Hugging Face开源权重,支持学术与工业应用 [7] 应用场景拓展 - 形式化验证:应用于密码学安全证明、芯片设计验证等自动化流程 [7] - 数学研究加速:辅助定理形式化、新猜想探索及奥赛级难题证明 [7] - 智能教育工具:构建可验证步骤的交互式数学教学系统 [7] - 关键系统安全:通过Lean集成验证核心代码逻辑的正确性 [7] 基础训练数据 - 基础预训练可能超过14.8万亿tokens(基于V3基础),提供广泛知识储备 [6]