形式化推理 - 财报，业绩电话会，研报，新闻

形式化推理

搜索文档

科技日报· 2025-11-13 09:00

文章核心观点 - 深度思维公司正式推出AI系统AlphaProof，该系统在2024年国际数学奥林匹克竞赛中取得相当于银牌的成绩，证明了AI在高难度数学推理领域的显著进步[1] - 该突破被视为AI研究领域的里程碑，IMO竞赛成绩是衡量AI是否具备“类人”深度推理能力的关键试金石[1] - 此项成果为未来人机协作攻克前沿科学难题开辟了现实路径，其影响将辐射至理论计算机科学、自动定理证明及基础数学研究等领域[3] AI系统技术细节 - 深度思维团队将强化学习引入名为Lean的正式数学证明环境，所有推理步骤必须符合形式化逻辑规则，从而能够被自动验证[2] - AlphaProof专为证明数学命题设计，团队首先对约8000万个数学命题进行自动形式化处理，随后利用强化学习让系统探索有效证明路径[2] - 该系统联合另一款专攻几何的AI系统AlphaGeometry，在2024年IMO竞赛中共同解决了6道题中的4道[2] 性能表现与行业意义 - AlphaProof的表现超越了此前最先进的AI模型在历史IMO题目上的成绩[2] - 深度思维公司曾在2004年透露其混合AI系统在IMO竞赛中仅差1分就能摘得金牌[1] - 不同于依赖模糊语言模型的通用AI，该成果在严格逻辑框架中运行，每一步推理均可验证，极大提升了结果的可靠性[3] 当前局限与未来方向 - 该系统目前仍存在局限，例如在处理某些非标准或高度抽象的数学问题时表现不足[2] - 未来的研究应聚焦于拓展系统的通用性和适应性[2] - 一旦障碍被克服，AlphaProof有望成为协助数学家攻克复杂数学难题的有力工具，推动形式化证明与AI的深度融合[2]

普林斯顿团队领衔发布最强开源数学定理证明模型：32B性能大幅超越前代SOTA DeepSeek 671B

机器之心· 2025-07-17 13:03

核心观点 - 新一代开源数学定理证明模型Goedel-Prover-V2在多个基准测试中大幅超越此前最先进的开源模型DeepSeek-Prover-V2-671B [1] - 32B旗舰模型在MiniF2F测试中正确率提升8% [6]，8B小尺寸模型性能与671B参数模型持平 [7] - 模型在PutnamBench排名第一 [9]，并在MathOlympiadBench等新基准中表现优异 [18][20] 主要成果 - **MiniF2F性能突破**：32B模型Pass@32正确率达88.1%（标准模式）和90.4%（自我修正模式），较前代SOTA提升8% [6][12] - **小模型高效性**：8B参数模型在MiniF2F上通过率83.3%，性能与671B参数模型相当 [7][12] - **PutnamBench领先**：32B模型在Pass@64下解决64题，远超前代Pass@1024解决47题的记录 [14][20] 技术方法 - **专家迭代与强化学习**：结合形式化问题生成与验证流程优化模型 [26] - **分层式数据合成**：自动生成渐进难度问题以提升训练效果 [26] - **验证器引导自我修正**：利用Lean编译器反馈迭代修正证明 [13][32] - **模型平均技术**：融合不同节点权重提升鲁棒性 [12][32] 性能表现 - **基准测试对比**：32B模型在MiniF2F、PutnamBench、MathOlympiadBench中均超越SOTA模型 [18][22] - **计算效率优势**：自我修正模式下输出长度仅从32K tokens增至40K tokens，保持高效 [16] - **扩展性曲线**：32B模型在不同采样预算下性能稳定优于同类模型 [21][25] 模型与数据发布 - **开源模型**：32B与8B模型已发布于HuggingFace [8][33] - **新基准数据集**：MathOlympiadBench包含360道奥林匹克竞赛级别题目 [30] 研究团队 - **核心成员**：普林斯顿大学林勇、唐山茖及金驰教授团队主导开发 [35][38][39] - **研究方向**：聚焦大模型形式化数学推理与高级决策能力 [39]

DeepSeek-Prover-V2-671B

DeepSeek-Prover-V2-671B