Workflow
数学定理证明
icon
搜索文档
12.1万高难度数学题让模型性能大涨,覆盖FIMO/Putnam等顶级赛事难度,腾讯上海交大出品
量子位· 2025-06-06 08:58
DeepTheorem团队 投稿 量子位 | 公众号 QbitAI 12.1万道IMO级难度数学"特训题",让AI学会像人类一样 推导数学证明 ! "特训"过后,模型定理证明性能大涨 ,7B模型性能比肩或超越现有的开源模型和Claude3.7等商业模型 。 "特训题"为 Deep Theore m ,是首个基于自然语言的数学定理证明框架与数据集,由腾讯AI Lab与上海交大团队联合推出。 团队表示,定理证明是数学前沿的重要组成部分,但当前大语言模型 (LLM) 在数学推理,特别是通过强化学习 (RL) 进行训练时,往往 需要可以自动验证的答案,导致大模型无法像数学家那样通过自然语言进行定理证明。 图(b)展示经过强化学习训练的DeepTheorem-7B模型性能,比肩或超越现有的开源模型和商业模型 (Gemini2.0-flash, Qwen2.5-72B- Instruct, Claude3.7 等 ) ,仅次于o1、o3以及Gemini2.5-pro强推理模型。 DeepTheorem-121K 1、规模与难度:专为"极限挑战"而生 DeepTheorem训练集的显著特点是其大规模与高难度。其包含121K ...
陶哲轩“喂饭级”AI教程来了!只用GitHub Copilot证明函数极限问题
量子位· 2025-05-20 15:44
GitHub Copilot在数学定理证明中的应用 - 核心观点:GitHub Copilot在数学定理证明中主要起辅助作用,能快速生成代码框架和常见模式,但复杂数学细节和创造性解决方案仍需人工干预[5][6][7] - 陶哲轩演示了如何正确引导Copilot完成函数极限问题的求和、求差和求积定理证明[3][11][13][25][33] 具体证明过程 求和定理证明 - Copilot自动补全了ε-δ定义,但需手动调整绝对值符号表达[12] - 生成基本证明框架,但δ的正性验证和不等式处理不严谨,需人工修正绝对值符号、三角不等式应用和最终表达式[17][18][20] - 后期提示使用Lean内置的`add_sub_add_comm`引理简化步骤[23][24] 求差定理证明 - 沿用求和定理的框架,但虚构不存在的`sub_sub_anc`方法[27][28] - 处理代数表达式时不稳定,需手动完成恒等式证明[31][32] 求积定理证明 - 提出ε分配策略(ε/(2|M|+1)和ε/(2|L|+1)),但实现时出现正性验证和绝对值不等式错误[34][37][43] - 错误使用`add_lt_add`方法,需人工调整假设条件[37][39] - 建议复杂问题先用纸笔推导再形式化验证[41][42] Copilot的功能特点 - 优势:快速生成代码框架、提示库函数使用,对初学者友好[6][24] - 局限性:复杂数学细节可靠性低,易虚构方法或忽略适用条件[7][28][37][40]
DeepSeek新数学模型刷爆记录!7B小模型自主发现671B模型不会的新技能
量子位· 2025-05-01 11:53
DeepSeek放大招!新模型专注数学定理证明,大幅刷新多项高难基准测试。 在普特南测试上, 新模型 DeepSeek-Prover-V2 直接把记录刷新到 49道 。 目前的 第一名 在657道题中只做出 10道 题,为Kimi与 AIME2024冠军团队Numina 合作成果 Kimina-Prover 。 而未针对定理证明优化的 DeepSeek-R1只做出 1道 。 让还没发布的R2更令人期待了。 | 657) | | --- | | (out of | | Lean | | मै | Model | num- | | | --- | --- | --- | --- | | | | solved | compute | | 1 | Kimina-Prover-7B-Distill♥ | 10 | pass@192 | | 2 | Self-play Theorem Prover♥ | 8 | pass@3200 | | 3 | Goedel-Prover-SFT♥ | 7 | pass@512 | | 4 | ABEL | 7 | pass@596 | | 5 | InternLM2.5-StepPr ...
AI数学天花板来了?DeepSeek新模型低调开源,网友直呼:R2指日可待!
华尔街见闻· 2025-04-30 20:52
就在所有人都在期待DeepSeek官宣R2大模型之际,公司却出其不意地在"五一"前夕投下了另一枚技术炸弹。 4月30日,DeepSeek在Hugging Face平台上悄然开源了其最新模型——DeepSeek-Prover-V2-671B,一个专注于数学定理证明的大语言模型,专门针 对形式化数学证明任务进行优化。 DeepSeek-Prover-V2-671B使用了DeepSeek-V3架构,参数高达6710亿,采用MoE(混合专家)模式,具有61层Transformer层,7168维隐藏层。 | Hugging Face Q. Search models, datasets, users ... | | Models | ■ Datasets ■ Spaces Posts | Docs | Enterprise | Pricing | VII | Log In Sign Up | | --- | --- | --- | --- | --- | --- | --- | --- | --- | | < deepseek-ai/DeepSeek-Prover-V2-671B = 0 Wke 152 | Follo ...