形式化数学

搜索文档
大模型为何难成为「数学家」?斯坦福等揭示严谨证明中的结构性弱点
机器之心· 2025-06-22 12:26
数学推理与AI研究 - 数学证明需要逻辑闭合和严谨推理过程,不等式问题是检验模型推理能力的理想对象[1] - 当前形式化数学系统如Lean、Coq要求极高精度,难以规模化应用于中学到奥数级别的不等式问题[1] - 大语言模型在非形式化推理方面表现出色,能给出看似合理的答案并模仿人类初期思维方式[1] IneqMath创新方法 - 研究团队提出将不等式证明拆解为"界限估计"和"关系预测"两个子任务[2][7] - 构建首个奥林匹克级不等式证明基准数据集IneqMath,包含1,252道训练题目和200道测试题目[11][12] - 数据集覆盖83种定理和29个定理类别,测试集由IMO奖牌得主设计并经数学家审核[12] 评估框架 - 开发LLM-as-Judge框架,包含五种自动评审器评估模型推理严谨性[20] - 评审器系统在与人工标注对齐的任务上达到F1=0.93的表现[24] - 框架可判断模型是"碰巧答对"还是每个推理节点都正确[23] 研究发现 - 存在Soundness Gap现象:模型最终答案准确率与推理严谨性差距显著[27] - Grok 3 mini最终答案准确率71.5%,但逐步评审后骤降至6.0%[29] - 模型规模增大能提升猜测准确率,但对推理严谨性提升有限[30] - 增加推理token数仅带来轻微提升,很快进入饱和状态[32] 改进策略 - 自我批判提升策略为Gemini 2.5 Pro带来约5%的准确率提升[42] - 定理提示策略使Gemini 2.5 Pro准确率提升约10%[42] - 研究团队设立动态更新的排行榜推动模型在严谨数学推理上的进步[36] 研究团队 - 项目由斯坦福大学、麻省理工学院和加州大学伯克利分校的研究者联合完成[44] - 负责人Pan Lu是斯坦福大学博士后研究员,研究方向包括大语言模型和数学发现[45] - 合作者包括MIT博士生Alex Gu和斯坦福大学博士生Jikai Jin[46][47]
对谈 DeepSeek-Prover 核心作者辛华剑:Multi Agent 天然适合形式化数学 |Best Minds
海外独角兽· 2025-06-12 21:27
嘉宾:辛华剑 访谈:penny Era of Experience 这篇文章中提到:如果要实现 AGI, 构建能完成复杂任务的通用 agent,必须借助"经验"这一媒介,这里的"经验"就是指强化学 习过程中模型和 agent 积累的、人类数据集中不存在的高质量数据。 强化学习是 AGI 的关键解法。从 OpenAI o1 到 DeepSeek R1,我们不断在看到强化学习的潜力:DeepMind AlphaProof 被认为是"经验时代"初露端 倪的一个例子,作为第一个在 IMO 获奖的 AI,AlphaProof 借助 RL 算法自行"做题",积累经验,AlphaProof 的案例表明,在像数学这样人类高水 平知识接近极限的领域,RL 通过互动试错可以突破瓶颈,取得超人类的成果。 以 AlphaProof 为开端,整个数学证明领域也在最近半年迎来了 AI 突破的密集期:除了 AlphaProof ,OpenAI 的 o1 模型在数学推理上展现出了惊 人表现,DeepSeek-Prover 三部曲也在形式化数学证明上不断创造新纪录。 为了理解数学和 AGI 的关系,海外独角兽访谈了 DeepSeek-Prov ...
当AI遇上数学:大语言模型如何掀起一场形式化数学的革命? | Deep Talk
锦秋集· 2025-05-12 17:13
核心观点 - 大语言模型(LLM)与形式化数学结合正推动数学领域的范式变革,解决传统人工验证的瓶颈问题 [1][4] - 形式化数学通过严格逻辑和计算机辅助验证提升数学证明的可靠性和效率 [4][7] - 从Theorem Prover向Proof Engineering Agent转型是形式化数学的未来趋势 [11][17] - APE-Bench作为自动化证明工程基准,支持形式化数学的长期动态演进 [12][16] - LLM与形式化方法的结合将催生Certified AI,提升知识生产的可信度和效率 [17] 形式化数学的背景与挑战 - 现代数学证明规模庞大(如300页的开普勒猜想证明),传统人工验证效率低且易出错 [6] - 形式化数学通过公理系统和逻辑语言表达数学内容,借助计算机工具实现自动化验证 [8] - LLM的"幻觉"问题在数学领域尤为突出,需结合形式化方法确保生成内容的逻辑严密性 [6] 形式化定理证明的应用 - 典型案例包括Flyspeck项目(验证开普勒猜想)、液体张量实验(验证凝聚态数学引理)、PFR猜想众包验证 [13] - 形式化方法适用于数学理论证明和软件工程验证,确保逻辑一致性 [9] LLM驱动的最新进展 - AlphaProof在国际数学奥林匹克题目证明中达到银牌水平,DeepSeek-Prover V2在miniF2F基准成功率近90% [10] - LEGO-Prover项目利用LLM构建可复用的数学知识库,推动形式化数学向库级理论构建转型 [10] - 前沿研究探索LLM主动提出数学猜想和发现抽象结构的潜力 [10] Proof Engineering Agent转型 - 当前形式化工具面临人工成本高、协作效率低等问题(如Flyspeck项目耗费数十人年) [11] - 下一代工具需具备自我规划、修复和知识积累能力,支持大规模跨模块协作 [11] APE-Bench的设计与实施 - 分为三个阶段:单文件局部修改(APE-Bench I)、跨文件一致性维护(APE-Bench II)、完全自主Agent模式(APE-Bench III) [19] - 基于真实数学库(如Mathlib4)的历史修改记录,模拟实际Proof Engineering场景 [12] 未来影响与展望 - 数学领域:提升验证效率,推动理论创新和概念探索 [17] - 工业领域:应用于高安全系统(如操作系统内核、智能合约),提升安全性与可靠性 [17] - Certified AI将结合形式化验证与动态学习,成为可信的知识生产伙伴 [17]
挑战AI数学推理极限!大规模形式化数学基准FormalMATH发布,最强模型成功率仅16%
量子位· 2025-05-07 17:33
FormalMATH团队 投稿 量子位 | 公众号 QbitAI 最强AI模型面对5560道数学难题,成功率仅16.46%?背后真相大揭秘。 香港中文大学、西湖大学、MAP、浙江大学、马克斯·普朗克智能系统研究所等机构联合推出 FormalMATH形式化数学推理基准测试 ,含 5560道经过严格验证的数学题,覆盖从奥数到大学水平的代数、微积分、数论等领域。 形式化数学推理是人工智能领域公认的核心难题之一。 尽管大语言模型(LLM)在自然语言处理和代码生成等领域取得显著进展,但面对需要严格逻辑推导的数学定理证明任务时,其能力仍面临严 峻挑战。 FormalMATH:「超大规模」的形式化数学推理基准 规模突破:22.8倍于现有基准 FormalMATH包含5560个经过Lean4编译器验证的数学命题,涵盖代数、数论、微积分、离散数学等12个子领域,问题难度从国际数学奥林 匹克(IMO)竞赛级延伸至本科课程,规模是经典基准MiniF2F的22.8倍。 构建创新:人类在循环中的自动化流程用于自动形式化和语义一致性检测 为解决传统形式化数据依赖专家手动标注的瓶颈,研究团队提出了一套 「三阶段过滤」 框架: 现有LLM证 ...
AI的下一个风口?听前DeepSeek成员辛华剑解读数学推理 | Deep Talk
锦秋集· 2025-05-03 16:51
DeepSeek-Prover-V2-671B模型发布 - 公司发布专注于形式化数学推理的开源大型语言模型DeepSeek-Prover-V2-671B,参数量达6710亿 [1] - 该模型结合LLM泛化能力与形式化工具(如Lean),首次实现自然语言描述到机器可验证证明的大规模端到端转化 [2] - 形式化数学被视为AI"终极挑战",突破可能将数学研究效率提升数倍,并打开金融建模、芯片验证、密码学等高价值商业场景 [2] 大模型开发者活动 - DeepSeek前成员辛华剑将参与"大模型开发者与AI基金合伙人跨洋对谈",分享《大语言模型时代的形式化数学革命》 [2] - 辛华剑为DeepSeek-Prover系列模型开发主导者,现任爱丁堡大学AI博士生及字节跳动研究实习生,专注大模型在数学定理证明的创新应用 [2][4] - 锦秋基金合伙人臧天宇将同期分享2025年AI创投趋势 [3][4] 活动主办方背景 - 锦秋基金专注AI领域投资,在管基金为12年长期基金,59%项目为首次投资,采取多轮追加策略,已投资北美活跃AI基金 [6] - 剑桥中国人工智能协会(CCAIA)致力于链接中国AI产业与海外学界,采用轻量化社群模式促进中英资源流动 [7] - 清华大学学生通用人工智能研究会(THUAGI)以培养下一代通用AI人才为目标,依托清华AI研究院资源 [9] - 清华大学学生创业协会成立于1997年,为全国最早高校创业协会之一,28年来聚焦创业生态培育 [10] 活动流程 - 英国时间15:00/中国时间22:00开始辛华剑主题演讲,随后臧天宇分享AI创投趋势 [8] - 活动含圆桌对谈及观众提问环节,国内通过腾讯会议直播,需通过锦秋基金公众号报名 [5][6][8]