数学证明

搜索文档
陶哲轩用GPT-5解决数学难题:仅29行Python代码
量子位· 2025-10-04 12:13
一水 发自 凹非寺 量子位 | 公众号 QbitAI AI又又又帮陶哲轩解决了一个难题! 消息来自陶本人最新发帖,他直言不讳地表示: 如果没有AI帮忙,完成同样任务就需要花费数小时 (主要是手动编写代码和调试) 。 甚至,如果没有AI,他也不会决定采用目前已经取得成功的关键策略。 事实上,如果没有AI帮忙,我几乎不可能尝试进行这种数值搜索 (可能会寻求理论渐近分析) 。 由于用的是 GPT-5 ,OpenAI研究员Sebastien Bubeck (微软前AI副总裁&杰出科学家) 也火速转发了一波,由此在社区引发热烈讨 论。 这标志着我们正在进入一个人类与机器共同探索的新时代。 所以,陶哲轩这次用AI解决了什么问题?AI又在其中起了多大作用? 咱接着康康—— 仅用29行Python代码帮助验证结果 陶哲轩这次要解决的是MathOverflow (专业数学问答社区) 上的一个问题: 除了纷纷回忆和陶神本人类似的经历,网友们无不感慨: 序列lcm(1,2,…,n)是否是高度丰数的一个子集? | ITTatTruvel Tum | | | --- | --- | | A Home | ls the least co ...
大语言模型离“数学证明高手”还有多远?斯坦福、伯克利、MIT 团队提出 IneqMath 评测标准
AI前线· 2025-07-17 12:47
大语言模型数学推理能力评估 - 不等式问题可作为检验AI数学推理能力的理想工具,因其结构简单且易暴露逻辑漏洞[1] - 形式化数学系统(如Lean/Coq)虽能验证证明严谨性,但存在门槛高、自动化程度低等局限性[1] - 大语言模型在自然语言环境下表现优于形式化证明,适合开展"非正式推理"研究[4] IneqMath创新研究方法 - 斯坦福等团队提出将不等式证明拆解为"界限估计"和"关系预测"两个可验证子任务[4] - 构建包含1,252道训练题+200道奥赛级测试题的IneqMath数据集,建立自然语言与形式逻辑的桥梁[8] - 采用自然语言+LaTeX表达方式,平衡可证明性与易用性,答案具有唯一可验证性[6][7] AI裁判系统性能 - 四维度评审器(Toy Case/Logical Gap/Numerical Approximation/Computation)实现F1=0.93的高准确率[15][16] - 系统可检测71.5%答案正确但仅6%过程严谨的案例(Grok 3 mini),揭示模型"蒙答案"现象[18] - 评审器类型中Logical Gap Judge表现最佳(F1=0.96),计算验证类相对较弱(F1=0.80)[17] 模型规模与推理能力关系 - 参数增加仅提升答案准确率,对推理严谨性无显著改善[20] - 延长推理token数量对质量提升有限,存在明显瓶颈效应[23][24] - Gemini 2.5 Pro通过自我批判机制提升5%准确率,定理提示方法最高可提升10%[25] 行业应用与展望 - IneqMath框架为AI数学推理能力提供标准化评估工具[4][8] - 研究证实单纯扩大模型规模无法解决推理严谨性问题,需结合反思机制与工具使用[21][25] - 该方向发展将推动AI从"答案生成"向"过程验证"的范式转变[28][29]