AlphaProof

搜索文档
人工智能为数学家找到“巨人的肩膀”
科技日报· 2025-08-25 09:32
AI在数学研究领域的应用价值 - AI显著提升数学理论研究效率 可进行定理证明或证伪的形式化验证 类似代码运行机制确保结果可靠性[3] - AI帮助研究者进行精准语义检索 快速确认定理是否已被提出或证明 避免重复发现已有成果[4] - AI辅助研究者快速学习新知识和工具 识别理论工具与研究问题的相关性 起到不同领域间的"搭桥"作用[5] 代表性研究成果 - DeepMind团队与数学家合作构建AI专用模型 提出多个全新数学定理 通过AI猜测变量间函数形式发现内在规律[6][7] - 研究团队应用人机协同模式成功重新发现ADLV领域虚拟维数公式 并证明实际维数与虚拟维数误差上界的新定理[7] - DeepMind开发的自动推理模型AlphaProof和AlphaGeometry 2达到2024年国际数学奥林匹克竞赛银牌水平[8] 技术挑战与发展方向 - 需解决自然语言数学表述验证缓慢且不精确的问题 尤其在科研级难度问题上表现突出[9] - 需搭建高效推理框架模仿顶级数学家工作流和思维习惯 推动数学数字化进程[9] - 必须构建严格精确的形式化语言系统 创建专门的"数学推理模拟器"提升AI验证和训练效率[9] - 需推动高质量数学专用语料库建设 吸引更多数学学者参与AI+数学应用推广[10] 行业影响与未来展望 - AI与数学结合本质是"认知增强" 打破人类思维限制 支持多尺度高维度复杂问题处理[5] - 当前AI更适用于"单点突破"式研究 未来需通过大语言模型技术发展系统化通用解决方案[7][8] - AI将使数学家专注于更具创造性和价值的研究 推动数学进入更丰富更有洞察力的时代[10]
AI拿下奥数IMO金牌,但数学界的AlphaGo时刻还没来
36氪· 2025-08-01 10:40
伴随技术进展而来的,是行业竞争"好戏":当Demis Hassabis公开谴责OpenAI提前泄露成绩时,媒体曝出DeepMind金牌团队三名核心研究员已被Meta挖 角。 AI数学能力的进步速度令人惊叹。但IMO金牌究竟意味着什么?这是数学界的AlphaGo时刻吗?AI将会成为数学研究中值得信赖的合作者,还是沦为市场 逻辑下的技术产品,消解数学的真正意义? 最近,2025年国际数学奥林匹克(IMO)在澳大利亚落幕的两天内,AI界因"IMO金牌认证",开展了一场人才与技术话语权的双重争夺战。 OpenAI抢先宣布其保密推理模型以35分达到金牌线,DeepMind两天后也亮出IMO官方认证的同等成绩单。这标志着AI首次在IMO中比肩顶尖学生,实现 从2024年银牌到2025年双金牌的数学推理能力跃升。 本篇文章,我们邀请了IMO金牌得主,以亲历者的角度来聊聊两大AI的解题逻辑和数学水平,并透视竞赛背后的技术突破与数学的未来。 01 前后获得IMO金牌,DeepMind与OpenAI之战 一觉醒来,我以为我穿越回高中了:朋友圈竟然有人提起IMO(国际数学奥林匹克竞赛,International Mathemati ...
美版“梁文锋”不信邪
虎嗅APP· 2025-07-31 17:50
核心观点 - Harmonic是一家专注于解决AI幻觉问题的初创公司,其产品Aristotle在数学推理领域实现了零幻觉,通过形式化验证手段确保输出准确性 [5][6][21] - 公司成立仅两年估值接近9亿美元,吸引了红杉资本、凯鹏华盈等顶级投资机构近2亿美元投资 [7][30][34] - 技术核心是基于Lean的交互式定理证明系统,通过严格逻辑约束确保数学推理的准确性 [36][38] - 在MiniF2F测试中达到90%成功率,远超GPT-4等通用AI模型的20-35% [41][42] - 面临DeepSeek、谷歌DeepMind等强劲竞争对手,后者在数学AI领域已有显著成果 [43][46][47] 公司背景 - 由Vlad Tenev和Tudor Achim联合创立,前者是Robinhood CEO(公司估值55亿美元),后者有自动驾驶AI算法开发经验 [9][10][14] - 创始团队具备数学天赋和AI经验,初期使用个人资金启动研发 [11][15] - 公司理念是让AI"会思考、讲真话",通过严格逻辑约束避免无根据回答 [15] 产品与技术 - Aristotle是首个可进行推理并正式验证的AI产品,在定量推理领域保证零幻觉 [5][21] - 通过Lean证明系统实现:每一步推导需系统认可,错误结论会被立即拒绝 [21][38] - 解决了三大问题:幻觉、推理不清晰、不够严谨,适合金融、医疗等高风险场景 [21] - 在MiniF2F测试集(488道数学题)中创下90%成功率的新纪录 [22][41] - 能自动生成严格数学证明,如2001年国际数学奥林匹克难题 [22][23] 融资与估值 - 种子轮由创始人个人和天使投资人提供 [29] - 2024年9月A轮融资7500万美元,估值3.25亿美元 [30] - 2025年7月B轮融资1亿美元,估值接近9亿美元 [30] - 投资方包括红杉资本、Index Ventures、Kleiner Perkins等顶级机构 [34] 行业竞争 - DeepSeek的Prover-V2模型在MiniF2F测试中达到88.9%通过率 [43] - 谷歌DeepMind的AlphaProof在2024年IMO中获得银牌(6题解出4题) [46] - OpenAI新模型在IMO2025斩获金牌(6题解出5道) [49] - 竞争对手普遍拥有大模型生态支持,如DeepSeek-V3、Gemini等 [51] 市场定位 - 瞄准B端精密场景(金融建模、科学推理等)对极低容错率的需求 [19] - 计划发布企业API和消费者网络应用 [24] - 可能选择被大厂收购作为退出路径,成为基础模型技术生态的一环 [51]
Nature头条:AI大模型已达国际数学奥赛金牌水平
生物世界· 2025-07-25 15:54
人工智能在数学领域的突破 - 大语言模型首次在国际数学奥林匹克竞赛中达到金牌水平,标志着AI在复杂数学问题解决能力的重大飞跃[2][4] - DeepMind的大语言模型在评估中跨越金牌得分门槛(满分42分,35分为金牌),OpenAI的模型也展现出同等能力[4][6] - 相比2024年银牌顶尖水平,2025年实现从银牌到金牌的实质性突破,体现AI在高级数学推理和问题解决能力的显著进步[5] 技术进展与范式转变 - DeepMind此次突破采用全新大语言模型DeepThink,完全基于自然语言处理,不再依赖人类专家翻译考题和解答[6] - 此前DeepMind在数学领域依赖专门工具AlphaGeometry和AlphaProof,需要人工翻译过程,新模型实现端到端自然语言处理[6] - 国际数学奥林匹克竞赛金牌代表全球高中生数学巅峰水平,AI达到该层次表明其在复杂概念理解、创造性推理和精妙解法发现方面的高度[5] 行业影响与未来潜力 - 该突破证明大语言模型能处理需要深度逻辑思维和抽象推理的复杂任务,超越文本生成和模式识别的传统能力[7] - AI可作为教育和研究工具,帮助学生学习高等数学、启发解题思路,并协助数学研究人员探索新猜想和定理[7] - 解决奥林匹克数学竞赛金牌级问题是通往通用人工智能(AGI)的重要里程碑,体现多方面认知能力的组合[7] - 从围棋击败人类冠军到数学竞赛金牌水平,AI持续刷新机器能力认知,预示在科学探索和技术研发等领域的巨大潜力[8]
全球首个IMO金牌AI诞生!谷歌Gemini碾碎奥数神话,拿下35分震惊裁判
首席商业评论· 2025-07-23 12:02
谷歌DeepMind在IMO竞赛中的突破 - 谷歌DeepMind的Gemini Deep Think模型在IMO竞赛中破解5道题,获得35分(满分42分),达到金牌标准[3][4][21] - 该模型在4.5小时内完成解题,使用纯自然语言(英语)进行端到端推理,无需形式语言翻译[5][25] - 这是首个获得IMO组委会官方认证的金牌级别AI系统[6][7] IMO竞赛背景与AI参与情况 - IMO是数学界最高级别竞赛,每年吸引全球顶尖学生参与,需在4.5小时内解决6道深度数学问题[10][11] - 只有前8%的选手能获得金牌[12] - 2024年AlphaProof和AlphaGeometry 2破解4题获28分,达到银牌水平[16][18] Gemini Deep Think的技术创新 - 采用增强推理模式Deep Think,结合并行思考技术同时探索多种解题路径[29][30] - 通过新颖的强化学习训练,利用多步推理、问题解决和定理证明数据提升能力[31] - 团队提供高质量解决方案集和IMO解题技巧,优化模型表现[33] 解题过程与数学方法 - 第一题解析几何:通过设定引理和定理,证明阳光线数量只能是0、1或3条[37][41][42] - 第二题平面几何:分五步证明,包括确定旁心、求角度、引入辅助点等[44] - 第三题函数分析:通过分类和上下界证明确定最小实数常数c=4[47][50][51] - 第四题数论:通过五步分析确定序列起始值的限制条件[54][55][56][58] - 第五题组合博弈:通过离散化策略和蓄力策略分析胜负条件[64][65] 团队与技术负责人 - 项目由Thang Luong领导,他是Google DeepMind高级主任研究员,斯坦福大学博士[71][72] - Thang Luong在机器翻译、语言模型和视觉模型领域有开创性贡献,曾开发AlphaGeometry项目[72][73] 行业影响与未来展望 - 该突破显示AI在数学推理领域的重大进展,结合自然语言与严谨推理能力[76][77] - 谷歌认为这类AI将成为数学家、科学家和工程师的重要工具[77] - 该技术方向被视为通往AGI道路上的重要里程碑[78] OpenAI与谷歌的对比 - OpenAI此前宣称获得IMO金牌但未经官方认证,谷歌结果获得IMO官方认可[6][81] - OpenAI模型未使用形式语言但依赖外部评委评分,谷歌采用端到端自然语言推理[25][88] - 两家公司在方法上各有侧重,但谷歌的官方认证结果更具权威性[95]
“深层思维”宣布人工智能测试得分达国际数学奥赛金牌水平
新华社· 2025-07-22 15:30
人工智能模型性能突破 - 谷歌旗下"深层思维"公司高级版"双子座"模型在国际数学奥林匹克竞赛(IMO)测试中获35分(总分42分),达到金牌水平[1] - 模型成功解答2025年竞赛6道题目中的5道,解题方案获官方认证且被评价为"清晰、精确"[1] - 相比2024年AlphaProof与AlphaGeometry 2组合28分(银牌水平)的表现,得分提升25%[2] 技术实现进展 - 高级版"双子座"直接根据自然语言描述解题,无需人工翻译为计算机语言,突破去年技术限制[2] - "深度思考"模式采用并行思维技术,可同时探索多种解决方案路径而非单一线性思路[2] - 解题时间从去年2-3天缩短至竞赛标准时限(4.5小时/天×2天),实现与人类选手同等条件[2] 行业应用验证 - IMO竞赛成为衡量AI解决复杂数学问题能力的权威标准,涉及代数/组合数学/几何/数论四大领域[1] - 官方评分员确认AI解题方案"大多数易于理解",表明技术已具备可解释性[1] - 公司公开全部解题方案,为行业提供可验证的技术基准[1]
DeepMind夺得IMO官方「唯一」金牌,却成为OpenAI大型社死现场
机器之心· 2025-07-22 12:25
技术突破 - 谷歌DeepMind新一代Gemini进阶版模型在IMO竞赛中达到金牌得主水平,成功解决六道超高难度试题中的五道,拿下35分(满分42分),成为首个获得奥赛组委会官方认定为金牌的AI系统[2] - 该系统首次证明人工智能无需依赖专业编程语言,仅通过自然语言理解即可攻克复杂数学难题[3] - 突破来自Gemini Deep Think增强型推理系统,采用并行思维技术,同时探索多种可能解决方案[6] - 模型以自然语言进行端到端运行,直接从官方问题描述中生成严格数学证明,并在比赛标准的4.5小时时限内完成任务[7] 行业对比 - 谷歌DeepMind成绩远超2024年表现,当时AlphaProof和AlphaGeometry系统组合解决六个问题中的四个,荣获银牌[4] - 谷歌谨慎发布方式赢得AI界广泛赞誉,与竞争对手OpenAI对类似成绩处理方式形成鲜明对比[11] - OpenAI因绕过官方竞赛规则提前官宣遭到批评,被指缺乏可信度[10][15] - DeepMind选择等待官方认可再发布成绩,赢得金牌和尊重,而OpenAI因时机与方式问题引发争议[25] 技术方法 - OpenAI研究科学家表示谷歌方法与其不同,说明存在多种研究方向[17] - OpenAI专注于不受Lean限制的自然语言通用推理研究,因此婉拒IMO基于Lean语言的正式比赛邀请[18] - OpenAI在通用推理方面取得进展,包括收集、整理和训练高质量数学数据,未使用RAG或任何工具[19] - OpenAI提交的每份证明由三位外部IMO奖牌获得者评分并获得一致正确性认可,证明已公开发布供验证[20][21] 行业影响 - 这场AI登上数学奥林匹克舞台的较量不仅是技术竞赛,更是关于规范、节奏与合作精神的展示[25] - 在通往AGI的路上,除了技术力,如何与人类社会的规则与价值观对齐正变得愈发重要[25] - AI推理能力正在快速发展,IMO结果确实表明了这一点[24]
全球首个IMO金牌AI诞生!谷歌Gemini碾碎奥数神话,拿下35分震惊裁判
猿大侠· 2025-07-22 11:33
核心观点 - 谷歌DeepMind的Gemini Deep Think模型在IMO竞赛中以自然语言方式破解5道题,获得35分(满分42分),达到金牌标准[3][4][22] - 该成绩获得IMO组委会官方认证,成为首个获此认可的AI系统[6][7][24] - 模型突破在于完全使用自然语言端到端推理,无需形式语言翻译,且在4.5小时比赛时限内完成[26][29] - 相比2024年AlphaProof和AlphaGeometry 2解决4题获28分(银牌)的表现有显著提升[17][19] - 技术核心是Deep Think增强推理模式,结合并行思考技术和强化学习训练[32][33][35] 技术实现 - 采用并行思考技术,同时探索多种解题路径并整合最优答案[33][34] - 通过新颖的强化学习训练,利用多步推理和定理证明数据提升能力[35] - 提供高质量数学问题解决方案集和IMO解题技巧作为知识库[42] - 模型即将向数学家测试者和Google AI Ultra订阅者开放[39] 解题案例 - 第一题(解析几何):通过设定引理和分类讨论,证明阳光线数量只能是0、1或3条[44][45][52] - 第二题(平面几何):分五步证明,包括确定旁心位置和引入辅助点性质[54][55][59] - 第三题(函数):通过上界证明c≤4和下界证明c≥4确定最小实数常数为4[65][66][67] - 第四题(数论):用五步证明序列性质,包括偶数性分析和动态行为研究[73][74][78] - 第五题(组合博弈):通过离散化策略和蓄力战术,确定Alice与Bazza的必胜条件区间[84][85][86] 行业影响 - IMO成为AI能力试炼场,数学推理能力接近顶尖人类水平[16][19] - 自然语言与形式化推理结合的AI将成为科研人员重要工具[105] - 谷歌与OpenAI的竞争凸显技术路线差异:官方认证vs自评结果[108][109][129] - OpenAI被质疑未获官方认证且提前公布结果,影响行业声誉[109][112][130] 团队背景 - 项目由Thang Luong领导,他是机器翻译深度学习先驱和注意力机制发明者[95][96][97] - 团队曾开发AlphaGeometry、LaMDA、Bard等知名项目[98]
“AI登月时刻”,OpenAI模型摘取奥数金牌
虎嗅· 2025-07-20 09:41
OpenAI在数学竞赛中的突破 - OpenAI的通用推理模型在2025年国际奥林匹克数学竞赛(IMO)中达到金牌水平,在禁用工具和互联网的条件下,以自然语言撰写证明,完整解出6题中的5题,最终得分35/42分[1] - 该模型是通用推理模型而非专门解数学题的系统,不依赖标准答案或实时打分的奖励信号,而是通过通用推理和新技术在长时间复杂过程中完成正确推理[1] - 模型由三位前IMO奖牌得主独立批改并取得一致意见后定分,证明其严谨性[1] OpenAI的技术领先地位 - OpenAI目前拥有最强的编程及数学模型,在AtCoder世界巡回赛2025决赛中仅次于人类编程奇才Psyho,测试表现优于o3 pro模型[2] - 该成就使OpenAI再次碾压DeepMind、Anthropic、Grok等竞争对手,并拉开与中国开源模型的差距[3] - OpenAI内部正在测试全新推理模型,奥数金牌成绩仅为小试牛刀,正式发布预计在GPT-5之后[4] 技术方法与意义 - 模型突破传统强化学习范式,不依赖狭窄的任务特化技巧,而是通过通用强化学习与"测试时计算"扩展的新技术实现[7] - 模型未针对IMO做专项训练,仅持续训练通用模型,所有证明均为自然语言撰写,未使用定制化评测框架[7] - 该模型在推理时间跨度和创造性思考上取得重大进展,从GSM8K(0.1分钟)到IMO(100分钟)逐步突破[5] 未来展望 - 从起步到奥数金牌水平仅用15个月,预计明年可用于数学定理生成和全新数学研究方法[11] - 市场预测人工智能在2030年前解决千禧年大奖难题的概率骤升至81%[12] - OpenAI科学家认为AI正接近在科学发现中发挥实质性作用的阶段,从略低于顶尖人类水平到略高于顶尖人类水平的差距巨大[28] GPT-5相关信息 - GPT-5即将发布,将采用实验性模型并融入未来模型采用的新研究技术[13] - GPT-5不会具备IMO金牌水平能力,但可能采用统一模型架构,用户可调整推理强度或智能等级[14][15] - GPT-5可能采用端到端强化学习(RL)进行训练,直接从原始输入学习最优策略,无需拆分子任务或设计中间模块[20] 行业影响 - OpenAI在经历Meta挖角后仍保持顶尖研究人才密度,此次突破向Meta展示其向超级人工智能跨越的决心[21] - 该成就由小团队完成,使用最近开发的新技术,对许多OpenAI研究人员也是惊喜,展示了前沿能力所在[29][30] - 不同于以往狭窄领域的AI系统,该模型具备更广泛的推理能力,远超竞赛题范围[10][24]
大模型IMO25数学竞赛成绩公布了
量子位· 2025-07-18 14:16
大模型数学能力评估结果 - Gemini 2.5 Pro以超30%的总成绩断崖式领先 超出第二名89% [1] - o3和o4-mini分别位列第二、三名 Grok 4得分仅11.9且成本比Gemini高22% [2] - 测试采用统一提示词模板与Open Proof Corpus评估标准 最大Token限制64000 [5][6] 评估方法与流程 - 每个模型生成32个初始回答 筛选自评最优的四个答案取平均分作为最终成绩 [7][8] - 四名IMO级别人类评委匿名双评 每题满分7分 评分界面统一 [10][11] - 模型普遍在7分制下得3-4分 与人类表现差异显著 [12] 题目类型与模型表现 - 六道题目涵盖解析几何、平面几何、数论、博弈论和组合数学 [16][18][22][24][25] - 平面几何题(第2题)全员低分 Grok 4仅得4%(0.28分) [26][27] - 组合数学题(第6题)全员零分 几何与图形相关题目表现最差 [26][28] - 第四题模型方法接近人类但存在逻辑失误 第五题能识别策略但无法证明 [29] 模型能力演进观察 - 相比早期评估 模型过度优化答案格式的行为显著减少 [13] - Gemini在USAMO中编造定理的问题在IMO测试中大幅改善 [14] - Grok 4多数未选中答案仅陈述结果而无解释 表现低于预期 [14]