AlphaGeometry 2

搜索文档
人工智能为数学家找到“巨人的肩膀”
科技日报· 2025-08-25 09:32
AI在数学研究领域的应用价值 - AI显著提升数学理论研究效率 可进行定理证明或证伪的形式化验证 类似代码运行机制确保结果可靠性[3] - AI帮助研究者进行精准语义检索 快速确认定理是否已被提出或证明 避免重复发现已有成果[4] - AI辅助研究者快速学习新知识和工具 识别理论工具与研究问题的相关性 起到不同领域间的"搭桥"作用[5] 代表性研究成果 - DeepMind团队与数学家合作构建AI专用模型 提出多个全新数学定理 通过AI猜测变量间函数形式发现内在规律[6][7] - 研究团队应用人机协同模式成功重新发现ADLV领域虚拟维数公式 并证明实际维数与虚拟维数误差上界的新定理[7] - DeepMind开发的自动推理模型AlphaProof和AlphaGeometry 2达到2024年国际数学奥林匹克竞赛银牌水平[8] 技术挑战与发展方向 - 需解决自然语言数学表述验证缓慢且不精确的问题 尤其在科研级难度问题上表现突出[9] - 需搭建高效推理框架模仿顶级数学家工作流和思维习惯 推动数学数字化进程[9] - 必须构建严格精确的形式化语言系统 创建专门的"数学推理模拟器"提升AI验证和训练效率[9] - 需推动高质量数学专用语料库建设 吸引更多数学学者参与AI+数学应用推广[10] 行业影响与未来展望 - AI与数学结合本质是"认知增强" 打破人类思维限制 支持多尺度高维度复杂问题处理[5] - 当前AI更适用于"单点突破"式研究 未来需通过大语言模型技术发展系统化通用解决方案[7][8] - AI将使数学家专注于更具创造性和价值的研究 推动数学进入更丰富更有洞察力的时代[10]
美版“梁文锋”不信邪
虎嗅APP· 2025-07-31 17:50
核心观点 - Harmonic是一家专注于解决AI幻觉问题的初创公司,其产品Aristotle在数学推理领域实现了零幻觉,通过形式化验证手段确保输出准确性 [5][6][21] - 公司成立仅两年估值接近9亿美元,吸引了红杉资本、凯鹏华盈等顶级投资机构近2亿美元投资 [7][30][34] - 技术核心是基于Lean的交互式定理证明系统,通过严格逻辑约束确保数学推理的准确性 [36][38] - 在MiniF2F测试中达到90%成功率,远超GPT-4等通用AI模型的20-35% [41][42] - 面临DeepSeek、谷歌DeepMind等强劲竞争对手,后者在数学AI领域已有显著成果 [43][46][47] 公司背景 - 由Vlad Tenev和Tudor Achim联合创立,前者是Robinhood CEO(公司估值55亿美元),后者有自动驾驶AI算法开发经验 [9][10][14] - 创始团队具备数学天赋和AI经验,初期使用个人资金启动研发 [11][15] - 公司理念是让AI"会思考、讲真话",通过严格逻辑约束避免无根据回答 [15] 产品与技术 - Aristotle是首个可进行推理并正式验证的AI产品,在定量推理领域保证零幻觉 [5][21] - 通过Lean证明系统实现:每一步推导需系统认可,错误结论会被立即拒绝 [21][38] - 解决了三大问题:幻觉、推理不清晰、不够严谨,适合金融、医疗等高风险场景 [21] - 在MiniF2F测试集(488道数学题)中创下90%成功率的新纪录 [22][41] - 能自动生成严格数学证明,如2001年国际数学奥林匹克难题 [22][23] 融资与估值 - 种子轮由创始人个人和天使投资人提供 [29] - 2024年9月A轮融资7500万美元,估值3.25亿美元 [30] - 2025年7月B轮融资1亿美元,估值接近9亿美元 [30] - 投资方包括红杉资本、Index Ventures、Kleiner Perkins等顶级机构 [34] 行业竞争 - DeepSeek的Prover-V2模型在MiniF2F测试中达到88.9%通过率 [43] - 谷歌DeepMind的AlphaProof在2024年IMO中获得银牌(6题解出4题) [46] - OpenAI新模型在IMO2025斩获金牌(6题解出5道) [49] - 竞争对手普遍拥有大模型生态支持,如DeepSeek-V3、Gemini等 [51] 市场定位 - 瞄准B端精密场景(金融建模、科学推理等)对极低容错率的需求 [19] - 计划发布企业API和消费者网络应用 [24] - 可能选择被大厂收购作为退出路径,成为基础模型技术生态的一环 [51]
全球首个IMO金牌AI诞生!谷歌Gemini碾碎奥数神话,拿下35分震惊裁判
首席商业评论· 2025-07-23 12:02
谷歌DeepMind在IMO竞赛中的突破 - 谷歌DeepMind的Gemini Deep Think模型在IMO竞赛中破解5道题,获得35分(满分42分),达到金牌标准[3][4][21] - 该模型在4.5小时内完成解题,使用纯自然语言(英语)进行端到端推理,无需形式语言翻译[5][25] - 这是首个获得IMO组委会官方认证的金牌级别AI系统[6][7] IMO竞赛背景与AI参与情况 - IMO是数学界最高级别竞赛,每年吸引全球顶尖学生参与,需在4.5小时内解决6道深度数学问题[10][11] - 只有前8%的选手能获得金牌[12] - 2024年AlphaProof和AlphaGeometry 2破解4题获28分,达到银牌水平[16][18] Gemini Deep Think的技术创新 - 采用增强推理模式Deep Think,结合并行思考技术同时探索多种解题路径[29][30] - 通过新颖的强化学习训练,利用多步推理、问题解决和定理证明数据提升能力[31] - 团队提供高质量解决方案集和IMO解题技巧,优化模型表现[33] 解题过程与数学方法 - 第一题解析几何:通过设定引理和定理,证明阳光线数量只能是0、1或3条[37][41][42] - 第二题平面几何:分五步证明,包括确定旁心、求角度、引入辅助点等[44] - 第三题函数分析:通过分类和上下界证明确定最小实数常数c=4[47][50][51] - 第四题数论:通过五步分析确定序列起始值的限制条件[54][55][56][58] - 第五题组合博弈:通过离散化策略和蓄力策略分析胜负条件[64][65] 团队与技术负责人 - 项目由Thang Luong领导,他是Google DeepMind高级主任研究员,斯坦福大学博士[71][72] - Thang Luong在机器翻译、语言模型和视觉模型领域有开创性贡献,曾开发AlphaGeometry项目[72][73] 行业影响与未来展望 - 该突破显示AI在数学推理领域的重大进展,结合自然语言与严谨推理能力[76][77] - 谷歌认为这类AI将成为数学家、科学家和工程师的重要工具[77] - 该技术方向被视为通往AGI道路上的重要里程碑[78] OpenAI与谷歌的对比 - OpenAI此前宣称获得IMO金牌但未经官方认证,谷歌结果获得IMO官方认可[6][81] - OpenAI模型未使用形式语言但依赖外部评委评分,谷歌采用端到端自然语言推理[25][88] - 两家公司在方法上各有侧重,但谷歌的官方认证结果更具权威性[95]
“深层思维”宣布人工智能测试得分达国际数学奥赛金牌水平
新华社· 2025-07-22 15:30
人工智能模型性能突破 - 谷歌旗下"深层思维"公司高级版"双子座"模型在国际数学奥林匹克竞赛(IMO)测试中获35分(总分42分),达到金牌水平[1] - 模型成功解答2025年竞赛6道题目中的5道,解题方案获官方认证且被评价为"清晰、精确"[1] - 相比2024年AlphaProof与AlphaGeometry 2组合28分(银牌水平)的表现,得分提升25%[2] 技术实现进展 - 高级版"双子座"直接根据自然语言描述解题,无需人工翻译为计算机语言,突破去年技术限制[2] - "深度思考"模式采用并行思维技术,可同时探索多种解决方案路径而非单一线性思路[2] - 解题时间从去年2-3天缩短至竞赛标准时限(4.5小时/天×2天),实现与人类选手同等条件[2] 行业应用验证 - IMO竞赛成为衡量AI解决复杂数学问题能力的权威标准,涉及代数/组合数学/几何/数论四大领域[1] - 官方评分员确认AI解题方案"大多数易于理解",表明技术已具备可解释性[1] - 公司公开全部解题方案,为行业提供可验证的技术基准[1]
全球首个IMO金牌AI诞生!谷歌Gemini碾碎奥数神话,拿下35分震惊裁判
猿大侠· 2025-07-22 11:33
核心观点 - 谷歌DeepMind的Gemini Deep Think模型在IMO竞赛中以自然语言方式破解5道题,获得35分(满分42分),达到金牌标准[3][4][22] - 该成绩获得IMO组委会官方认证,成为首个获此认可的AI系统[6][7][24] - 模型突破在于完全使用自然语言端到端推理,无需形式语言翻译,且在4.5小时比赛时限内完成[26][29] - 相比2024年AlphaProof和AlphaGeometry 2解决4题获28分(银牌)的表现有显著提升[17][19] - 技术核心是Deep Think增强推理模式,结合并行思考技术和强化学习训练[32][33][35] 技术实现 - 采用并行思考技术,同时探索多种解题路径并整合最优答案[33][34] - 通过新颖的强化学习训练,利用多步推理和定理证明数据提升能力[35] - 提供高质量数学问题解决方案集和IMO解题技巧作为知识库[42] - 模型即将向数学家测试者和Google AI Ultra订阅者开放[39] 解题案例 - 第一题(解析几何):通过设定引理和分类讨论,证明阳光线数量只能是0、1或3条[44][45][52] - 第二题(平面几何):分五步证明,包括确定旁心位置和引入辅助点性质[54][55][59] - 第三题(函数):通过上界证明c≤4和下界证明c≥4确定最小实数常数为4[65][66][67] - 第四题(数论):用五步证明序列性质,包括偶数性分析和动态行为研究[73][74][78] - 第五题(组合博弈):通过离散化策略和蓄力战术,确定Alice与Bazza的必胜条件区间[84][85][86] 行业影响 - IMO成为AI能力试炼场,数学推理能力接近顶尖人类水平[16][19] - 自然语言与形式化推理结合的AI将成为科研人员重要工具[105] - 谷歌与OpenAI的竞争凸显技术路线差异:官方认证vs自评结果[108][109][129] - OpenAI被质疑未获官方认证且提前公布结果,影响行业声誉[109][112][130] 团队背景 - 项目由Thang Luong领导,他是机器翻译深度学习先驱和注意力机制发明者[95][96][97] - 团队曾开发AlphaGeometry、LaMDA、Bard等知名项目[98]
清华学霸与AI比做高考压轴题,谁会赢?
第一财经· 2025-05-27 19:17
AI大模型理科能力提升 - 清华姚班学生与AI比赛做高考压轴题,姚班学生10分钟内完成作答且仅1人做错,AI答疑笔在几秒内输出步骤并答对题目 [2] - 姚班学生认为AI解题思路与其一致且步骤更清晰,更利于学生理解 [2] - 去年9家大模型尝试河南高考卷,4家文科达一本线但无一家理科达线,今年AI理科能力显著提升 [3] 教育场景AI应用进展 - 有道负责人表示AI推理模型(如DeepSeek-R1)爆发式发展,在教育场景适配性高,可解决个性化教学和答疑需求 [4] - AI挑战北京高考二模新题获697分(总分750分),达"清北"水平,去年同类测试中理科几乎全军覆没 [4] - 2023-2027年在线教育市场AI贡献率预计从7%提升至16% [6] 大模型数学能力突破 - OpenAI o3-mini在FrontierMath基准测试中首次尝试解决超32%问题,包括28%挑战性(T3)问题 [4] - 谷歌AlphaProof和AlphaGeometry 2解决2024年IMO六题中的四题,达银牌得主水平 [5] - 阿里巴巴Qwen3在奥数水平AIME25测评中获81.5分,刷新开源纪录 [6]