Nature公开谷歌IMO金牌模型技术细节!核心团队仅10人,一年给AI编出8000万道数学题训练
创业邦·2025-11-14 18:24

核心观点 - 谷歌DeepMind公开了其数学奥林匹克竞赛金牌模型AlphaProof的完整技术细节,该模型通过将数学证明构建为强化学习游戏并采用创新的训练方法,在2024年IMO中取得突破性成绩[2][4][5] 技术架构与训练方法 - 核心思路是将数学证明过程构建为可训练的强化学习游戏,基于Lean定理证明器创建环境,每个数学命题是一个游戏关卡[7] - 模型采用30亿参数的编码器-解码器transformer架构作为核心证明网络,同时输出策略建议和完成证明的步数估计[8] - 搜索算法受AlphaZero启发但做了关键改进,引入AND-OR树结构处理多个独立子目标,并加入渐进采样机制[9] - 预训练使用了约3000亿个token的代码和数学文本,微调使用了Mathlib库中约30万个人工编写的证明[9] - 通过基于Gemini 1.5 Pro开发的翻译系统,将约100万道自然语言数学题转换成约8000万道形式化问题,极大扩充了训练数据[10] - 主训练阶段消耗了约8万TPU天的计算资源,通过主强化学习循环和测试时强化学习循环协同工作[10][13] 团队与开发过程 - 团队规模较小,大部分时间约10人,临近IMO比赛时才有更多人加入[4] - 核心突破来自IMO金牌得主Miklós Horváth提出的方法,即创建问题变体作为初始状态进行训练[4] - 团队在一年中探索了多种研究思路,失败的经验与成功的经验最终都被整合进AlphaProof系统[5] IMO表现与测试时强化学习 - 在2024年IMO上成功解决了代数和数论的三道题,包括最难的P6题,该题609名参赛选手中仅5人完全解出[15] - 关键机制是测试时强化学习,针对每道难题生成约40万个相关变体,专门训练“专家”模型来攻克原题[13][15] - 每道题的TTRL过程需要2-3天计算时间,最终成绩达到金牌水平[15][16] 能力评估与行业应用前景 - 系统已向科学界开放,数学家试用反馈显示其特别擅长找出反例,能帮助快速调整和修正数学陈述[20] - 在处理Mathlib已有概念的数学子领域表现出色,但在面对充满“定制化定义”的全新概念时存在瓶颈[20] - 面临的行业挑战包括对持续演进的Lean定理证明器的依赖,以及数学题数据的有限性,未来需拓展问题自动生成能力[20] - 该方法展示了AI在封闭数学系统中共享知识并生成训练数据的潜力,预示其在数学领域可能超越人类[20]