transformer模型
搜索文档
Nature公开谷歌IMO金牌模型技术细节!核心团队仅10人,一年给AI编出8000万道数学题训练
创业邦· 2025-11-14 18:24
核心观点 - 谷歌DeepMind公开了其数学奥林匹克竞赛金牌模型AlphaProof的完整技术细节,该模型通过将数学证明构建为强化学习游戏并采用创新的训练方法,在2024年IMO中取得突破性成绩[2][4][5] 技术架构与训练方法 - 核心思路是将数学证明过程构建为可训练的强化学习游戏,基于Lean定理证明器创建环境,每个数学命题是一个游戏关卡[7] - 模型采用30亿参数的编码器-解码器transformer架构作为核心证明网络,同时输出策略建议和完成证明的步数估计[8] - 搜索算法受AlphaZero启发但做了关键改进,引入AND-OR树结构处理多个独立子目标,并加入渐进采样机制[9] - 预训练使用了约3000亿个token的代码和数学文本,微调使用了Mathlib库中约30万个人工编写的证明[9] - 通过基于Gemini 1.5 Pro开发的翻译系统,将约100万道自然语言数学题转换成约8000万道形式化问题,极大扩充了训练数据[10] - 主训练阶段消耗了约8万TPU天的计算资源,通过主强化学习循环和测试时强化学习循环协同工作[10][13] 团队与开发过程 - 团队规模较小,大部分时间约10人,临近IMO比赛时才有更多人加入[4] - 核心突破来自IMO金牌得主Miklós Horváth提出的方法,即创建问题变体作为初始状态进行训练[4] - 团队在一年中探索了多种研究思路,失败的经验与成功的经验最终都被整合进AlphaProof系统[5] IMO表现与测试时强化学习 - 在2024年IMO上成功解决了代数和数论的三道题,包括最难的P6题,该题609名参赛选手中仅5人完全解出[15] - 关键机制是测试时强化学习,针对每道难题生成约40万个相关变体,专门训练“专家”模型来攻克原题[13][15] - 每道题的TTRL过程需要2-3天计算时间,最终成绩达到金牌水平[15][16] 能力评估与行业应用前景 - 系统已向科学界开放,数学家试用反馈显示其特别擅长找出反例,能帮助快速调整和修正数学陈述[20] - 在处理Mathlib已有概念的数学子领域表现出色,但在面对充满“定制化定义”的全新概念时存在瓶颈[20] - 面临的行业挑战包括对持续演进的Lean定理证明器的依赖,以及数学题数据的有限性,未来需拓展问题自动生成能力[20] - 该方法展示了AI在封闭数学系统中共享知识并生成训练数据的潜力,预示其在数学领域可能超越人类[20]
泰信基金张海涛:量化策略长期业绩得益于丰富的数据源、因子库以及模型持续迭代
中证网· 2025-08-07 22:28
量化投资策略表现 - 今年以来量价类因子整体表现较好 基本面因子中成长类因子相对表现较好 [1] 量化策略长期业绩依赖要素 - 丰富的数据源包括传统财报数据、行情数据以及非传统数据如社交媒体情绪、供应链、招聘数据等 这些数据可转化为前瞻性投资信号 [1] - 供应链数据(如供应商、客户集中度)可识别新能源产业链隐性壁垒 招聘数据(如BOSS直聘、猎聘)可预判企业扩张节奏(如AI人才需求激增) 短视频观看点击量可检查新消费品受欢迎程度 [1] - 丰富因子库可分散收益源并提升抗周期能力 需定期淘汰旧因子并引入新因子 包括强经济逻辑支撑因子和算法挖掘因子 [1] 模型迭代与新技术应用 - 需持续迭代模型并对新技术持开放态度 近年来AI技术在量化投资流程中应用广泛 [2] - AI技术应用包括引入新技术、提高因子开发效率及构建更强预测信号 如用大模型分析文本数据或用transformer等模型做端到端因子挖掘 [2]