Workflow
形式化数学推理
icon
搜索文档
字节Seed发布最强数学模型:一招“打草稿”,IMO银牌变金牌
量子位· 2025-12-25 14:08
核心观点 - 字节跳动旗下Seed AI4Math团队发布数学推理专用模型Seed Prover 1.5,在Scaling Law和强化学习加持下,其数学推理能力达到国际顶尖水平,在IMO竞赛中取得金牌成绩,并在多项基准测试中刷新SOTA记录 [1][4][5][6] 模型性能与成就 - Seed Prover 1.5在16.5小时内解决了IMO 2025的前5道题目,仅失一题,获得35分,达到今年IMO金牌线 [1] - 该成绩与谷歌Gemini的IMO金牌成绩持平,并大幅超越了其前代模型(前代模型耗时3天完成4道题及一道题的部分证明,仅获银牌成绩)[3] - 模型在北美本科级别数学竞赛Putnam基准上,大幅刷新了SOTA成绩 [4] 技术架构与创新 - 模型采用“Agentic Prover”架构,这是一种新的形式化数学推理范式,将Lean等形式语言视为工具,允许模型在证明过程中自主调用多种工具进行交互和验证 [12][13][14] - 核心创新之一是引入了“Sketch Model”,它模拟人类数学家的工作方式,先将自然语言证明转化为非形式化的逻辑草稿和引理结构,从而将复杂问题拆解为更易解决的子目标 [14][22][23] - 工作流采用分层级的多智能体协作系统:Natural Language Prover提供高层数学直觉,Sketch Model转化为形式化引理结构,Agentic Prover并行攻克各个引理 [37] - 模型采用基于引理的交互式证明方式,既非低效的逐步证明,也非高风险的一次性完整证明,提升了推理的并行度和成功率 [15][17] 训练方法与效率提升 - 模型进行了大规模的Agentic强化学习训练,随着训练步数增加,模型在训练集上的证明通过率从初始的50%提升至接近90% [18][19] - 强化学习带来了显著的效率提升,Seed Prover 1.5仅需少量计算资源,就能在Putnam等高难度数据集上击败消耗大量算力的上一代模型 [19] - 实验数据对比显示,在Putnam数据集上,Seed-Prover 1.5(agentic prover only)以特定的测试配置(pass@8 × 8)取得了57/100的成绩,优于前代模型(35/100)及其他竞品 [20] - 研究验证了测试时Scaling的有效性,即投入更多计算资源(测试时)能显著提高解题率,且解决率随计算资源投入呈对数线性增长 [5][28][29] 模型规格与背景 - Seed Prover 1.5的参数规模为230B总参数,23B激活参数,与其基础模型Seed 1.6相同 [8] - 该研究团队为字节跳动Seed AI4Math团队,核心成员包括来自清华大学、牛津大学、卡内基梅隆大学等背景的研究人员 [30][32][33][34]
字节推出形式化数学推理专用模型SeedProver1.5
财经网· 2025-12-24 15:03
公司动态 - 字节跳动Seed团队于12月24日宣布推出新一代形式化数学推理专用模型Seed Prover1.5 [1] - 该模型通过大规模的Agentic RL训练,其推理能力和推理效率宣称取得显著进步 [1] - Seed Prover1.5的技术报告已对外公开,后续将开放API [1] 产品与技术 - 公司推出的是形式化数学推理专用模型,属于人工智能在特定垂直领域的应用 [1] - 模型训练采用了Agentic RL(强化学习)方法,表明公司在AI训练技术路径上的探索 [1] - 模型迭代至1.5版本,表明该产品线处于持续开发和优化阶段 [1]
字节跳动Seed团队推出形式化数学推理专用模型Seed Prover 1.5
智通财经网· 2025-12-24 14:16
公司技术发布 - 字节跳动Seed团队于12月24日宣布推出形式化数学推理专用模型Seed Prover 1.5 [1] - 该模型通过大规模的Agentic RL训练,在推理能力和推理效率上宣称取得显著进步 [1] - 公司已对外公开Seed Prover 1.5的技术报告,后续将开放API供数学和AI研究者体验 [1] 模型性能表现 - 在IMO 2025前5道题目上,模型在16.5小时内生成完整可编译验证的Lean证明代码,换算成绩为35/42,达到金牌分数线 [1] - 针对Putnam 2025赛题,模型用时9小时,对12道题中的11道生成了可编译验证的Lean代码 [1] - 在完整的Putnam历史评估集上,模型解决了88%的问题 [1] - 在代表硕士数学难度的Fate-H评估集上,模型解决了80%的问题 [1] - 在代表博士生数学难度的Fate-X评估集上,模型解决了33%的问题 [1] - 模型在上述评测集上刷新了形式化数学推理模型的SOTA表现 [1]
达到金牌分数线:字节跳动推出新一代数学推理专用模型Seed Prover 1.5
凤凰网· 2025-12-24 12:34
公司技术进展 - 字节跳动Seed团队推出新一代形式化数学推理模型Seed Prover 1.5 [1] - 该模型基于大规模智能体强化学习训练,在数学竞赛题的形式化证明能力上有所提升 [1] 模型性能表现 - 在IMO 2025的前5道题目上,模型于16.5小时内生成了完整可编译验证的Lean证明代码,换算成绩达到此前金牌分数线 [1] - 在Putnam 2025的12道赛题中,模型用时9小时对其中11道生成了可验证代码 [1] - 在Putnam历史评估集上,该模型解决了88%的问题 [1] 当前能力与未来计划 - 当前模型仍主要面向“规则清晰、背景封闭”的竞赛题目,与前沿数学研究所需的长链条、文献依赖推理尚有距离 [1] - 技术报告已公开,后续将开放API供研究者体验 [1]
字节推出形式化数学推理专用模型Seed Prover 1.5
新浪财经· 2025-12-24 12:23
公司动态 - 字节跳动Seed团队于12月24日宣布推出形式化数学推理专用模型Seed Prover 1.5 [1] - 相比上一代模型,Seed Prover 1.5在16.5小时内针对IMO 2025的前5道题目生成了完整可编译验证的Lean证明代码 [1] - 该模型换算成绩为35/42,达到此前国际数学奥林匹克竞赛评分标准的金牌分数线 [1] - 公司已对外公开Seed Prover 1.5的技术报告 [1] - 后续将开放API,邀请感兴趣的数学和AI研究者体验该模型 [1] 技术进展 - 新发布的Seed Prover 1.5是形式化数学推理专用模型 [1] - 模型在解决国际数学奥林匹克竞赛级别问题上展现出强大能力,成绩达到金牌标准 [1]
北大华为联队夺冠:形式化数学竞赛33支队伍角逐,国产大模型啃下形式化证明硬骨头
量子位· 2025-12-20 14:30
赛事与成果概述 - 中国计算机学会主办的“面向大模型的形式化数学竞赛”旨在解决大模型在数学推理中的“幻觉”和不可靠问题[2] - 赛事吸引了来自全球的33支顶尖团队参与,参赛人数超过600人[2][6] - 一支名为“Lean说的都队”的北大华为联合队伍以总分57.21分获得冠军,从33支队伍中脱颖而出[1][6] 竞赛任务与意义 - 竞赛要求模型将自然语言描述的数学问题直接转化为能被计算机验证的形式化证明代码,禁止使用自然语言解释[4] - 赛题是对大模型形式化推理能力的系统性检验,为未来构建可信赖的大模型提供技术路径和评估基准[6] 冠军团队成绩 - 初赛阶段:正确解答181道题目(共220道),初赛分数82.27分[6] - 决赛阶段:正确解答5道高难度题目(共50道),决赛分数10分[6] - 方案评审:技术方案获得87分的高分[6] - 最终总分:57.21分,位列榜首[6] 核心技术:openPangu大模型 - 团队采用华为openPangu-Ultra-MoE-718B作为核心模型之一,总参数量达7180亿,激活参数量390亿[9] - 该模型在形式化数学推理任务中展现出强大的语义理解能力和形式化表达能力,尤其在数论和代数问题上性能强劲[9] - 实测表明,该模型在Lean语法检查通过率方面与国际前沿的Gemini 2.5 Pro和GPT-5模型表现相当,在形式化命题的可证明命题比例方面更具优势[10] 创新的混合式系统架构 - 系统采用协同式求解系统,结合大模型的形式推理能力与专用证明器的高效性[7] - 核心特点包括动态切换策略:先尝试流水线方法,失败则回退到单体模型方法[13] - 建立了多层质量检查体系,包括语法验证和严格的语义对齐检查[14] - 采用多模型协同,根据模型的知识边界和成本效率进行智能调度[14] 关键技术创新:语义分解验证 - 团队创新性地引入了基于语义分解的多层级验证机制,将自然语言问题解构为数据类型、前提条件和证明目标三个正交维度[16] - 该方法解决了传统LLM-as-a-Judge方法“判定过松”的问题,实现了从整体模糊匹配到结构化精确对齐的范式转变[16][17] - 相比传统方法,这一改进显著降低了误判率,为形式化结果的可靠性提供了保障[19] 技术应用与实战案例 - 案例一(抽象代数):成功处理环的整扩张与幂零根相关的命题,生成了严谨的Lean代码[20] - 案例二(复数计算):成功处理求满足复数方程实数个数的问题,展示了拆解子问题与生成完整证明的能力[22] 当前局限与未来展望 - 现有证明器主要在高中竞赛题目上训练,对微积分、代数几何等高度专业化数学分支的掌握仍显不足[23] - 单题平均约1小时的求解时间限制了在时间敏感场景下的应用[23] - 未来建议通过主动学习构建专门化证明器,探索动态采样策略,并关注人机协作的交互式证明模式[23] 行业影响与意义 - 此次突破为中国在AI形式化推理领域赢得了荣誉,为攻克严谨数学证明这一“最后堡垒”提供了可行的技术路线[31] - 随着openPangu等国产大模型的持续进化,AI有望在数学研究、科学发现、教育辅助和软件验证等领域扮演更重要角色[31]
这才是IMO奥赛战神:满分,5战3金,刚被MIT录取
机器之心· 2025-07-23 18:36
AI在IMO竞赛的表现 - 字节跳动Seed团队的形式化数学推理专用模型Seed Prover在IMO竞赛中解决了6道题目中的4道以及一道题的部分证明,成绩为30分,达到银牌分数[4] - 该成绩获得IMO官方认证,展示了AI在复杂数学问题解决方面的能力[4] 人类选手Warren Bei的卓越表现 - Warren Bei以满分42/42的成绩成为2025年IMO五位满分选手之一,这一成绩在全球范围内极其罕见[5][6] - 作为加拿大队唯一的满分选手,Warren Bei的排名为全球并列第1名[7] - 他在过去五年IMO比赛中获得三金两银,展示了持续卓越的数学能力[9][15] Warren Bei的学术背景与成就 - Warren Bei不仅在数学领域表现出色,还在2023年国际信息学奥林匹克(IOI)中获得银牌[9] - 他于2025年获得麻省理工学院(MIT)提前录取,这是对其学术潜力的认可[10][11] - 他在2021年以初中生身份获得加拿大数学奥林匹克(CMO)冠军,成为史上最年轻获奖者之一[16] - 2023-2025年期间,他连续四次获得CMO冠军,包括2025年以35分制中的27分夺冠[17] Warren Bei的学术理念与方法 - 他强调数学竞赛的乐趣在于解决问题的过程而非奖项本身[18] - 他认为困难是暂时的,关键在于依靠直觉生成想法并持续尝试[19] - 他建议年轻选手寻找解法背后的深层洞察,而非追求表面答案[21]
挑战AI数学推理极限!大规模形式化数学基准FormalMATH发布,最强模型成功率仅16%
量子位· 2025-05-07 17:33
FormalMATH基准测试 - 香港中文大学、西湖大学、MAP、浙江大学、马克斯·普朗克智能系统研究所等机构联合推出FormalMATH形式化数学推理基准测试,包含5560道经过严格验证的数学题,覆盖从奥数到大学水平的代数、微积分、数论等领域[1] - FormalMATH基准测试首次系统性评估当前LLM驱动的定理证明器的真实水平,结果显示表现最佳的模型Kimina-Prover成功率仅为16.46%[3] - FormalMATH包含5560个经过Lean4编译器验证的数学命题,涵盖12个子领域,规模是经典基准MiniF2F的22.8倍[5] 构建创新 - 研究团队提出"三阶段过滤"框架解决传统形式化数据依赖专家手动标注的瓶颈:多LLM协同翻译、自动化验证、否定反证过滤,该流程在人工审核前保留了72.09%的高质量命题[7][9] - 团队召集12名人类奥赛金牌级别的专家花费22天检测自然语言数学命题与Lean4形式化命题之间的语义一致性[9] LLM表现分析 - 主流LLM证明器在FormalMATH全量数据集上表现远低于预期,最佳模型Kimina-Prover成功率16.46%,次优模型STP成功率13.87%[10][15] - 现有模型在代数等领域表现较好,但在微积分等其他领域表现接近随机猜测,显示出明显领域偏差[11][12] - LLM证明器频繁滥用自动化策略,导致冗余假设(34%)、不完整证明(62%)、自动化策略误用(65.0%)、无法正确应对不等式(13.0%)等典型错误[16] 技术瓶颈与突破方向 - 自然语言引导可能反拖后腿,例如DeepSeek-V1.5-RL模型在普通CoT提示时表现优于引入人为自然语言引导的情况[17] - 未来提升LLM形式化推理能力需从三方面突破:强化多步规划、跨领域泛化、人机协同验证[19] 开源与行业影响 - FormalMATH基准测试的代码、训练数据及评估模型已向公众开放,研究团队呼吁学术界与工业界共同推进形式化数学推理技术发展[20][21]
AI的下一个风口?听前DeepSeek成员辛华剑解读数学推理 | Deep Talk
锦秋集· 2025-05-03 16:51
DeepSeek-Prover-V2-671B模型发布 - 公司发布专注于形式化数学推理的开源大型语言模型DeepSeek-Prover-V2-671B,参数量达6710亿 [1] - 该模型结合LLM泛化能力与形式化工具(如Lean),首次实现自然语言描述到机器可验证证明的大规模端到端转化 [2] - 形式化数学被视为AI"终极挑战",突破可能将数学研究效率提升数倍,并打开金融建模、芯片验证、密码学等高价值商业场景 [2] 大模型开发者活动 - DeepSeek前成员辛华剑将参与"大模型开发者与AI基金合伙人跨洋对谈",分享《大语言模型时代的形式化数学革命》 [2] - 辛华剑为DeepSeek-Prover系列模型开发主导者,现任爱丁堡大学AI博士生及字节跳动研究实习生,专注大模型在数学定理证明的创新应用 [2][4] - 锦秋基金合伙人臧天宇将同期分享2025年AI创投趋势 [3][4] 活动主办方背景 - 锦秋基金专注AI领域投资,在管基金为12年长期基金,59%项目为首次投资,采取多轮追加策略,已投资北美活跃AI基金 [6] - 剑桥中国人工智能协会(CCAIA)致力于链接中国AI产业与海外学界,采用轻量化社群模式促进中英资源流动 [7] - 清华大学学生通用人工智能研究会(THUAGI)以培养下一代通用AI人才为目标,依托清华AI研究院资源 [9] - 清华大学学生创业协会成立于1997年,为全国最早高校创业协会之一,28年来聚焦创业生态培育 [10] 活动流程 - 英国时间15:00/中国时间22:00开始辛华剑主题演讲,随后臧天宇分享AI创投趋势 [8] - 活动含圆桌对谈及观众提问环节,国内通过腾讯会议直播,需通过锦秋基金公众号报名 [5][6][8]