Workflow
AlphaProof
icon
搜索文档
AI for Science,走到哪一步了?
36氪· 2025-12-03 17:15
科学智能技术演进与谷歌DeepMind引领作用 - 谷歌DeepMind凭借以TPU为核心的AI算力基础设施和以Gemini为基础的大模型底座,持续深耕科学智能技术超过十年,引领全球技术演进[4] - AlphaFold标志着蛋白质结构预测问题的实质性解决,不仅斩获2024年诺贝尔化学奖,更成为现代生物学的数字基础设施[4] - AlphaProteo推动生物学研究正式跨入生成式生物学时代,结合AlphaMissense精准预测基因突变致病性,打通"靶点发现—结构解析—药物设计"全链路[4] - WeatherNext 2模型在99.9%的预测变量与时间跨度上准确率均优于欧洲中期天气预报中心的HRES系统,且推理速度提升了数个数量级[5] - GNoME预测了数百万种稳定的新材料结构,规模相当于人类过去几十年实验发现总和的数倍,为电池技术与超导材料研发提供庞大候选库[5] - AlphaEvolve引入进化计算范式,自动搜索发现更高效的机器学习算法与损失函数,实现从"人工设计"到"自动发现"的元层级跨越[6] 生物学领域科学智能突破 - 谷歌和耶鲁大学联合发布270亿参数单细胞分析基础模型C2S-Scale,生成关于癌细胞行为的全新假设并在体外实验中得到验证[8] - 微软BioEmu模型在蛋白质动力学模拟方面实现高达10万倍的模拟速度提升,中科院团队提出整合结构和进化约束的反向折叠蛋白质预测模型[9] - 谷歌通过10年持续研发构建了从基因测序、读取到疾病基因检测和诊断的AI基因组学研究和应用体系[9] - 腾讯DeepGEM病理大模型只需常规病例切片图像即可在1分钟内完成肺癌基因突变预测,精准度达78%至99%[10] - 谷歌发布DeepSomatic工具集用于肿瘤细胞基因变异识别,适用于白血病、乳腺癌、肺癌等癌症类型[10] - AI优化候选药物MTS-004已完成III期临床研究,成为国内首款完成III期临床的AI赋能制剂新药,突破过去几年AI驱动药物发现鲜有突破临床II期的瓶颈[10] 多学科科学智能应用拓展 - Periodic Labs开展新型超导材料等AI自动化发现,CuspAI获1亿美元A轮融资研发AI平台用于发现碳捕获新材料[11] - DeepMind飓风AI模型成功预测"梅利莎"等超强飓风路径和强度变化,黑洞理论物理学家利用GPT-5在半小时内推导出黑洞理论新特性[11] - 数学研究人员利用GPT5探索解决历史数学难题埃尔德什难题,英伟达开源模型系统GenCluster获得IOI 2025竞赛金奖[12] - OpenAI内部模型、Gemini Deep Think和DeepSeek Math-V2等大模型不断刷新AI在奥林匹克数学竞赛的金奖成绩[12] 科学智能科研范式重构 - 通用基础大模型成为科学智能的"操作系统",提供强大理解、推理、分析及生成能力,帮助科研人员大幅提升日常科研效率[14] - 科研专用大模型作为垂直科研领域的"专用引擎",融合特定领域相关知识以及研究方法与经验,谷歌在此方面综合实力处于全球领先[14] - AI智能体从被动工具转变为科学家的合作者甚至主动发现者,ToolUniverse平台包含超过600个科学工具并兼容主流基础大模型[15] - AlphaEvolve是具有编码能力的进化型AI智能体,可进行数学和计算通用算法的主动发现和自动化优化,已应用于谷歌内部实际场景[15] 自主实验室平台化发展 - MIT等美国多家科研高校和国家实验室已建成自主实验室,英国利物浦大学的材料创新工厂是欧洲最先进的自主实验室之一[16] - 美国《创世使命》计划将科研算力、AI基础模型、数据集及自主实验室体系集成为科学与安全平台,作为科研智能基础设施[16] - 晶泰科技的AI+机器人平台已成为核心竞争力,中科院"ChemBrain智能体+ChemBody机器人"和北京科学智能研究院Uni-Lab-OS加速推动国内自主实验室研发[17] - 磐石·科学基础大模型实现对数据和模型等资源的管理及科研工具调度,已在生命科学、高能物理和力学研究领域进行应用[17]
Nature公开谷歌IMO金牌模型技术细节!核心团队仅10人,一年给AI编出8000万道数学题训练
创业邦· 2025-11-14 18:24
核心观点 - 谷歌DeepMind公开了其数学奥林匹克竞赛金牌模型AlphaProof的完整技术细节,该模型通过将数学证明构建为强化学习游戏并采用创新的训练方法,在2024年IMO中取得突破性成绩[2][4][5] 技术架构与训练方法 - 核心思路是将数学证明过程构建为可训练的强化学习游戏,基于Lean定理证明器创建环境,每个数学命题是一个游戏关卡[7] - 模型采用30亿参数的编码器-解码器transformer架构作为核心证明网络,同时输出策略建议和完成证明的步数估计[8] - 搜索算法受AlphaZero启发但做了关键改进,引入AND-OR树结构处理多个独立子目标,并加入渐进采样机制[9] - 预训练使用了约3000亿个token的代码和数学文本,微调使用了Mathlib库中约30万个人工编写的证明[9] - 通过基于Gemini 1.5 Pro开发的翻译系统,将约100万道自然语言数学题转换成约8000万道形式化问题,极大扩充了训练数据[10] - 主训练阶段消耗了约8万TPU天的计算资源,通过主强化学习循环和测试时强化学习循环协同工作[10][13] 团队与开发过程 - 团队规模较小,大部分时间约10人,临近IMO比赛时才有更多人加入[4] - 核心突破来自IMO金牌得主Miklós Horváth提出的方法,即创建问题变体作为初始状态进行训练[4] - 团队在一年中探索了多种研究思路,失败的经验与成功的经验最终都被整合进AlphaProof系统[5] IMO表现与测试时强化学习 - 在2024年IMO上成功解决了代数和数论的三道题,包括最难的P6题,该题609名参赛选手中仅5人完全解出[15] - 关键机制是测试时强化学习,针对每道难题生成约40万个相关变体,专门训练“专家”模型来攻克原题[13][15] - 每道题的TTRL过程需要2-3天计算时间,最终成绩达到金牌水平[15][16] 能力评估与行业应用前景 - 系统已向科学界开放,数学家试用反馈显示其特别擅长找出反例,能帮助快速调整和修正数学陈述[20] - 在处理Mathlib已有概念的数学子领域表现出色,但在面对充满“定制化定义”的全新概念时存在瓶颈[20] - 面临的行业挑战包括对持续演进的Lean定理证明器的依赖,以及数学题数据的有限性,未来需拓展问题自动生成能力[20] - 该方法展示了AI在封闭数学系统中共享知识并生成训练数据的潜力,预示其在数学领域可能超越人类[20]
谷歌DeepMind最新论文,刚刚登上了Nature,揭秘IMO最强数学模型
36氪· 2025-11-13 18:05
核心观点 - 谷歌DeepMind研发的AI系统AlphaProof在国际数学奥林匹克竞赛(IMO)中取得28分(满分42分),达到银牌水平,距离金牌线仅差1分,这是AI首次在此类顶级数学赛事中获得奖牌级成绩 [3][4][18] 技术方法 - AlphaProof结合了预训练大语言模型的直觉和AlphaZero强化学习算法的探索能力,其核心是将AI思维“硬化”成可被计算机逐行检验的形式化证明语言Lean [8][6][7] - 系统首先利用谷歌Gemini模型将近一百万道自然语言数学题翻译成Lean代码,构建了约8000万条形式化数学命题的题库供AI练习 [10] - 训练过程分为两步:先通过监督学习微调掌握基本证明技巧,再进入强化学习阶段,通过类似AlphaGo的自我对弈在数百万次问题证明中不断进步 [10] - 在解题搜索中采用类似蒙特卡罗树搜索的策略,智能拆解复杂问题为子目标,避免了暴力穷举 [11][16][17] 竞赛表现 - AlphaProof与专攻几何的AlphaGeometry 2联手,在2024年IMO的6道题中解出4道,获得28分,处于银牌段顶端 [18] - AlphaProof单独解决了3题(包括2道代数题和1道数论题),其中整场最难的第6题在600多名顶尖学生中仅5人满分解决 [18] - 剩余1道几何题由AlphaGeometry 2完成,而两道组合数学题因难以形式化和搜索爆炸等原因未能攻克 [18] 当前局限 - 解题效率较低:人类选手需在4.5小时内完成3题,而AlphaProof解决3题耗费了将近3天时间 [21] - 通用性不足:未能解决两道组合数学题,这类高度非结构化创新思维的问题仍对AI构成挑战 [21] - 无法自主读题:需要人工先将题目翻译成Lean形式化表达,不具备自然语言理解能力 [21] 未来方向 - 研发方向包括让AI直接阅读理解自然语言表述的数学题,并给出形式化证明 [23] - 针对不同类别数学问题(如组合数学或几何)引入更专业策略,如融合符号计算、知识库或分领域训练模型 [24] - 未来可能实现数学家与AI证明助手协同工作,AI负责快速验证猜想和尝试思路,人类专注于提出问题和宏观构想 [24] - 其形式化推理能力对AI安全和可靠性有启发意义,输出的每一步推理可追溯、验证,有助于减少大模型的荒诞臆测 [25]
Nature公开谷歌IMO金牌模型技术细节,核心团队仅10人,一年给AI编出8000万道数学题训练
36氪· 2025-11-13 17:01
核心技术架构 - 系统基于Lean定理证明器构建强化学习环境,将数学证明过程转化为游戏,通过选择策略推进证明[6] - 采用30亿参数的编码器-解码器transformer模型作为核心证明网络,同时输出策略建议和完成证明所需步数估计[8][9] - 搜索算法采用受AlphaZero启发的树搜索,并引入AND-OR树结构处理多个独立子目标,加入渐进采样机制探索多样证明策略[10] 训练方法与数据 - 预训练使用约3000亿个token的代码和数学文本,随后用Mathlib库中约30万个人工编写证明进行微调[11] - 通过基于Gemini 1.5 Pro的翻译系统,从约100万道自然语言数学题生成约8000万道形式化问题,远超现有数据集[11] - 主强化学习训练阶段消耗约8万TPU天计算资源,通过不断尝试证明自动生成的命题来更新神经网络[11][12] 测试时强化学习机制 - 面对困难目标问题时,变体生成器会围绕该题产生约40万个相关变体,创建小型专用数据集[16] - 变体包含简化特殊情况、推广到更一般形式等数学直觉,系统启动独立AlphaZero式学习过程专门训练[17] - 该机制可并行处理多个目标问题,每个问题都有专属的变体课程和学习进程[17] IMO比赛表现 - 在2024年IMO上成功解决代数和数论的三道题,包括最难的P6题,该题609名参赛者中仅5人完全解出[17][19] - 每道题的测试时强化学习过程需要2-3天计算时间,最终成绩达到金牌水平[17][19][20] - 比赛期间团队规模较小,大部分时间约10人,临近比赛才扩充,核心突破来自IMO金牌得主Miklós Horváth的变体生成方法[3] 应用反馈与局限性 - 数学家试用发现系统擅长找出反例,能快速指出陈述问题,有助于迭代得到正确形式化陈述[23] - 面对充满"定制化定义"的证明时遇到困难,在Lean中已有概念成熟的数学子领域性能更佳[24] - 依赖持续演进的Lean定理证明器造成不稳定环境,且独特数学题数量有限,生成自有问题是未来拓展方向[24]
Nature公开谷歌IMO金牌模型技术细节!核心团队仅10人,一年给AI编出8000万道数学题训练
量子位· 2025-11-13 13:38
核心观点 - 谷歌DeepMind在Nature上完整公开了其数学证明AI系统AlphaProof的技术细节,该系统在2024年国际数学奥林匹克竞赛(IMO)中取得金牌级表现,其核心创新在于将数学证明构建为强化学习游戏,并利用大规模自动生成的问题进行训练[1][8][26] 技术架构与训练方法 - 系统基于Lean定理证明器构建强化学习环境,将数学命题视为游戏关卡,AI通过选择策略推进证明[8][9] - 采用30亿参数的编码器-解码器transformer模型作为证明网络,同时输出策略建议和完成证明的步数估计[12][13] - 搜索算法采用受AlphaZero启发的树搜索,并引入AND-OR树结构处理多个独立子目标,以及渐进采样机制[15] - 预训练使用约3000亿个token的代码和数学文本,微调使用Mathlib库中约30万个人工编写的证明[16] - 通过基于Gemini 1.5 Pro的翻译系统,将约100万道自然语言数学题自动生成为约8000万道形式化问题,极大扩充了训练数据集[16][21] - 主训练阶段消耗约8万TPU天的计算资源[19] 关键创新:测试时强化学习 - 面对IMO级别难题时,系统会为每道题生成约40万个相关变体(如简化版、推广版),并启动独立的AlphaZero式学习过程进行专门训练[23][24][26] - 此TTRL机制使系统能针对特定难题积累洞察,是解决IMO最难题P6的关键,每道题训练需2-3天计算时间[24][26] - 比赛期间,团队最初仅凭部分证明系统判断为铜牌水平,但后台运行的TTRL在三天后陆续完成三个完整证明,最终达到金牌成绩[27][28] 团队与开发过程 - AlphaProof核心团队规模较小,大部分时间仅有约10人,临近IMO比赛时人员增加[3] - 关键突破来自IMO金牌得主Miklós Horváth提出的方法,即创建问题变体作为初始状态供智能体训练[4][5] - 团队在一年内探索多种研究思路,成功部分被整合进最终系统[7] 应用前景与局限性 - 系统已向科学界开放,数学家试用反馈显示其特别擅长找出反例,能在一分钟内证明或反证棘手的引理,有助于迭代修正数学陈述[30][31][32] - 局限性在于处理充满“定制化定义”的全新概念时遇到瓶颈,在Lean证明器策略成熟的数学子领域表现更佳[33][34] - 未来发展面临“数据有限性”挑战,需使AI能自主生成问题以实现通用性,其即时共享知识并生成训练数据的能力预示在数学领域可能远超人类[35][36][37]
国际最新研发一AI系统:能证明复杂数学理论
中国新闻网· 2025-11-13 11:57
核心观点 - 谷歌旗下DeepMind研发的AI系统AlphaProof能够证明复杂的数学理论,并通过自动验证的推理过程克服大语言模型在数学推理正确性验证方面的挑战 [1] - AlphaProof在2024年国际数学奥林匹克竞赛中联合AlphaGeometry系统,解出6个问题中的4个,取得相当于银牌水平的高分 [2] 技术突破 - 研究团队演示了如何让增强学习在正式数学软件环境中工作,从而生成推理过程能被自动验证的证明 [1] - AlphaProof为证明数学命题而设计,在对8000万个命题进行自动形式化后,通过增强学习找出证明方法 [1] - 该系统被证明能提升之前先进AI系统在既往数学竞赛问题上的结果 [1] 应用表现 - 在权威的高中水平数学竞赛中,AlphaProof联合AlphaGeometry系统解出6个竞赛问题中的4个 [2] - 该系统在竞赛级数学推理领域的表现令人惊艳 [2] 发展前景 - 专家指出AlphaProof在求解其他形式难题上还存在一些局限性,建议作为未来的研究方向 [2] - 克服这些局限将使AlphaProof成为一个重要的复杂数学问题解题工具 [2]
陶哲轩敲警钟,谷歌DeepMind联手五大神殿,用AI向世纪难题宣战
36氪· 2025-10-30 12:12
谷歌DeepMind的AI赋能数学计划 - 谷歌DeepMind发起“AI赋能数学计划”,集结全球五大顶尖研究机构,旨在利用AI探索数学新领域[1][2] - 合作机构包括伦敦帝国学院、普林斯顿高等研究院、法国高等科学研究所、西蒙斯计算理论研究所和塔塔基础科学研究所[2] - 计划目标为发掘可借助AI获得突破的数学难题、构建相关基础设施与工具,并最终加速科学发现[6] AI在数学领域的近期技术进展 - 搭载Deep Think的Gemini模型在2024年IMO竞赛中达到金牌水平,完美破解5题拿下35分[11] - AlphaEvolve在数学分析、几何学等领域的50个公开难题上,于20%的题目中取得了最优解[14] - AlphaEvolve发明了全新的矩阵乘法方法,例如在4x4矩阵乘法问题上仅需48次标量乘法,打破了长达50年的历史纪录[14][16] 关于AI在数学研究中应用的讨论与建议 - 陶哲轩发起关于如何最佳融入AI、透明披露其作用并缓解风险的讨论[2][23] - 建议论文中对超出基础功能的AI实质性使用进行明确声明[26] - 建议讨论所用AI工具的一般性风险及已采取的缓解措施,例如应对内容虚构、缺乏可复现性等问题[27][28][29][31][32][33] - 强调论文所有作者必须为AI贡献内容承担最终责任[35]
承认自己开源不行?转型“美国DeepSeek”后,两个谷歌研究员的AI初创公司融到20亿美元,估值暴涨15倍
36氪· 2025-10-10 18:29
公司概况与融资 - AI创业公司Reflection AI由两位前Google DeepMind研究员于2024年3月创立,一年内完成最新一轮融资,筹集20亿美元,公司估值达到80亿美元,较7个月前的5.45亿美元估值暴涨15倍 [1] - 投资方阵容豪华,包括Nvidia、红杉资本、DST、B Capital、Lightspeed、GIC、花旗以及Zoom创始人Eric Yuan、谷歌前CEO Eric Schmidt等 [1] 创始团队与技术背景 - 联合创始人Misha Laskin曾主导DeepMind Gemini项目的奖励建模,另一位联合创始人Ioannis Antonoglou是AlphaGo系统的联合创作者,两人同在Gemini项目团队,分别负责RLHF和奖励模型训练 [2] - 公司已从DeepMind和OpenAI挖来一支顶级团队,成员曾主导或参与PaLM、Gemini、AlphaGo、AlphaCode、AlphaProof、ChatGPT等项目的研发 [4] - 团队核心成员共约60人,主要为AI研究员和工程师,涉及基础设施、数据训练和算法开发等领域 [5] 产品战略与发展路径 - 公司最初专注于自主编程智能体,推出了面向工程团队的代码理解智能体Asimov,在盲测中其答案比Cursor Ask和Claude Code更受欢迎 [3] - 选择从编程领域起步是因为训练模型通过代码与软件交互相当于给AI装上“手脚”,编码是语言模型的“天然优势领域”,掌握此能力后可轻松扩展到其他领域 [3] - Asimov是第一步,后续计划将“企业级超级智能”扩展到产品、营销、HR等领域的“团队记忆”和知识管理 [4] - 公司已获得算力集群,计划在明年推出一个使用“数十万亿tokens”训练的前沿语言模型,该模型将以文本为主,未来具备多模态能力 [5][8] 商业模式与市场定位 - 公司将自身重新定义为OpenAI、Anthropic等“封闭前沿实验室”的开源替代公司,目标是成为“美国版DeepSeek”,将开放模型的前沿技术带回美国 [1][5] - 商业模式主要收入来自大型企业在其模型上构建产品,以及各国政府建设主权AI系统的项目,研究者可免费使用模型 [7] - 公司声称已“找到了与开放智能战略相契合的可规模化商业模式”,并承诺将对外开放其先进的AI训练系统 [4][7] - 公司对“开放”的定义更接近开放访问而非完全开源,会开放模型权重供公众使用,但训练数据和完整训练流程不会公开 [7] 行业竞争与愿景 - DeepSeek等模型的崛起对公司是一次警醒,担心全球智能标准将由别人制定而非美国,旨在确保智能底座保持开放、可访问 [6] - 公司认为最前沿技术集中在封闭实验室会导致“滚雪球式”的垄断,需要打造强大的开放模型成为全球用户与开发者的首选 [6] - 公司融资规模与进入下一阶段扩张的节奏匹配,强调比大实验室更高效,大型实验室需要100单位资金的情况下,公司聚焦核心方向只需10单位就够了 [8]
马斯克刚关注了这份AI报告
搜狐财经· 2025-09-19 12:35
算力与成本 - 前沿AI算力集群成本将超过1000亿美元 支持约10^29次FLOP训练任务 相当于2020年全球最大算力集群运行三千年 [3] - 训练算力消耗达GPT-4数千倍 电力需求达吉瓦级别(1吉瓦=1000兆瓦) [3][5] - 地理分布式部署数据中心可缓解算力压力 [18] 规模化扩展与营收 - OpenAI、Anthropic和Google DeepMind 2024年下半年营收增幅超90% 年化增长率达三倍以上 [9] - OpenAI和Anthropic预计2025年仍保持三倍以上增速 [9] - AI收入增长至数千亿美元规模 潜在经济价值达数万亿美元 [19] 数据资源 - 公开人工生成文本数据预计2027年耗尽 [5][12] - 合成数据通过推理模型实现大规模生成 有效性获验证(如AlphaZero和AlphaProof超越人类专家) [15] 算法与算力分配 - 算法效率持续提升 但未出现加速迹象 算力需求可能进一步增长 [20] - 训练与推理算力消耗规模相当 需同步扩展 推理规模扩大不会延缓训练发展 [24][27] 科学领域应用突破 - 软件工程:AI可自主修复问题 实现功能 解决复杂科学编程问题(SWE-Bench-Verified和RE-Bench基准测试) [27][30] - 数学:在AIME、USAMO等高难度竞赛表现优异 可成为研究助理完善证明草稿 [31][32] - 分子生物学:蛋白质-配体相互作用基准测试(如PoseBusters)数年内突破 生物研发AI助理即将登场 [33] - 天气预报:优于传统预测方法 需提升极端事件预测准确性并投入实际应用 [34] 电力与资本支撑 - 太阳能配合电池储能或离网天然气发电可快速提升电力输出 [17] - 千亿美元级投资合理性取决于AI提升生产力产生的经济回报 [3][19]
AI跨步进入“经验时代”
华尔街见闻· 2025-09-11 11:50
AI行业发展趋势 - AI行业正从依赖人类数据的"人类数据时代"转向以持续学习为核心的"经验时代" [2] - 人类数据红利逼近极限 持续学习对智能效用至关重要 [2] - 新数据源需通过智能体与世界直接交互生成 类似AlphaProof通过该路径获国际数学奥林匹克银牌 [2] 技术发展需求 - 强化学习已引领进入经验时代 但需突破持续学习(continual learning)和元学习(meta-learning)技术瓶颈 [2] - 智能体智能程度取决于预测并控制自身输入信号的能力 经验是一切智能的核心基础 [2] AI与人类协作关系 - AI替代人类不可避免 是宇宙演化的必然下一步 [4][5] - AI恐惧被夸大 由某些获利组织煽动 去中心化协作可实现双赢 [3] - 人类最卓越超能力是协作 AI和人类繁荣将来自去中心化协作 [3] 未来发展方向 - 宇宙历史分为粒子时代、恒星时代、复制者时代和设计时代 人类正开启"设计时代" [4] - 人类独特之处在于将设计推向极致 创造能自我设计的事物 [4] - 权力和资源将流向最聪明的智能体 人类智力水平将被超级AI或智能增强人类超越 [3]