Workflow
AlphaGeometry
icon
搜索文档
Nature重磅发文:深度学习x符号学习,是AGI唯一路径
36氪· 2025-12-17 10:12
忆往昔,符号AI曾以规则逻辑统领江湖;今朝卷土重来,它携手神经网络,直指AGI! 但AI领域的权威们已经开始泼下一盆冷水: 真正的突破,恐怕要靠老牌选手「符号派AI」与神经网络联手登场。 这几年,大模型多次让人惊艳:聊天像真人、写作像专家、画画像大师,仿佛「万能AI」真的要来了。 只靠「神经网络」,远远不够通往人类级智能。 美国人工智能促进协会(AAAI)向会员发出提问: 绝大多数研究者给出的答案是——不行。 符号AI:起死回生 在历史上,符号派AI曾是主角——它相信,世界可以被规则、逻辑和清晰的概念关系穷尽刻画: 像数学那样精确,像流程图那样可追溯,像生物分类法那样层次分明。 后来,神经网络崛起,用「从数据中学习」的范式席卷整个领域。 大模型与ChatGPT成为这个时代的技术图腾,而符号系统被边缘化,几乎只剩下教科书上的一段历史。 然而,自2021年前后开始,「神经–符号融合」急速升温,被视为打破单一神经网络话语权的一次反扑: 未来,计算机能否达到、甚至超越人类智力? 如果可以,单靠当下火爆的神经网络行不行? 它试图把统计学习与显式推理拼接在一起,不仅为了追逐通用智能这一远目标,更为了在军事、医疗等高风险场 ...
AI for Science,走到哪一步了?
36氪· 2025-12-03 17:15
科学智能技术演进与谷歌DeepMind引领作用 - 谷歌DeepMind凭借以TPU为核心的AI算力基础设施和以Gemini为基础的大模型底座,持续深耕科学智能技术超过十年,引领全球技术演进[4] - AlphaFold标志着蛋白质结构预测问题的实质性解决,不仅斩获2024年诺贝尔化学奖,更成为现代生物学的数字基础设施[4] - AlphaProteo推动生物学研究正式跨入生成式生物学时代,结合AlphaMissense精准预测基因突变致病性,打通"靶点发现—结构解析—药物设计"全链路[4] - WeatherNext 2模型在99.9%的预测变量与时间跨度上准确率均优于欧洲中期天气预报中心的HRES系统,且推理速度提升了数个数量级[5] - GNoME预测了数百万种稳定的新材料结构,规模相当于人类过去几十年实验发现总和的数倍,为电池技术与超导材料研发提供庞大候选库[5] - AlphaEvolve引入进化计算范式,自动搜索发现更高效的机器学习算法与损失函数,实现从"人工设计"到"自动发现"的元层级跨越[6] 生物学领域科学智能突破 - 谷歌和耶鲁大学联合发布270亿参数单细胞分析基础模型C2S-Scale,生成关于癌细胞行为的全新假设并在体外实验中得到验证[8] - 微软BioEmu模型在蛋白质动力学模拟方面实现高达10万倍的模拟速度提升,中科院团队提出整合结构和进化约束的反向折叠蛋白质预测模型[9] - 谷歌通过10年持续研发构建了从基因测序、读取到疾病基因检测和诊断的AI基因组学研究和应用体系[9] - 腾讯DeepGEM病理大模型只需常规病例切片图像即可在1分钟内完成肺癌基因突变预测,精准度达78%至99%[10] - 谷歌发布DeepSomatic工具集用于肿瘤细胞基因变异识别,适用于白血病、乳腺癌、肺癌等癌症类型[10] - AI优化候选药物MTS-004已完成III期临床研究,成为国内首款完成III期临床的AI赋能制剂新药,突破过去几年AI驱动药物发现鲜有突破临床II期的瓶颈[10] 多学科科学智能应用拓展 - Periodic Labs开展新型超导材料等AI自动化发现,CuspAI获1亿美元A轮融资研发AI平台用于发现碳捕获新材料[11] - DeepMind飓风AI模型成功预测"梅利莎"等超强飓风路径和强度变化,黑洞理论物理学家利用GPT-5在半小时内推导出黑洞理论新特性[11] - 数学研究人员利用GPT5探索解决历史数学难题埃尔德什难题,英伟达开源模型系统GenCluster获得IOI 2025竞赛金奖[12] - OpenAI内部模型、Gemini Deep Think和DeepSeek Math-V2等大模型不断刷新AI在奥林匹克数学竞赛的金奖成绩[12] 科学智能科研范式重构 - 通用基础大模型成为科学智能的"操作系统",提供强大理解、推理、分析及生成能力,帮助科研人员大幅提升日常科研效率[14] - 科研专用大模型作为垂直科研领域的"专用引擎",融合特定领域相关知识以及研究方法与经验,谷歌在此方面综合实力处于全球领先[14] - AI智能体从被动工具转变为科学家的合作者甚至主动发现者,ToolUniverse平台包含超过600个科学工具并兼容主流基础大模型[15] - AlphaEvolve是具有编码能力的进化型AI智能体,可进行数学和计算通用算法的主动发现和自动化优化,已应用于谷歌内部实际场景[15] 自主实验室平台化发展 - MIT等美国多家科研高校和国家实验室已建成自主实验室,英国利物浦大学的材料创新工厂是欧洲最先进的自主实验室之一[16] - 美国《创世使命》计划将科研算力、AI基础模型、数据集及自主实验室体系集成为科学与安全平台,作为科研智能基础设施[16] - 晶泰科技的AI+机器人平台已成为核心竞争力,中科院"ChemBrain智能体+ChemBody机器人"和北京科学智能研究院Uni-Lab-OS加速推动国内自主实验室研发[17] - 磐石·科学基础大模型实现对数据和模型等资源的管理及科研工具调度,已在生命科学、高能物理和力学研究领域进行应用[17]
国际最新研发一AI系统:能证明复杂数学理论
中国新闻网· 2025-11-13 11:57
核心观点 - 谷歌旗下DeepMind研发的AI系统AlphaProof能够证明复杂的数学理论,并通过自动验证的推理过程克服大语言模型在数学推理正确性验证方面的挑战 [1] - AlphaProof在2024年国际数学奥林匹克竞赛中联合AlphaGeometry系统,解出6个问题中的4个,取得相当于银牌水平的高分 [2] 技术突破 - 研究团队演示了如何让增强学习在正式数学软件环境中工作,从而生成推理过程能被自动验证的证明 [1] - AlphaProof为证明数学命题而设计,在对8000万个命题进行自动形式化后,通过增强学习找出证明方法 [1] - 该系统被证明能提升之前先进AI系统在既往数学竞赛问题上的结果 [1] 应用表现 - 在权威的高中水平数学竞赛中,AlphaProof联合AlphaGeometry系统解出6个竞赛问题中的4个 [2] - 该系统在竞赛级数学推理领域的表现令人惊艳 [2] 发展前景 - 专家指出AlphaProof在求解其他形式难题上还存在一些局限性,建议作为未来的研究方向 [2] - 克服这些局限将使AlphaProof成为一个重要的复杂数学问题解题工具 [2]
深度思维正式推出“数学做题家AI”
科技日报· 2025-11-13 09:00
文章核心观点 - 深度思维公司正式推出AI系统AlphaProof,该系统在2024年国际数学奥林匹克竞赛中取得相当于银牌的成绩,证明了AI在高难度数学推理领域的显著进步[1] - 该突破被视为AI研究领域的里程碑,IMO竞赛成绩是衡量AI是否具备“类人”深度推理能力的关键试金石[1] - 此项成果为未来人机协作攻克前沿科学难题开辟了现实路径,其影响将辐射至理论计算机科学、自动定理证明及基础数学研究等领域[3] AI系统技术细节 - 深度思维团队将强化学习引入名为Lean的正式数学证明环境,所有推理步骤必须符合形式化逻辑规则,从而能够被自动验证[2] - AlphaProof专为证明数学命题设计,团队首先对约8000万个数学命题进行自动形式化处理,随后利用强化学习让系统探索有效证明路径[2] - 该系统联合另一款专攻几何的AI系统AlphaGeometry,在2024年IMO竞赛中共同解决了6道题中的4道[2] 性能表现与行业意义 - AlphaProof的表现超越了此前最先进的AI模型在历史IMO题目上的成绩[2] - 深度思维公司曾在2004年透露其混合AI系统在IMO竞赛中仅差1分就能摘得金牌[1] - 不同于依赖模糊语言模型的通用AI,该成果在严格逻辑框架中运行,每一步推理均可验证,极大提升了结果的可靠性[3] 当前局限与未来方向 - 该系统目前仍存在局限,例如在处理某些非标准或高度抽象的数学问题时表现不足[2] - 未来的研究应聚焦于拓展系统的通用性和适应性[2] - 一旦障碍被克服,AlphaProof有望成为协助数学家攻克复杂数学难题的有力工具,推动形式化证明与AI的深度融合[2]
深度思维正式推出“数学做题家AI” 其在奥赛中取得相当于银牌的成绩
科技日报· 2025-11-13 07:49
公司技术突破 - 深度思维公司正式推出专为证明数学命题设计的AI系统AlphaProof [1] - AlphaProof在2024年国际数学奥林匹克竞赛中取得相当于银牌的成绩 [1] - 该系统联合另一款专攻几何的AI系统AlphaGeometry共同解决了6道竞赛题目中的4道 [2] - 此次突破标志着AI在高难度数学推理领域的显著进步 [1] 技术方法与性能 - 团队将强化学习引入名为Lean的形式化数学证明环境,所有推理步骤必须符合形式化逻辑规则并可被自动验证 [2] - 团队首先对约8000万个数学命题进行了自动形式化处理,随后利用强化学习让系统探索有效证明路径 [2] - AlphaProof的表现超越了此前最先进的AI模型在历史IMO题目上的成绩 [2] 行业意义与评估标准 - 用IMO等高水平竞赛题目测试AI系统,已成为评估其逻辑推理、抽象思维和解决问题能力的重要标准 [1] - 此类题目要求严密的演绎推理、创造性策略和跨领域知识整合,远超普通问答或模式识别任务 [1] - 在IMO等权威竞赛中取得好成绩,被视为衡量AI是否具备"类人"深度推理能力的关键试金石 [1] 当前局限与未来方向 - 系统在处理某些非标准或高度抽象的数学问题时表现仍存在不足 [2] - 未来的研究应聚焦于拓展系统的通用性和适应性 [2] - 克服障碍后,AlphaProof有望成为协助数学家攻克复杂数学难题的有力工具,推动形式化证明与AI的深度融合 [2]
陶哲轩敲警钟,谷歌DeepMind联手五大神殿,用AI向世纪难题宣战
36氪· 2025-10-30 12:12
谷歌DeepMind的AI赋能数学计划 - 谷歌DeepMind发起“AI赋能数学计划”,集结全球五大顶尖研究机构,旨在利用AI探索数学新领域[1][2] - 合作机构包括伦敦帝国学院、普林斯顿高等研究院、法国高等科学研究所、西蒙斯计算理论研究所和塔塔基础科学研究所[2] - 计划目标为发掘可借助AI获得突破的数学难题、构建相关基础设施与工具,并最终加速科学发现[6] AI在数学领域的近期技术进展 - 搭载Deep Think的Gemini模型在2024年IMO竞赛中达到金牌水平,完美破解5题拿下35分[11] - AlphaEvolve在数学分析、几何学等领域的50个公开难题上,于20%的题目中取得了最优解[14] - AlphaEvolve发明了全新的矩阵乘法方法,例如在4x4矩阵乘法问题上仅需48次标量乘法,打破了长达50年的历史纪录[14][16] 关于AI在数学研究中应用的讨论与建议 - 陶哲轩发起关于如何最佳融入AI、透明披露其作用并缓解风险的讨论[2][23] - 建议论文中对超出基础功能的AI实质性使用进行明确声明[26] - 建议讨论所用AI工具的一般性风险及已采取的缓解措施,例如应对内容虚构、缺乏可复现性等问题[27][28][29][31][32][33] - 强调论文所有作者必须为AI贡献内容承担最终责任[35]
模型与「壳」的价值同时被低估?真格基金戴雨森 2025 AI 中场万字复盘
Founder Park· 2025-08-02 09:09
核心观点 - 2025年AI行业迎来多个"李世石时刻",OpenAI通用大语言模型首次达到IMO金牌水准,标志着AI推理能力质的飞跃 [5][7][10] - AI应用和"套壳"价值被低估,Context Engineering成为关键竞争壁垒 [21][23][37] - Agent技术进入早期采用阶段,模型能力与产品设计协同推动生产力革命 [30][32][69] - 模型能力进化速度超预期,推理/编程/工具使用三大主线快速突破 [53][54][64] - 中国团队在AI应用层展现突出竞争力,Kimi等产品实现技术逆袭 [38][46][51] AI技术突破 OpenAI数学推理里程碑 - OpenAI通用大语言模型在2025年IMO竞赛中完成6题5对的成绩,达到金牌水平,且未针对数学专门优化 [5] - 该成绩获奥赛组委会官方认证,相比2024年Google专门设计的AlphaGeometry(银牌水平)更具泛化能力 [7] - 模型采用与GPT-4o相同底层架构,主要优化来自post-training和inference阶段 [9] - 数学证明属于"hard to verify"问题,突破意味着AI具备接近人类顶尖水平的逻辑推理能力 [8][13] 多模态与工具使用进展 - 图像生成从玩具级进化成生产力工具,ChatGPT图像生成可准确理解用户意图 [32] - Veo3模型实现虚拟世界真假难辨的生成效果,首次跨越恐怖谷效应 [33] - 工具使用形成API调用和视觉模拟两条技术路线,MCP生态初步建立 [64][65] 产品与应用演进 Agent技术发展 - ChatGPT Agent发布标志着行业共识形成,但产品体验仍有提升空间 [16][18] - Agent产品token用量相比Chatbot显著增长,Manus等产品进入Early Adopter阶段 [32][73] - 优秀Agent产品需为未来6-12个月的模型能力设计,当前任务完成率约20%,预期年底达70-80% [40][93] - 应用层通过Context Engineering构建三层壁垒:会话级/个性化/硬件增强上下文 [23][59][60] 中国团队突破 - Kimi K2开源模型在coding/Agent工作流/中文写作方面超越Claude,OpenRouter调用量快速攀升 [38] - 中国团队在长文本技术方向的前瞻布局得到验证,产品设计能力突出 [47][48] - 套壳应用展现持久价值,Manus等产品在特定场景表现优于ChatGPT Agent [19][21] 行业竞争格局 模型厂商动态 - Google Gemini 2.5实现技术反超,与OpenAI形成三强竞争格局 [55][56] - DeepSeek采取选择性突破策略,资源聚焦模型智能而非多模态 [42][43] - 模型benchmark出现钝化现象,实际用户体验差异成为新评估标准 [84] 人才与资本趋势 - 硅谷爆发acqui-hire抢人大战,顶尖人才薪资达disruptive级别 [80][82] - 推理算力需求爆发式增长,云服务商迎来新增长周期 [41][74] - 投资逻辑从"模型颠覆应用"转向"人机协作价值创造" [37][38] 未来演进方向 技术前沿展望 - 推理能力从7分到10分的质量提升,小模型开始具备强推理能力 [53][54] - 编程场景context长度与自我纠错能力持续优化,复杂代码一次通过率提升 [55] - 原生多模态、在线学习、高级Agent能力或成下一代模型突破点 [39][94] 社会影响预判 - 生产力提升带来"超级个体",3人团队可能实现独角兽级产出 [85] - 组织管理复杂度突破新量级,美团等企业将管理数百万AI协同体 [86] - 智能边界衡量成为新挑战,人类需建立评估超人智能的新标准 [84][87]
AI拿下奥数IMO金牌,但数学界的AlphaGo时刻还没来
36氪· 2025-08-01 10:40
AI在IMO竞赛中的表现 - OpenAI和DeepMind的AI模型均在2025年国际数学奥林匹克竞赛中达到金牌标准,得分35分(满分42分),实现从2024年银牌到2025年金牌的数学推理能力跃升 [1][6][8] - OpenAI于7月18日率先宣布成绩,DeepMind两天后公布并获得IMO官方认证,双方成绩均通过独立验证 [6][8][9] - 尽管达到金牌线,AI模型仅解出6题中的5题,而人类选手有5人获得满分,表明AI数学能力尚未全面超越人类顶尖水平 [12] 技术突破与推理能力 - DeepMind的Gemini Deep Think模型首次完全使用自然语言输入输出完成IMO题目,无需依赖形式化证明工具如Lean,标志着语言模型独立数学推理能力的重大进展 [16][20][21] - 与2024年专为数学设计的混合模型AlphaGeometry和AlphaProof(仅达到银牌标准)相比,2025年模型在自然语言处理方面实现质的飞跃 [13][16][20] - 此次突破挑战了学界"语言模型无法独立完成真正数学推理"的观点,证明语言模型本身可处理高难度数学问题 [16][20][21] 行业竞争与人才流动 - DeepMind公开谴责OpenAI提前泄露IMO成绩,强调应尊重官方验证流程和参赛学生表彰程序,引发行业伦理争议 [8][9] - DeepMind金牌项目团队三名核心研究员被Meta挖角,过去六个月内已有20名员工流向微软,反映顶尖AI实验室间人才争夺加剧 [9] 模型解题特点对比 - 在平面几何题中,DeepMind采用接近人类选手的几何解法,而OpenAI使用"暴力"解析几何手段将问题转化为代数计算,显示不同解题策略 [23] - OpenAI解答语言呈现人性化特征(如使用"nice""very good"等鼓励性词汇),类似教师授课风格;DeepMind语言风格更接近数学论文的书面化表达 [27][29] - 两模型均频繁引入新符号定义概念,这与人类竞赛选手简化符号的习惯形成对比 [27] 数学研究应用前景 - IMO竞赛环境(限时、封闭、固定答案)与真实数学研究(开放性问题、自由探索)存在本质差异,AI当前更擅长解决竞赛类问题 [30][32] - 学界对AI数学应用形成两派观点:陶哲轩等认为AI未来将成为数学研究可信合作者,可提供启发式思路;Michael Harris等担忧数学自由探索精神被技术工具化和资本化侵蚀 [34][36] - 历史类比显示AlphaGo推动围棋理论创新,DeepMind科学家认为AI数学工具将帮助人类更好理解世界,而非取代数学家 [40]
WAIC 2025|叩响“AI+数学”之问,普陀探寻交融新篇章
新华财经· 2025-07-27 13:05
人工智能与数学的辩证关系 - 人工智能与数学的边界逐渐模糊,大模型参数突破万亿后传统调参方法陷入瓶颈,模型的泛化能力、安全性、能耗控制等问题需要数学理论的系统性支撑 [1] - "AI for Math"模式正在改写数学研究范式,神经-符号混合AI系统AlphaGeometry在国际数学奥林匹克竞赛几何问题解决中展现非凡实力 [1] - 数学是人工智能的本源与未来依托,人工智能的诞生基于积累几千年的数学智慧,其未来进步也将依赖数学发展 [1] 人工智能与数学的双向赋能 - 数学突破将推动人工智能演进,人工智能应用有助于解决数学界未解之谜并探寻新问题 [2] - 中国人工智能要崛起并在国际占据一席之地,必须夯实基础理论和发展原始创新,国内已形成三、四支核心研究力量 [2] - 学界对"数学哺育AI,AI反哺数学"的双向赋能机制形成共识,推进领域融合发展的实践行动已展开 [2] 国际合作与人才培养 - 国际高校与沿沪宁高校数学与AI专业学生代表"结对",成为数学与AI融合的生动象征 [3] - 菲尔兹奖得主冠名实验室Hitchin–Ngo实验室和Fefferman实验室揭牌,为基础数学与人工智能融合研究创造更多合作空间 [3] - 菲数中国落地普陀海纳小镇数字创新中心,与筹建的西班牙欧洲中心共同构成菲数的两大中心 [3] 区域发展与产业创新 - 普陀区持续深化科技创新和产业创新,让顶尖科技成为产业带发展的"强心剂",打造具有核心竞争力的产业链 [4] - 普陀区将带动沪宁沿线高校、企业、园区共享菲数中国的全球影响力和科研网络,共同承接课题和场景,培养基础学科拔尖人才 [4] 上海的人工智能发展战略 - 上海正全力推动数学基础突破赋能人工智能创新加速,加快构建一流创新生态 [5] - 上海推动"AI + 数学"从基础研究到产业应用的全链条突破,为智能时代贡献独特的"上海方案" [5]
Nature头条:AI大模型已达国际数学奥赛金牌水平
生物世界· 2025-07-25 15:54
人工智能在数学领域的突破 - 大语言模型首次在国际数学奥林匹克竞赛中达到金牌水平,标志着AI在复杂数学问题解决能力的重大飞跃[2][4] - DeepMind的大语言模型在评估中跨越金牌得分门槛(满分42分,35分为金牌),OpenAI的模型也展现出同等能力[4][6] - 相比2024年银牌顶尖水平,2025年实现从银牌到金牌的实质性突破,体现AI在高级数学推理和问题解决能力的显著进步[5] 技术进展与范式转变 - DeepMind此次突破采用全新大语言模型DeepThink,完全基于自然语言处理,不再依赖人类专家翻译考题和解答[6] - 此前DeepMind在数学领域依赖专门工具AlphaGeometry和AlphaProof,需要人工翻译过程,新模型实现端到端自然语言处理[6] - 国际数学奥林匹克竞赛金牌代表全球高中生数学巅峰水平,AI达到该层次表明其在复杂概念理解、创造性推理和精妙解法发现方面的高度[5] 行业影响与未来潜力 - 该突破证明大语言模型能处理需要深度逻辑思维和抽象推理的复杂任务,超越文本生成和模式识别的传统能力[7] - AI可作为教育和研究工具,帮助学生学习高等数学、启发解题思路,并协助数学研究人员探索新猜想和定理[7] - 解决奥林匹克数学竞赛金牌级问题是通往通用人工智能(AGI)的重要里程碑,体现多方面认知能力的组合[7] - 从围棋击败人类冠军到数学竞赛金牌水平,AI持续刷新机器能力认知,预示在科学探索和技术研发等领域的巨大潜力[8]