GPT-5.2破解数论猜想获陶哲轩认证，OpenAI副总裁曝大动作

OpenAI发布AI科研平台Prism并成立OpenAI for Science团队 - 公司于凌晨发布了新一代AI科研平台Prism，该平台由GPT-5.2加持，供科学家撰写和协作研究，即日起向所有拥有ChatGPT个人账户的用户免费开放 [1] - 公司副总裁Kevin Weil表示，目标是赋予每位科学家AI超能力，让世界在2030年就能开展2050年的科学研究 [1] - 公司于2025年10月宣布成立全新的OpenAI for Science团队，核心致力于探索大语言模型助力科研人员的路径，并优化旗下工具为科研人员提供支持 [1] OpenAI布局科研领域的战略意图与竞争格局 - 公司认为，通用人工智能（AGI）能为人类创造的最重大、最积极的价值，正是其推动科学进步的能力，例如帮助探索全新的药物、材料和器械 [3] - 在AI科研领域，公司已面临激烈竞争，谷歌DeepMind早在数年前便已成立AI-for-science团队，并打造了AlphaFold、AlphaEvolve等具有开创性的科学模型 [2] - 公司布局OpenAI for Science，很大程度上是为了在科研这一新领域抢占先机，因为真正的技术创新尚未到来 [16] GPT-5系列模型在科研中的能力评估与表现 - 公司副总裁Kevin Weil评价当前模型的实际能力时表示，模型还达不到取得颠覆性新发现的水平，但能让人不必把时间浪费在已经解决的问题上，这也是对科研的一种加速 [2] - 搭载了推理模型的GPT-5，在解决复杂问题方面较GPT-4有了质的飞跃，在包含400多道博士级专业问题的GPQA基准测试中，GPT-4正确率为39%，而GPT-5.2正确率达到92% [5] - 模型能力被认为早已超过90%的研究生，甚至达到了人类能力的极限，例如能在国际数学奥林匹克竞赛中取得金牌级成绩 [5] - 模型擅长找到科研人员尚未意识到的现有研究成果及关联线索，协助草拟数学证明过程，并为实验室验证假说提供实验思路 [8] - 模型几乎阅读了过去30年发表的每一篇论文，不仅能理解本领域内容，还能从其他不相关的领域中提炼出可类比的思路 [9] GPT-5在科研应用中的实际案例与用户反馈 - 一位开通了GPT-5付费服务的科研人员反馈，GPT-5会犯一些比人更愚蠢的低级错误，但一直在进步 [2] - 范德堡大学物理与天文学教授Robert Scherrer表示，他和研究生为一个问题钻研了数月都毫无头绪，GPT-5却成功解决了它，但模型仍会犯一些低级错误 [10] - 非营利性研究机构杰克逊实验室的生物学教授Derya Unutmaz表示，以前需要几个月才能完成的数据集分析，现在用大语言模型就能完成，不用大语言模型已经行不通了 [10] - 加州大学伯克利分校的统计学家Nikita Zhivotovskiy认为，大语言模型最有用的地方在于能挖掘出其研究工作与一些未知现有研究成果之间的意外关联，但几乎没见过模型能提出真正值得单独发表的全新观点 [10] - 利物浦大学化学教授Andy Cooper表示，其团队并不会借助大语言模型构思研究思路，但这项技术已开始在更庞大的自动化系统中显现实用价值，比如大语言模型可协助操控机器人 [11] 模型存在的缺陷、引发的争议及优化方向 - 模型存在“幻觉”问题，曾导致科学期刊论文出现核心思路错误，例如将检测非线性理论的实验方案错误地设计为检测非定域性理论 [12] - 去年10月，公司高管曾宣称GPT-5已为多个数学未解难题找到解决方案，但事后被数学家指出只是从早期研究论文中挖掘出了已有的答案，相关帖子随后被删除 [6] - 近期有消息称，GPT-5.2 Pro破解了一道埃尔德什猜想（第281号），其提出的新证明方法已被菲尔茨奖得主陶哲轩验证并收录，证明思路与之前的方法“相当不同” [7] - 公司正对模型整体设计作两大思路优化：一是让GPT-5在给出答案时降低置信度，具备认知层面的谦逊性；另一方向是利用GPT-5反向对自身输出进行事实核查 [3][14] - 公司正在探索让模型充当自身校验者的工作流程，即一个模型完成初步推理，再将结果交由另一模型审核，通过筛选和反馈进行改进，这与谷歌DeepMind为AlphaEvolve打造的模式高度相似 [15] 对AI驱动科研未来的展望与预测 - 公司副总裁Kevin Weil预测，2026年对于科研领域的意义，将堪比2025年之于软件工程，一年后，倘若一名科研人员还未深度运用AI开展研究，就可能已经落后 [3] - 范德堡大学教授Robert Scherrer表示，如果当前的发展趋势能持续下去，很快所有科研人员都会用上大语言模型 [10] - 加州大学伯克利分校统计学家Nikita Zhivotovskiy相信大语言模型正在成为科学家们必不可少的技术工具，就像曾经的计算机和互联网一样，那些拒绝使用这类工具的人将会长期处于劣势 [10]