GPT-5.2破解数论猜想获陶哲轩认证！OpenAI副总裁曝大动作：正改模型核心设计，吊打90%研究生但难出颠覆性发现

OpenAI发布AI科研平台Prism并成立OpenAI for Science团队 - OpenAI发布由GPT-5.2驱动的新一代AI科研协作平台Prism，并向所有ChatGPT个人用户免费开放 [2] - OpenAI于2024年10月宣布成立全新的OpenAI for Science团队，核心目标是探索大语言模型助力科研的路径并优化相关工具 [2] - OpenAI副总裁Kevin Weil表示，公司的目标是赋予每位科学家AI超能力，加速科研进程，目标是让世界在2030年就能开展2050年的科学研究 [2] OpenAI布局科研领域的战略动机与竞争态势 - OpenAI认为，通用人工智能（AGI）能为人类创造的最重大价值在于其推动科学进步的能力，例如帮助发现新药物、材料和探索现实本质 [5][6] - 在AI科研领域，OpenAI面临激烈竞争，谷歌DeepMind早在数年前便成立了AI-for-science团队，并打造了AlphaFold等开创性科学模型 [3][4] - OpenAI for Science的布局，很大程度上是为了在AI科研这一新领域抢占先机 [20] GPT-5系列模型的当前能力与局限性 - 搭载推理模型的GPT-5在解决复杂问题方面较GPT-4有质的飞跃：在考察博士级专业知识的GPQA基准测试中，GPT-4正确率为39%，而GPT-5.2正确率达到92% [7] - 模型能力被认为已超过90%的研究生，并在国际数学奥林匹克竞赛中取得金牌级成绩，达到了人类能力的极限 [7] - 然而，模型目前还达不到取得颠覆性新发现的水平，有时会犯一些“比人更愚蠢”的低级错误 [4][12][13] - 模型曾因宣称解决数学未解难题但实际只是挖掘已有答案而引发争议，被指沟通“过于草率” [8][9] GPT-5在科研中的实际应用与价值 - GPT-5擅长帮助科研人员找到他们尚未意识到的现有研究成果及跨领域关联线索，从而催生新思路 [11] - 模型能够协助草拟数学证明过程，并为实验室验证假说提供实验思路 [11] - GPT-5.2几乎阅读了过去30年发表的每一篇论文，并能从上千个不相关领域中提炼出可类比的思路，充当一个“从不休息”的合作者 [12] - 实际案例显示，有科研人员借助GPT-5在数月未解的问题上取得突破，或以前所未有的速度完成数据分析 [12][13] 科研界对AI工具的态度与反馈 - 部分科研人员认为大语言模型正变得像计算机和互联网一样，是科学家必不可少的技术工具，拒绝使用将处于劣势 [13][14] - 有科学家指出，大语言模型目前主要是在整合现有成果，而非创造真正全新的研究方法，几乎未见其提出值得单独发表的全新观点 [14] - 也有态度不那么乐观的科研人员认为，大语言模型尚未从根本上改变科研方式，但其在自动化系统（如操控机器人）中可能更有实用价值 [15] OpenAI针对模型缺陷的优化方向 - OpenAI正重点优化模型，让其降低置信度，具备认知层面的“谦逊性”，以更委婉的方式（如“以下思路可供参考”）提供参考思路而非绝对答案 [18] - 公司探索的另一方向是利用GPT-5对自身输出进行事实核查，构建让模型充当自身校验者的工作流程，这与谷歌DeepMind为AlphaEvolve打造的模式相似 [19] - 尽管新一代模型产生“幻觉”（错误信息）的概率已大幅降低，但公司承认问题依然存在，并认为关键在于如何将错误观点转化为科研探索过程的一部分 [17][18]