GPT-5.2果然反超谷歌Gemini 3 Pro!北大数院校友核心贡献
量子位·2025-12-12 09:00

GPT-5.2系列产品发布与核心定位 - OpenAI在成立十周年之际快速迭代发布GPT-5.2系列,距GPT-5.1发布仅30天,显示出公司加速产品迭代的紧迫感 [1][16] - 新版本的核心升级方向是专门强化“打工能力”,即提升在各类实际工作场景中的生产力 [1] 多模态与复杂任务处理能力 - 视觉理解能力大幅提升,能更准确地标记主板上的元件 [4] - 长文档处理能力是升级重点,在256k上下文长度的4针版MRCRv2评测中达到接近100%准确率 [30] - 能够处理超越最大上下文窗口的复杂任务,兼容简洁回复模式以支持工具密集型、长时间运行的工作流 [33] - 在需要调用Python工具的高分辨率图形界面截图推理测试中得分达到86.3%,禁用工具则得分显著降低 [37][39] 专业与高经济价值任务表现 - 在GDPval测试中,涵盖美国GDP前九大产业的44个职业领域,能完成人类需4-8小时的任务 [18] - 在人类评委打分下,GPT-5.2 Thinking相比人类专家有71%的胜率,GPT-5.2 Pro胜率更高,且速度是人类的11倍以上,成本不到人类的1% [19][20] - 在投行分析师的电子表格建模任务上,GPT-5.2 Thinking平均得分相比GPT-5.1提升9.3%,从59.1%上升到68.4%,任务包括为财富500强公司搭建三表联动模型、构建杠杆收购模型等 [21] - 评委评价其输出质量有“令人兴奋且显著的飞跃”,成果看起来像由专业公司员工完成 [23] 代码与软件开发能力 - 代码能力刷新纪录,在SWE-bench Verified上得分达到80% [25] - 在更难的SWE-Bench Pro评测上,GPT-5.2 Thinking拿下55.6%的新高,该评测涵盖Python、JavaScript、TypeScript和Go,贴近真实工业场景 [26][27] - 在前端开发和涉及3D元素的复杂UI工作方面表现明显更强 [28] 工具调用与端到端工作流 - 工具调用能力达到新高度,在Tau2-bench Telecom多轮交互电话客服场景评测上取得98.7%的成绩,在零售场景也达到82% [40][41] - 这意味着更强大的端到端工作流程能力,例如解决客户支持案例、从多系统提取数据、运行分析并生成最终输出,且步骤间故障更少 [43] 科学推理与研究辅助能力 - 公司相信GPT-5.2 Pro和GPT-5.2 Thinking是当前世界上最适合辅助科学家的模型 [44] - 在研究生水平的GPQA Diamond问答评测上,GPT-5.2 Pro拿下93.2%,GPT-5.2 Thinking达到92.4% [45] - 在专家级数学评测FrontierMath上,GPT-5.2 Thinking以40.3%的解题率创下新纪录 [47] - 研究人员使用GPT-5.2 Pro探索统计学习理论中的开放问题,模型提出的证明被作者验证并通过了同行评审 [49] 效率、成本与事实准确性 - 在ARC-AGI测试中,GPT-5.2 Pro取得90.5%的最新SOTA得分,平均任务成本仅为11.64美元,相比一年前成本为4500美元的模型,效率在一年内提高了约390倍 [12][13] - 事实准确性方面,GPT-5.2 Thinking的幻觉问题相比GPT-5.1从8.8%减少到6.2% [52] - 公司提示模型仍不完美,关键内容需要人工复核 [53] 市场竞争与团队 - GPT-5.2在ARC-AGI测试中得分超过了谷歌Gemini 3 Pro的对应版本 [14] - GPT-5.2的核心团队成员多为2024年后加入的新面孔,且多具有数学专业背景,例如来自斯坦福、伯克利、中科大、北大的数学与统计学博士 [57][58][59][61][62] - 公司近期研究进展文章统一署名OpenAI,不再附上详细贡献者列表 [55] 产品使用与商业化 - 在ChatGPT中使用新的做表格和PPT能力,需要充值Plus、Pro、Business或Enterprise套餐,并选择GPT-5.2 Thinking或Pro版本 [24] - 生成复杂内容可能需要几分钟时间 [24]