GPT-5.2部分基准测试分数超过谷歌,但OpenAI“红色警报”尚未解除
第一财经·2025-12-12 12:13

行业竞争态势 - OpenAI首席执行官表示,谷歌Gemini 3对公司的影响比原本预计的更小,但当竞争对手的威胁出现时,应专注并迅速应对 [1][7] - 谷歌发布Gemini 3后,在硅谷掀起AI权力的重新分配,对OpenAI的大模型霸主地位构成挑战 [1] - OpenAI为应对谷歌竞争拉响了“红色警报”,以集中资源并明确优先级,公司增加了更多与ChatGPT相关的资源,并预计在明年1月前结束该状态 [7] 产品发布与迭代 - OpenAI于12月11日推出GPT-5.2,包含Instant、Thinking和Pro模式,距离上次更新GPT-5.1仅过去一个月 [1] - 此次发布被视为OpenAI对谷歌挑战的一次反击 [1] - 公司宣布下周还将送出一些“小小的圣诞礼物” [7] 产品性能与基准测试 - GPT-5.2在多项基准测试中分数显著超越前代GPT-5.1 [3] - 在知识型工作任务GDPval测试中,GPT-5.2 Thinking分数为70.9%,明显超过GPT-5.1的38.8% [3] - 在抽象推理ARC-AGI-2基准测试中,GPT-5.2 Thinking分数为52.9%,明显超过GPT-5.1的17.6% [3] - 在软件工程SWE-Bench Pro测试中,GPT-5.2 Thinking分数为55.6%,GPT-5.1为50.8% [3] - 在科学问题GPQA Diamond测试中,GPT-5.2 Thinking分数为92.4%,GPT-5.1为88.1% [3] - 在科学图表类问题CharXiv推理测试中,GPT-5.2 Thinking分数为88.7%,GPT-5.1为80.3% [3] - 在数学竞赛HMMT测试中,GPT-5.2 Thinking分数为99.4%,GPT-5.1为96.3% [3] - OpenAI称GPT-5.2是公司至今最强的模型,在众多基准测试中刷新了行业水平,在GDPval测试涵盖的44个职业知识型工作任务中表现超过行业专家 [3] - GPT-5.2在ARC-AGI-2和GPQA Diamond两项测试中的得分超过了谷歌的Gemini 3 Pro(后者分数分别为31.1%和91.9%)[4] 产品功能与应用 - 相比GPT-5.1着重“情绪价值”,GPT-5.2推出了更多智能上的更新 [3] - 新模型在制作演示文稿、电子表格等方面的表现优于或与专业人士持平,生成的电子表格和幻灯片在复杂度和格式呈现上相比前一代有明显提升 [4] - 新的电子表格和演示文稿功能需要用户订阅付费套餐 [4] - 长上下文能力使新模型能处理报告、合同、研究论文等文件 [4] - 在编码任务中,GPT-5.2能更可靠地调试生产环境代码、以更少的人工干预完成修复交付 [4] - OpenAI演示了GPT-5.2的编码能力,例如仅需一个提示即可生成海浪模拟器和节日贺卡生成器 [5] 模型可靠性与科研 - GPT-5.2 Thinking的幻觉率低于前一代,在一组去标识的查询中,新模型错误回答的频率比GPT-5.1 Thinking减少了38% [5] - 这意味着在写作、研究、分析和决策中模型犯的错误更少 [5] - GPT-5.2 Thinking在图表推理和软件界面理解方面的错误率减少了大约一半 [5] - OpenAI称,GPT-5.2 Pro和GPT-5.2 Thinking是目前最有助于加快科研进展的模型 [5] 产品上市 - GPT-5.2 Instant、Thinking和Pro于周四在ChatGPT中陆续推出,付费套餐用户将能率先体验 [7]