刚刚，GPT-5.2满分屠榜，OpenAI十周年王者归来

文章核心观点 - OpenAI在成立十周年之际发布了GPT-5.2系列模型，该系列在专业知识工作、长上下文推理、视觉理解、工具调用及科学数学等多个关键领域实现了显著的性能飞跃，重新确立了行业领先地位 [1][2][3] 产品发布与定位 - OpenAI发布了GPT-5.2系列，包括为日常工作与学习打造的GPT-5.2 Instant，为专业级工作全面提升标准的GPT-5.2 Thinking，以及面对困难问题时最聪明、最值得信赖的GPT-5.2 Pro [3] - 该系列模型的设计目标是为人们创造更多经济价值，在制作表格、演示文稿、编写代码、理解图像、处理超长上下文及执行复杂多步骤项目方面均有显著提升 [5] - 公司CEO山姆・奥特曼表示，GPT-5.2是OpenAI很长一段时间以来最大的一次升级 [13] 性能基准与突破 - 知识工作与生产力：GPT-5.2 Thinking在GDPval基准上取得70.9%的分数，成为首个达到或超过人类专家水平的AI模型 [8][12][15]。在执行GDPval任务时，其生成输出速度超过专家11倍以上，成本低于1% [15] - 编程能力：在SWE-Bench Pro（涵盖四种编程语言）上取得55.6%的SOTA成绩，在SWE-bench Verified上取得80.0%的新最高分 [8][23][26] - 科学数学能力：在GPQA Diamond基准上，GPT-5.2 Pro达到93.2%，GPT-5.2 Thinking达到92.4% [8][60]。在AIME 2025（数学）基准上取得100%的分数 [8][9]。在FrontierMath (Tier 1-3)专家级数学评估中，GPT-5.2 Thinking解决了40.3%的问题 [8][62] - 抽象推理：在ARC-AGI-2 (Verified)基准上，GPT-5.2 Thinking取得52.9%的分数，GPT-5.2 Pro达到54.2% [8][65] - 幻觉率降低：在一组真实用户查询上，GPT-5.2 Thinking含错误的回答相对GPT-5.1 Thinking减少了30% [31] - 长上下文推理：在OpenAI MRCRv2基准上达到业界最先进水平，是首个在4-needle MRCR变体（长度可达256k tokens）上达到接近100%准确率的模型 [36][38] - 视觉理解：在图表推理和软件界面理解方面的错误率几乎降低了一半，对图像中元素位置关系的理解更加透彻 [44][49] - 工具调用：在Tau2-bench Telecom上取得98.7%的SOTA成绩，展示了在长链路、多轮任务中可靠使用工具的能力 [53] 具体应用场景提升 - 电子表格与演示文稿：在内部投行分析师能力测试的电子表格建模基准中，GPT-5.2 Thinking的平均得分比GPT-5.1提升了9.3%，从59.1%上升到68.4% [19]。对比显示，在生成电子表格与演示文稿时，专业度与排版质量有显著提升 [20] - 前端工程：在前端开发以及复杂或非常规的UI设计（尤其是包含3D元素的界面）方面的能力显著增强 [26] - 客户服务与工作流：能够更有效地协调跨多个智能体的完整工作流，例如管理包含重新预订、特殊协助和赔偿的复杂客服任务链 [56] 定价与可用性 - ChatGPT将于发布日（文章发布日）开始逐步向付费用户（Plus、Pro、Go、Business和Enterprise版本）推出GPT-5.2系列 [71] - API平台提供GPT-5.2 Thinking (gpt-5.2)、GPT-5.2 Instant (gpt-5.2-chat-latest)和GPT-5.2 Pro (gpt-5.2-pro) [72] - 定价方面：gpt-5.2输入价格为每百万token 1.75美元，输出为14美元；gpt-5.2-pro输入为21美元，输出为168美元 [75] - ChatGPT订阅价格保持不变，付费用户可在三个月内继续使用GPT-5.1 [71][74] 行业背景与公司愿景 - 此次发布正值OpenAI成立十周年，公司回顾了从早期研究到ChatGPT和GPT-4发布，再到如今GPT-5.2的历程，强调了其使命是确保AGI造福全人类 [77][81] - 公司对研发和产品路线图感到乐观，并相信在未来十年内几乎肯定能够打造出超级智能 [81] - GPT-5.2是与长期合作伙伴英伟达和Microsoft合作开发的，由Azure数据中心和英伟达GPU（包括H100、H200和GB200-NVL72）提供算力支持 [75]