刚刚,GPT-5.2满分屠榜,OpenAI十周年王者归来
机器之心·2025-12-12 07:48

文章核心观点 - OpenAI在成立十周年之际发布了GPT-5.2系列模型,该系列在专业知识工作、长上下文推理、视觉理解、工具调用及科学数学等多个关键领域实现了显著的性能飞跃,重新确立了行业领先地位 [1][2][3] 产品发布与定位 - OpenAI发布了GPT-5.2系列,包括为日常工作与学习打造的GPT-5.2 Instant,为专业级工作全面提升标准的GPT-5.2 Thinking,以及面对困难问题时最聪明、最值得信赖的GPT-5.2 Pro [3] - 该系列模型的设计目标是为人们创造更多经济价值,在制作表格、演示文稿、编写代码、理解图像、处理超长上下文及执行复杂多步骤项目方面均有显著提升 [5] - 公司CEO山姆・奥特曼表示,GPT-5.2是OpenAI很长一段时间以来最大的一次升级 [13] 性能基准与突破 - 知识工作与生产力:GPT-5.2 Thinking在GDPval基准上取得70.9%的分数,成为首个达到或超过人类专家水平的AI模型 [8][12][15]。在执行GDPval任务时,其生成输出速度超过专家11倍以上,成本低于1% [15] - 编程能力:在SWE-Bench Pro(涵盖四种编程语言)上取得55.6%的SOTA成绩,在SWE-bench Verified上取得80.0%的新最高分 [8][23][26] - 科学数学能力:在GPQA Diamond基准上,GPT-5.2 Pro达到93.2%,GPT-5.2 Thinking达到92.4% [8][60]。在AIME 2025(数学)基准上取得100%的分数 [8][9]。在FrontierMath (Tier 1-3)专家级数学评估中,GPT-5.2 Thinking解决了40.3%的问题 [8][62] - 抽象推理:在ARC-AGI-2 (Verified)基准上,GPT-5.2 Thinking取得52.9%的分数,GPT-5.2 Pro达到54.2% [8][65] - 幻觉率降低:在一组真实用户查询上,GPT-5.2 Thinking含错误的回答相对GPT-5.1 Thinking减少了30% [31] - 长上下文推理:在OpenAI MRCRv2基准上达到业界最先进水平,是首个在4-needle MRCR变体(长度可达256k tokens)上达到接近100%准确率的模型 [36][38] - 视觉理解:在图表推理和软件界面理解方面的错误率几乎降低了一半,对图像中元素位置关系的理解更加透彻 [44][49] - 工具调用:在Tau2-bench Telecom上取得98.7%的SOTA成绩,展示了在长链路、多轮任务中可靠使用工具的能力 [53] 具体应用场景提升 - 电子表格与演示文稿:在内部投行分析师能力测试的电子表格建模基准中,GPT-5.2 Thinking的平均得分比GPT-5.1提升了9.3%,从59.1%上升到68.4% [19]。对比显示,在生成电子表格与演示文稿时,专业度与排版质量有显著提升 [20] - 前端工程:在前端开发以及复杂或非常规的UI设计(尤其是包含3D元素的界面)方面的能力显著增强 [26] - 客户服务与工作流:能够更有效地协调跨多个智能体的完整工作流,例如管理包含重新预订、特殊协助和赔偿的复杂客服任务链 [56] 定价与可用性 - ChatGPT将于发布日(文章发布日)开始逐步向付费用户(Plus、Pro、Go、Business和Enterprise版本)推出GPT-5.2系列 [71] - API平台提供GPT-5.2 Thinking (gpt-5.2)、GPT-5.2 Instant (gpt-5.2-chat-latest)和GPT-5.2 Pro (gpt-5.2-pro) [72] - 定价方面:gpt-5.2输入价格为每百万token 1.75美元,输出为14美元;gpt-5.2-pro输入为21美元,输出为168美元 [75] - ChatGPT订阅价格保持不变,付费用户可在三个月内继续使用GPT-5.1 [71][74] 行业背景与公司愿景 - 此次发布正值OpenAI成立十周年,公司回顾了从早期研究到ChatGPT和GPT-4发布,再到如今GPT-5.2的历程,强调了其使命是确保AGI造福全人类 [77][81] - 公司对研发和产品路线图感到乐观,并相信在未来十年内几乎肯定能够打造出超级智能 [81] - GPT-5.2是与长期合作伙伴英伟达和Microsoft合作开发的,由Azure数据中心和英伟达GPU(包括H100、H200和GB200-NVL72)提供算力支持 [75]

刚刚,GPT-5.2满分屠榜,OpenAI十周年王者归来 - Reportify