视觉能力
搜索文档
GPT-5.2来了,首个“专家级”AI复仇成功,牛马打工人终于得救了
36氪· 2025-12-12 07:58
产品发布与定位 - OpenAI发布GPT-5.2系列模型,包括即时版、思考版和专业版三款,今日全部上线 [1][2] - 该系列模型定位为“地表最强通用模型”,专为解决高难度知识型工作而生 [4] - 此次更新正值公司内部进入“红色代码”紧急状态,旨在集中资源优先开发,但公司高管表示不应将其视为对竞争对手的直接回应 [21] 核心性能提升 - 相比上一代,GPT-5.2在通用智能、超长文本理解、Agent工具调用及视觉能力上实现全面进化 [6] - 在SWE-Bench Pro基准测试中取得55.6%的高分,在LMArena代码竞技场中位列全球第二,在ARC-AGI-2基准测试中以52.9%的绝对优势登顶全球第一 [6] - 在GDPval基准测试中,覆盖44种职业知识,表现超越人类行业专家,成为首个在该测试中表现超过人类专家水平的模型 [6][25] - 在长上下文推理方面树立新标准,在OpenAI MRCRv2基准测试的多种变体(高达256k Token)上达到接近100%的准确率 [53] - 视觉能力显著增强,在图表推理和软件界面理解方面的错误率大约减少了一半 [60] 具体任务表现 - 在GDPval知识工作任务中,GPT-5.2 Thinking在70.9%的情况下击败或打平顶尖行业专业人士,完成任务的速度比专家快11倍,成本低于1% [27] - 在针对初级投资银行分析师电子表格建模的内部测试中,GPT-5.2 Thinking的平均每任务得分比GPT-5.1高出9.3个百分点(从59.1%升至68.4%) [33] - 在编程能力上,GPT-5.2 Thinking在SWE-bench Verified上取得80%的高分,能更可靠地调试生产环境代码、实现功能请求和重构大型代码库 [44] - 幻觉显著减少,在一组去标识化的ChatGPT查询中,包含错误的回答相对减少了30% [49] - 在工具调用和端到端工作流方面表现卓越,在Tau2-bench Telecom上创造了98.7%的新纪录 [64] 模型规格与定价 - 模型知识库更新至2025年8月31日,拥有40万Token的上下文窗口和12.8万Token的最大输出长度 [19] - 相比GPT-5/5.1,GPT-5.2的输入输出价格贵了40% [19] - 具体定价为:GPT-5.2 / gpt-5.2-chat-latest的输入价格为每百万Token 1.75美元,输出价格为14美元;GPT-5.2 Pro的输入价格为21美元,输出价格为168美元 [20] - 尽管每Token成本更高,但由于更高的Token效率,GPT-5.2的性价比反而更高 [88] 行业影响与生态 - 该模型被定位为“打工人的最佳工作模型”,能有效辅助完成创建电子表格、制作演示文稿、编写代码、感知图像等专业任务 [21][22][29] - 公司报告称,ChatGPT每天能为企业用户平均节省40–60分钟,重度用户每周能节省超过10小时 [25] - 在科学研究辅助方面,GPT-5.2 Pro和Thinking是辅助科学家工作的最佳模型,在研究生水平基准GPQA Diamond上分别达到93.2%和92.4%,并已实际参与完成学术论文证明 [70][72][73] - 新模型已向付费ChatGPT用户(Plus、Pro、Go、Business、Enterprise)优先开放,GPT-5.1将继续供付费用户使用三个月后停用 [87] - 开发者可通过Responses API和Chat Completions API使用对应模型,并支持新的第五种推理强度“xhigh” [88]