通用智能 - 财报，业绩电话会，研报，新闻

通用智能

搜索文档

36氪· 2025-12-12 07:58

产品发布与定位 - OpenAI发布GPT-5.2系列模型，包括即时版、思考版和专业版三款，今日全部上线 [1][2] - 该系列模型定位为“地表最强通用模型”，专为解决高难度知识型工作而生 [4] - 此次更新正值公司内部进入“红色代码”紧急状态，旨在集中资源优先开发，但公司高管表示不应将其视为对竞争对手的直接回应 [21] 核心性能提升 - 相比上一代，GPT-5.2在通用智能、超长文本理解、Agent工具调用及视觉能力上实现全面进化 [6] - 在SWE-Bench Pro基准测试中取得55.6%的高分，在LMArena代码竞技场中位列全球第二，在ARC-AGI-2基准测试中以52.9%的绝对优势登顶全球第一 [6] - 在GDPval基准测试中，覆盖44种职业知识，表现超越人类行业专家，成为首个在该测试中表现超过人类专家水平的模型 [6][25] - 在长上下文推理方面树立新标准，在OpenAI MRCRv2基准测试的多种变体（高达256k Token）上达到接近100%的准确率 [53] - 视觉能力显著增强，在图表推理和软件界面理解方面的错误率大约减少了一半 [60] 具体任务表现 - 在GDPval知识工作任务中，GPT-5.2 Thinking在70.9%的情况下击败或打平顶尖行业专业人士，完成任务的速度比专家快11倍，成本低于1% [27] - 在针对初级投资银行分析师电子表格建模的内部测试中，GPT-5.2 Thinking的平均每任务得分比GPT-5.1高出9.3个百分点（从59.1%升至68.4%） [33] - 在编程能力上，GPT-5.2 Thinking在SWE-bench Verified上取得80%的高分，能更可靠地调试生产环境代码、实现功能请求和重构大型代码库 [44] - 幻觉显著减少，在一组去标识化的ChatGPT查询中，包含错误的回答相对减少了30% [49] - 在工具调用和端到端工作流方面表现卓越，在Tau2-bench Telecom上创造了98.7%的新纪录 [64] 模型规格与定价 - 模型知识库更新至2025年8月31日，拥有40万Token的上下文窗口和12.8万Token的最大输出长度 [19] - 相比GPT-5/5.1，GPT-5.2的输入输出价格贵了40% [19] - 具体定价为：GPT-5.2 / gpt-5.2-chat-latest的输入价格为每百万Token 1.75美元，输出价格为14美元；GPT-5.2 Pro的输入价格为21美元，输出价格为168美元 [20] - 尽管每Token成本更高，但由于更高的Token效率，GPT-5.2的性价比反而更高 [88] 行业影响与生态 - 该模型被定位为“打工人的最佳工作模型”，能有效辅助完成创建电子表格、制作演示文稿、编写代码、感知图像等专业任务 [21][22][29] - 公司报告称，ChatGPT每天能为企业用户平均节省40–60分钟，重度用户每周能节省超过10小时 [25] - 在科学研究辅助方面，GPT-5.2 Pro和Thinking是辅助科学家工作的最佳模型，在研究生水平基准GPQA Diamond上分别达到93.2%和92.4%，并已实际参与完成学术论文证明 [70][72][73] - 新模型已向付费ChatGPT用户（Plus、Pro、Go、Business、Enterprise）优先开放，GPT-5.1将继续供付费用户使用三个月后停用 [87] - 开发者可通过Responses API和Chat Completions API使用对应模型，并支持新的第五种推理强度“xhigh” [88]