AI编程大战打响！OpenAI推出GPT-5.3-Codex，与Anthropic同步发布新模型

事件概述 - OpenAI于周四发布GPT-5.3-Codex，称其为迄今最强编程代理，发布时间与Anthropic发布Claude Opus 4.6同步，标志着企业级软件开发AI编程大战正式打响 [2][3] 模型性能与技术进步 - 基准测试大幅领先：GPT-5.3-Codex在SWE-Bench Pro上取得57%的成绩，在Terminal-Bench 2.0上得分77.3%，在OSWorld上得分64% [6][8] - 性能显著提升：在Terminal-Bench 2.0上，GPT-5.3-Codex得分77.3%，较上一代GPT-5.2-Codex的64.0%提升13个百分点，并“彻底碾压”Anthropic Opus 4.6的65.4% [9] - 效率大幅提升：完成同等任务所需token数量不到上一代模型的一半，同时单个token的推理速度提升超过25% [11] - 实现自我构建里程碑：Codex团队使用GPT-5.3-Codex的早期版本来调试自身训练过程、管理部署基础设施并诊断测试结果，是首个在自身创建中发挥关键作用的模型 [4][5] 战略定位与能力扩展 - 定位从编程助手进化为编程操作者：能力扩展至调试、部署、监控、撰写需求文档、编辑文案、用户研究、制作演示文稿及分析数据等，目标市场从开发者工具扩展至更广泛的企业生产力软件领域 [14] - 在GDPVal评估中表现突出：该评估用于衡量模型在44种职业中对知识型工作任务的完成能力 [14] - 首个“高能力”网络安全模型：在“准备度框架”下被归类为在网络安全任务上具备“高能力”，是首个被直接训练用于识别软件漏洞的模型，公司部署了最全面的网络安全防护体系 [15][16] - 投入网络安全防御：承诺投入1000万美元的API额度用于加速网络防御，并扩大安全研究代理Aardvark的私有测试 [18] 行业竞争格局 - 发布时间点正面交锋：OpenAI与Anthropic均将重大产品发布安排在美西时间上午10点，Anthropic发布Claude Opus 4.6，称其规划更谨慎、能持续执行代理任务、在大型代码库中运行可靠并能自我纠错 [19][20] - 公开口水战升级：Anthropic在超级碗期间播出广告嘲讽OpenAI测试广告的决定，OpenAI首席执行官Sam Altman罕见直接回应，称广告“明显不诚实”，并将Anthropic形容为“威权式公司” [21][22][24] - 企业AI支出远超预期：2025年企业平均在大语言模型上支出达700万美元，较2024年的250万美元高出180%，预计2026年将达1160万美元，再增长65% [27] - 市场份额变化：OpenAI在企业AI支出份额从2024年的62%预计下降至2026年的53%，同期Anthropic份额从14%上升至18%，Google也呈增长趋势 [27] - 生产环境使用差异：在OpenAI客户中，仅46%在生产环境中使用其最强模型，而Anthropic和Google该比例分别为75%和76% [28] - 软件开发市场份额：在软件开发场景中，OpenAI市场份额约为35%，Anthropic占据剩余市场中相当可观且持续增长的部分 [28] 产品发布与未来计划 - 立即向付费用户开放：GPT-5.3-Codex已向付费ChatGPT用户开放，覆盖桌面应用、命令行接口、IDE扩展和网页端，API接口预计随后推出 [30] - 新增交互功能：用户可在“务实型”和“友好型”两种性格之间选择，模型在执行任务中会频繁提供进度更新，允许用户实时互动、提问并引导解决方案 [30] - 承诺推出更多功能：公司承诺未来几周将推出更多能力，首席执行官Sam Altman表示“我相信Codex会赢” [31]