事件概述 - OpenAI于周四发布GPT-5.3-Codex,称其为迄今最强编程代理,发布时间与Anthropic发布Claude Opus 4.6同步,标志着企业级软件开发AI编程大战正式打响 [2][3] 模型性能与技术进步 - 基准测试大幅领先:GPT-5.3-Codex在SWE-Bench Pro上取得57%的成绩,在Terminal-Bench 2.0上得分77.3%,在OSWorld上得分64% [6][8] - 性能显著提升:在Terminal-Bench 2.0上,GPT-5.3-Codex得分77.3%,较上一代GPT-5.2-Codex的64.0%提升13个百分点,并“彻底碾压”Anthropic Opus 4.6的65.4% [9] - 效率大幅提升:完成同等任务所需token数量不到上一代模型的一半,同时单个token的推理速度提升超过25% [11] - 实现自我构建里程碑:Codex团队使用GPT-5.3-Codex的早期版本来调试自身训练过程、管理部署基础设施并诊断测试结果,是首个在自身创建中发挥关键作用的模型 [4][5] 战略定位与能力扩展 - 定位从编程助手进化为编程操作者:能力扩展至调试、部署、监控、撰写需求文档、编辑文案、用户研究、制作演示文稿及分析数据等,目标市场从开发者工具扩展至更广泛的企业生产力软件领域 [14] - 在GDPVal评估中表现突出:该评估用于衡量模型在44种职业中对知识型工作任务的完成能力 [14] - 首个“高能力”网络安全模型:在“准备度框架”下被归类为在网络安全任务上具备“高能力”,是首个被直接训练用于识别软件漏洞的模型,公司部署了最全面的网络安全防护体系 [15][16] - 投入网络安全防御:承诺投入1000万美元的API额度用于加速网络防御,并扩大安全研究代理Aardvark的私有测试 [18] 行业竞争格局 - 发布时间点正面交锋:OpenAI与Anthropic均将重大产品发布安排在美西时间上午10点,Anthropic发布Claude Opus 4.6,称其规划更谨慎、能持续执行代理任务、在大型代码库中运行可靠并能自我纠错 [19][20] - 公开口水战升级:Anthropic在超级碗期间播出广告嘲讽OpenAI测试广告的决定,OpenAI首席执行官Sam Altman罕见直接回应,称广告“明显不诚实”,并将Anthropic形容为“威权式公司” [21][22][24] - 企业AI支出远超预期:2025年企业平均在大语言模型上支出达700万美元,较2024年的250万美元高出180%,预计2026年将达1160万美元,再增长65% [27] - 市场份额变化:OpenAI在企业AI支出份额从2024年的62%预计下降至2026年的53%,同期Anthropic份额从14%上升至18%,Google也呈增长趋势 [27] - 生产环境使用差异:在OpenAI客户中,仅46%在生产环境中使用其最强模型,而Anthropic和Google该比例分别为75%和76% [28] - 软件开发市场份额:在软件开发场景中,OpenAI市场份额约为35%,Anthropic占据剩余市场中相当可观且持续增长的部分 [28] 产品发布与未来计划 - 立即向付费用户开放:GPT-5.3-Codex已向付费ChatGPT用户开放,覆盖桌面应用、命令行接口、IDE扩展和网页端,API接口预计随后推出 [30] - 新增交互功能:用户可在“务实型”和“友好型”两种性格之间选择,模型在执行任务中会频繁提供进度更新,允许用户实时互动、提问并引导解决方案 [30] - 承诺推出更多功能:公司承诺未来几周将推出更多能力,首席执行官Sam Altman表示“我相信Codex会赢” [31]
AI编程大战打响!OpenAI推出GPT-5.3-Codex,与Anthropic同步发布新模型
硬AI·2026-02-06 14:44