GPT-5.3上线Codex，OpenAI回应Claude新模型只用了15分钟

行业竞争动态 - 人工智能行业竞争激烈，OpenAI在Anthropic发布Claude Opus 4.6仅15分钟后，就发布了其最新的编程模型GPT-5.3-Codex，形成直接竞争态势 [1] - 两大科技公司相继发布重量级编程模型，引发了社区用户的分化，形成了Anthropic派和OpenAI派 [13][15] GPT-5.3-Codex模型核心能力 - 模型在多项专业基准测试中表现卓越，在SWE-Bench Pro上达到57%，在TerminalBench 2.0上达到76%，在OSWorld上达到64% [9] - 模型效率显著提升，完成相同任务所需的token数量不到前代GPT-5.2-Codex的一半，且单token处理速度提升超过25% [11] - 模型具备更强的“计算机使用”能力，能够协助金融从业者直接制作PPT，并能处理写文档、做电子表格等专业知识密集型任务 [6][8] - 模型在网页开发方面对“意图”的理解更强，即便提示不清晰也能自动补全逻辑，生成功能齐全且UI更好看的网站 [4] - 模型支持任务进行中的实时引导，用户可随时调整方向并获取更新，可控性增强 [10] 模型性能基准对比 - 与上一代模型相比，GPT-5.3-Codex在几乎所有评估维度上都有明显提升 [11] - 具体基准测试对比数据如下：SWE-Bench Pro为56.8%（GPT-5.2-Codex为56.4%），Terminal-Bench 2.0为77.3%（GPT-5.2-Codex为64.0%），OSWorld-Verified为64.7%（GPT-5.2-Codex为38.2%），Cybersecurity Capture The Flag Challenges为77.6%（GPT-5.2-Codex为67.4%），SWE-Lancer IC Diamond为81.4%（GPT-5.2-Codex为76.0%） [12] 模型训练与应用创新 - GPT-5.3-Codex是OpenAI首个参与“自我加速”训练的模型，其早期版本被用于调试自身训练流程、管理部署以及评估测试结果 [23] - 在训练阶段，研究团队使用Codex监控和调试训练任务，追踪模型行为变化并进行深入分析 [23] - 在工程实践中，模型帮助数据科学家快速构建数据管道并进行可视化分析，能在不到三分钟内从数千个数据点中提炼关键洞见 [23] - 工程团队借助Codex优化了模型的测试与运行框架，并成功定位和解决了影响用户体验的异常边缘案例 [23] 公司其他战略举措 - OpenAI推出了名为“Frontier”的企业级平台，旨在帮助企业打造“AI同事”并集成到工作流中，已获得HP、Intuit、Oracle、State Farm、Thermo Fisher和Uber等知名企业的采用 [24][27] - OpenAI与合成生物学公司Ginkgo合作，通过将GPT-5接入自主实验室，使蛋白质合成成本降低了40%，实现了从提出实验方案到规模化执行和学习的完整闭环 [27][29]