行业竞争动态 - 人工智能行业竞争激烈,OpenAI在Anthropic发布Claude Opus 4.6仅15分钟后,就发布了其最新的编程模型GPT-5.3-Codex,形成直接竞争态势 [1] - 两大科技公司相继发布重量级编程模型,引发了社区用户的分化,形成了Anthropic派和OpenAI派 [13][15] GPT-5.3-Codex模型核心能力 - 模型在多项专业基准测试中表现卓越,在SWE-Bench Pro上达到57%,在TerminalBench 2.0上达到76%,在OSWorld上达到64% [9] - 模型效率显著提升,完成相同任务所需的token数量不到前代GPT-5.2-Codex的一半,且单token处理速度提升超过25% [11] - 模型具备更强的“计算机使用”能力,能够协助金融从业者直接制作PPT,并能处理写文档、做电子表格等专业知识密集型任务 [6][8] - 模型在网页开发方面对“意图”的理解更强,即便提示不清晰也能自动补全逻辑,生成功能齐全且UI更好看的网站 [4] - 模型支持任务进行中的实时引导,用户可随时调整方向并获取更新,可控性增强 [10] 模型性能基准对比 - 与上一代模型相比,GPT-5.3-Codex在几乎所有评估维度上都有明显提升 [11] - 具体基准测试对比数据如下:SWE-Bench Pro为56.8%(GPT-5.2-Codex为56.4%),Terminal-Bench 2.0为77.3%(GPT-5.2-Codex为64.0%),OSWorld-Verified为64.7%(GPT-5.2-Codex为38.2%),Cybersecurity Capture The Flag Challenges为77.6%(GPT-5.2-Codex为67.4%),SWE-Lancer IC Diamond为81.4%(GPT-5.2-Codex为76.0%) [12] 模型训练与应用创新 - GPT-5.3-Codex是OpenAI首个参与“自我加速”训练的模型,其早期版本被用于调试自身训练流程、管理部署以及评估测试结果 [23] - 在训练阶段,研究团队使用Codex监控和调试训练任务,追踪模型行为变化并进行深入分析 [23] - 在工程实践中,模型帮助数据科学家快速构建数据管道并进行可视化分析,能在不到三分钟内从数千个数据点中提炼关键洞见 [23] - 工程团队借助Codex优化了模型的测试与运行框架,并成功定位和解决了影响用户体验的异常边缘案例 [23] 公司其他战略举措 - OpenAI推出了名为“Frontier”的企业级平台,旨在帮助企业打造“AI同事”并集成到工作流中,已获得HP、Intuit、Oracle、State Farm、Thermo Fisher和Uber等知名企业的采用 [24][27] - OpenAI与合成生物学公司Ginkgo合作,通过将GPT-5接入自主实验室,使蛋白质合成成本降低了40%,实现了从提出实验方案到规模化执行和学习的完整闭环 [27][29]
GPT-5.3上线Codex,OpenAI回应Claude新模型只用了15分钟
36氪·2026-02-06 16:40