硅谷一夜两弹,GPT-5.3-Codex狙击Claude 4.6, 奥特曼真急了
36氪·2026-02-06 16:17

行业竞争格局 - 人工智能编程模型领域竞争白热化,Anthropic与OpenAI在短时间内相继发布重磅升级产品,Claude Opus 4.6与GPT-5.3-Codex的发布标志着“双雄争霸”格局加剧 [1][9] - 产品迭代速度极快,市场参与者与用户均感受到巨大压力,有观点认为“简直跟不上AI迭代的速度了” [11] GPT-5.3-Codex产品核心升级 - 新产品是GPT-5.2-Codex与GPT-5.2的融合升级版,结合了顶尖编程能力与卓越的推理及专业知识能力,且运行速度提升了25% [3] - 模型在自身创造过程中发挥了关键作用,实现了“自我加速迭代” [5][57] - 产品定位发生根本性转变,从一个编写和审查代码的AI智能体,进化为一个几乎能完成开发者和专业人士在计算机上能做的任何事情的“通用协作者” [7][58][59] 技术性能表现 - 在软件工程基准测试SWE-Bench Pro (Public)中得分56.8%,创下行业新高 [8][17][19] - 在终端操作基准测试Terminal-Bench 2.0中得分77.3%,较GPT-5.2-Codex的64.0%有显著提升 [8] - 在计算机使用基准测试OSWorld-Verified中得分64.7%,远超GPT-5.2-Codex的38.2%和GPT-5.2的37.9% [8][48] - 在网络安全夺旗挑战Cybersecurity Capture The Flag Challenges中得分77.6%,高于前代模型的67.4% [8] - 在专业技能工作评估GDPval中,与GPT-5.2处于同一顶尖水平,获胜或打平率为70.9% [8][35] - 实现优异性能所消耗的Token比以往任何模型都要少得多 [20] 应用场景与能力拓展 - 具备长程任务处理能力,能够轻松驾驭涉及深度研究、工具调用及复杂执行的任务 [5] - 具备强大的前端与游戏开发能力,例如能在几天内从零开始构建功能复杂的游戏,并在数百万个Token的交互中自主迭代 [24] - 对用户意图理解更精准,在构建网站等任务时,能默认生成功能更丰富、设置更合理的起步画布 [25][26][27] - 能力范围超越编程,扩展至软件生命周期的所有环节(如调试、部署、监控)以及专业知识工作(如制作幻灯片、进行复杂数据分析、编写培训文档) [35][38][40][44][46][47] - 支持实时交互与引导,用户可在其工作时进行提问、讨论并引导解决方案,无需担心上下文丢失 [5][51][52][53][54] 商业化与生态 - GPT-5.3-Codex现已加入ChatGPT付费计划,覆盖Codex所有应用场景,包括App、CLI、IDE扩展及Web端 [8]

硅谷一夜两弹,GPT-5.3-Codex狙击Claude 4.6, 奥特曼真急了 - Reportify