文章核心观点 - OpenAI在Claude Opus 4.6发布仅15分钟后,迅速推出了其最新最强的编程模型GPT-5.3-Codex,标志着两大AI公司在编程模型领域展开了激烈的竞争 [1] - GPT-5.3-Codex在编程能力、计算机使用、效率及美学设计上均有显著提升,并首次参与了自身的训练过程,实现了“自我加速” [27][28] - 除了模型升级,OpenAI还推出了旨在将AI智能体融入企业工作流的ToB平台Frontier,以及与Ginkgo合作利用GPT-5降低蛋白质合成成本的AI4S项目 [36][39] 模型性能与技术亮点 - 编程能力显著增强:GPT-5.3-Codex在SWE-Bench Pro上实现了57%的得分,在TerminalBench 2.0上达到76%,在OSWorld上达到64%,均优于前代模型 [11][18] - 效率大幅提升:完成相同任务时,所需token数量不到前代GPT-5.2-Codex的一半,单token处理速度提升超过25% [11][22] - 计算机使用能力突出:模型在OSWorld基准测试中表现优异,能协助完成如制作金融PPT、处理电子表格等专业知识密集型职场任务 [7][9][24][25] - 设计美学与意图理解进步:新模型生成的游戏Demo和网页UI设计感更强,对用户“意图”的理解也更深入 [2][5][6] 模型训练与自我应用 - 参与自身训练:GPT-5.3-Codex是OpenAI首个参与“自我加速”的模型,其早期版本被用于调试自身训练流程、管理部署和评估测试结果 [28] - 加速研发流程:在训练阶段,研究团队使用Codex监控调试任务并追踪模型行为变化;在数据分析中,模型能在3分钟内从数千个数据点提炼关键洞见;工程团队也借助其优化测试框架并定位缺陷 [29][30][31][32] 公司战略与业务动向 - 推出ToB平台Frontier:OpenAI推出旨在让AI智能体真正进入公司工作流的平台,提供共享上下文、入职引导、实践学习等功能,已获HP、Intuit、Oracle、State Farm、Thermo Fisher和Uber等企业采用 [34][36][37][38] - 拓展AI for Science (AI4S):OpenAI与合成生物学公司Ginkgo合作,将GPT-5接入自主实验室,使模型能提出并执行实验方案,据称将蛋白质合成成本降低了40% [39][41] 行业竞争格局 - 头部公司竞争白热化:OpenAI与Anthropic在编程模型上展开“对轰”,双方相继发布Claude Opus 4.6和GPT-5.3-Codex,引发社区用户分派讨论 [1][13][15] - 性能对比优势明显:根据官方对比表,GPT-5.3-Codex在多项基准测试(如SWE-Bench Pro、Terminal-Bench 2.0、OSWorld-Verified、Cybersecurity Capture The Flag)上的表现均明显超越前代GPT-5.2-Codex和GPT-5.2 [12]
GPT-5.3上线Codex!OpenAI回应Claude新模型只用了15分钟
量子位·2026-02-06 10:30