Workflow
Agent化编程模型
icon
搜索文档
贴脸对打Opus 4.5!最新Codex自己写自己,网友实测“放手”8小时不崩
AI前线· 2026-02-06 15:21
文章核心观点 - OpenAI发布其目前最强的Agent化编程模型GPT-5.3-Codex,旨在成为软件开发中的“第一入口”,目标是让人类在面临技术任务时,第一反应是与Agent交互而非打开编辑器或终端 [4][11][26] - 该模型能力实现阶跃式提升,不仅能写代码,还能长期运行任务、调用工具、操作终端、管理部署流程,几乎能独立完成从研发到上线的整条链路 [11][22] - 行业正经历软件开发方式的根本性变革,公司需要为“Agent化软件开发”重构流程、代码结构和团队协作方式 [25][26] 模型性能与基准测试 - **终端执行能力显著增强**:在Terminal-Bench 2.0上,GPT-5.3-Codex得分为77.3%,较上一代GPT-5.2-Codex的64.0%提升了近13个百分点,并领先于Claude Opus 4.6的65.4% [13][15] - **计算机操作能力翻倍级提升**:在OSWorld测试中得分为64.7%,远高于上一代GPT-5.2-Codex的38.2% [16] - **网络安全能力提升**:在Cybersecurity CTF挑战赛中得分为77.6%,较上一代GPT-5.2-Codex的67.4%提升了约10% [16] - **输出准确率稳定**:对于不同输出token数量,其准确率始终高于GPT-5.2-Codex和GPT-5.2 [17] - **其他基准表现**:在SWE-Bench Pro (Public)上得分为56.8%,在SWE-Lancer IC Diamond上得分为81.4% [14] 实际应用与用户体验 - **长链路任务稳定性突出**:用户实测表明,模型可连续运行8小时以上而不会中途崩溃、漂移或降智,解决了多步任务中的稳定性问题 [21][23] - **具备自主闭环与判断力**:模型能自行补全模糊信息、做架构判断、修复Bug、部署应用、查看日志并持续迭代,直至测试通过;在指令有歧义时,能选择更稳健的路径而非“捷径” [22] - **懂得利用等待时间与保持分寸**:会在命令执行期间补充文档和上下文,修复边角问题,但不会越界乱改未指定的代码 [22][23] - **支持有效的多Agent协作**:能够将任务切分为并行工作流,由不同Agent负责,推进更快且不易遗漏 [23] - **主要缺点**:运行速度较慢,过程播报偶尔中断,不太适合用于设计prompt或agent架构 [23] 行业影响与公司转型 - **软件开发方式发生根本变化**:OpenAI内部工程师自去年12月以来,工作方式已从仅用Codex写单元测试,转变为由它编写几乎全部代码并承担大量运维调试工作 [26] - **公司需系统性转型以适应Agent化开发**:OpenAI提出内部转型实践,目标是在3月31日前,让人类对任何技术任务的第一选择是与Agent交互 [26] - **具体转型措施包括**:指定“Agent负责人”、分享经验、举办Hackathon、维护项目AGENTS.md文件、抽象共享skills、开放内部工具接口、构建“Agent优先”的代码库结构、拒绝“垃圾代码”以及建设相应基础设施 [27][28][29][30][31] - **管理挑战**:大规模管理AI生成代码需要新流程与规范,包括确保每段合并代码有明确人工负责人、审查标准不低于人工代码、记录Agent执行轨迹以及建立可观测性系统 [33]