硬碰硬！刚刚，Claude Opus 4.6与GPT-5.3-Codex同时发布

行业动态：海外大模型密集发布 - 北京时间2月6日凌晨，Anthropic与OpenAI相继发布新版本基础大模型Claude Opus 4.6与GPT-5.3-Codex，形成硬碰硬的竞争局面 [2] Anthropic：Claude Opus 4.6核心升级 - Claude Opus 4.6是Anthropic旗舰模型的重大升级，规划更谨慎，能维持更长时间的自主工作流程，并在关键企业基准测试中超越了包括GPT-5.2在内的竞争对手 [5] - 新模型首次拥有100万token的上下文窗口，能处理和推理更多信息 [6] - 在Claude Code中引入了“智能体团队”功能，允许多个AI智能体同时处理编码项目的不同方面并进行自主协调 [6] - 模型可应用于运行财务分析、进行研究以及使用和创建文档、电子表格和演示文稿等日常工作任务 [6] - 在智能体编码评估工具Terminal-Bench 2.0中取得最高分65.4%，在“人类最后的考试”中领先于所有其他前沿模型 [7] - 在GDPval-AA测试中，Opus 4.6的表现比业界次优模型GPT-5.2高出约144个Elo分数，比其前身Claude Opus 4.5高出190分 [7] - 在BrowseComp测试中也优于其他所有模型，该测试用于衡量模型在线查找难寻信息的能力 [7] - 模型定价保持不变，每百万token 5美元 / 25美元 [8] - 在MRCR v2的8针1M变体测试中，Opus 4.6得分为76%，而其前代Sonnet 4.5得分仅为18.5%，有效缓解了“上下文腐烂”问题 [9] - 为证明其智能体能力，一名研究员使用16个智能体从零开始构建了一个基于Rust的C语言编译器，最终代码长达10万行，耗资2万美元，超过2000次Claude Code会话，历时两周 [9] - 该编译器可在x86、ARM和RISC-V上构建可启动的Linux 6.9，通过了GCC 99%的压力测试，并能编译FFmpeg、Redis、PostgreSQL、QEMU及Doom游戏 [12] OpenAI：GPT-5.3-Codex核心升级 - OpenAI发布新一代模型GPT-5.3-Codex，奥特曼称其拥有目前最佳的编码性能 [15] - 模型在多项基准上刷新纪录：在SWE-Bench Pro上达到56.8%，在Terminal-Bench 2.0上达到77.3% [16] - 相比此前版本运行更快、消耗的token更少 [16] - 模型融合了GPT-5.2-Codex的前沿编码性能和GPT-5.2的推理及专业知识能力，速度提升了25% [19] - 该模型使Codex从一个能够编写和审查代码的代理，变成了一个几乎可以执行开发人员和专业人士在计算机上的任何操作的代理 [20] - OpenAI让GPT-5.3-Codex自主构建了两款游戏：一款赛车游戏的第二版和一款潜水游戏 [20] - 模型利用其网页游戏开发技能以及预先设定的通用后续提示，自主地迭代开发了数百万个token [23] - OpenAI对其的期望远不止步于一个智能编码模型，而是一个能够“Beyond coding”，实现工作助理的智能体 [24] - 模型能够支持软件生命周期中的所有工作，包括调试、部署、监控、编写产品需求文档、编辑文案、用户研究、测试、指标分析等 [25] - Codex应用可以让管理和指导智能体变得更加便捷，而GPT-5.3-Codex的加入更使其交互性更强，允许实时互动 [27] - 由于基础设施和推理堆栈的改进，Codex用户现在运行GPT-5.3-Codex的速度也提高了25% [29] - GPT-5.3-Codex已包含在ChatGPT的付费套餐中 [29] 行业影响与趋势 - 在未来加入AI的工作流程中，人的角色已经从编写代码转变为构建让AI能够编写代码的环境 [14] - 随着模型能力的不断增强，差距不再仅仅在于智能体能够做什么，而是在于人类如何轻松地与多个并行工作的智能体进行交互、指导和监督 [27] - OpenAI的许多研究人员和工程师表示，他们现在的工作与两个月前相比发生了根本性的变化，例如研究团队使用Codex来监控和调试模型训练运行 [27] - 工程团队使用Codex对GPT-5.3-Codex框架进行了优化和适配，并利用其识别错误和应对流量高峰 [28] - 在Alpha测试期间，GPT-5.3-Codex被用于生成分类器分析用户会话日志并生成报告，以评估生产力提升 [28] - 海外大模型密集发布后，预计国内大模型也将在春节前跟进，包括DeepSeek v4可能即将到来 [31]