中门对狙！Claude Opus 4.6和GPT-5.3 Codex同时发布，这下真的AI春晚了。

文章核心观点 - 行业两大领先公司Anthropic与OpenAI在同一天发布重磅模型更新，标志着AI行业竞争进入白热化阶段，模型能力快速进步且差距缩小 [129][130][132] - 两家公司均将发展重点押注于智能体（Agent）方向，但产品侧重点有所不同，Claude更侧重于B端生产力工具集成，而GPT Codex系列更专注于编程与开发场景 [133][66][108] - 模型能力的提升正驱动软件行业经历一场根本性的范式转变，传统SaaS公司面临压力，现在是需要密切关注和积极学习的关键时期 [134][136][137] Claude Opus 4.6 模型性能分析 - 在多项基准测试中表现卓越，综合能力被视为当前最先进的模型（SOTA）[23] - 终端编程能力：在Terminal-Bench 2.0测试中得分65.4%，高于GPT-5.2的64.7%和Gemini 3 Pro的56.2% [9][10] - 计算机操作能力：在OSWorld测试中得分72.7%，较其前代Opus 4.5的66.3%有显著提升，表明其向全面智能体化发展 [11] - 网络搜索能力：在BrowseComp测试中得分84.0%，大幅领先于GPT-5.2 Pro的77.9% [12][13] - 真实工作任务表现：在GDPval-AA评估中获得1606的Elo评分，比GPT-5.2高出144分，比其前代Opus 4.5高出190分 [14] - 新颖问题解决能力：在ARC AGI 2测试中得分高达68.8%，远超其他模型，展现了强大的“流体智力” [15][21] Claude Opus 4.6 产品功能更新 - 上下文窗口大幅扩展：支持100万token的上下文窗口，是之前200K容量的5倍，并在MRCR v2测试中，于100万token中准确找到隐藏信息的成功率达76% [28][34] - 输出上限提升：最大输出从64K token翻倍至128K token [37] - 上下文压缩功能：模型可自动将旧对话内容压缩为摘要，以支持更长时间的连续任务执行 [41][43] - 自适应思考与努力控制：新增Adaptive Thinking功能，让模型自主判断思考深度；用户可手动设置思考努力程度（low, medium, high, max），以平衡速度、成本与质量 [49][51] - 智能体团队协作：推出Agent Teams功能，允许一个会话作为协调者，启动多个拥有独立上下文窗口的团队成员并行工作并直接相互通信，适用于需要讨论与协作的复杂任务 [53][55][57] Anthropic 的B端产品集成进展 - Excel深度集成：Claude in Excel插件已集成Opus 4.6，新增支持数据透视表编辑、图表修改、条件格式、排序筛选及金融级格式设置等功能 [58][59] - PowerPoint集成：新推出Claude in PowerPoint插件，Claude可读取现有演示文稿的布局与样式，并根据客户模板创建新内容或进行针对性编辑 [62][63][64] - 公司在B端和生产工具领域的产品体验被认为已形成显著优势 [66] Claude Opus 4.6 定价与可用性 - API基础价格保持为输入每百万token 5美元，输出每百万token 25美元 [68] - 当提示超过20万token时，定价调整为输入每百万token 10美元，输出每百万token 37.50美元 [69] - 模型已在Claude网页版及Claude Code中全面上线 [73] GPT-5.3 Codex 模型特性与意义 - 自我改进的里程碑：该模型是首个在自身开发过程中发挥重要作用的模型，被用于调试训练过程、管理部署和诊断测试结果，这可能加速AI自身的进化速度 [80][86] - 终端编程能力领先：在Terminal-Bench 2.0测试中得分77.3%，显著高于Claude Opus 4.6的65.4% [92][93] - 计算机操作能力：在更严格、修复了300多个问题的OSWorld-Verified测试中得分64.7%，其测试基准被认为比Claude报告的原版OSWorld更难 [95][96] - 软件工程任务：在更复杂、多语言、多仓库的SWE-bench Pro Public测试中得分56.8%，该基准被认为比Claude使用的SWE-bench Verified子集难度更高 [103][106][107] - 真实工作贡献评估：在GDPval评估中，其产出被人类专家盲评为“与人类一样好或更好”的比例为70.9% [99] GPT-5.3 Codex 产品演示与更新 - 复杂游戏开发能力：模型在数天内自主迭代数百万token，生成了包含多地图、道具系统的完整赛车游戏以及包含生态系统探索、氧气管理系统的潜水游戏 [110][114] - 实时交互功能：用户可在模型工作过程中随时介入并调整方向，无需先停止任务 [117][118] - 性能与效率提升：在Codex平台上运行速度显著加快，完成相同任务所需token数不到5.2-Codex的一半，且单token处理速度快25%以上 [121][124]