文章核心观点 - 行业两大领先公司Anthropic与OpenAI在同一天发布重磅模型更新,标志着AI行业竞争进入白热化阶段,模型能力快速进步且差距缩小 [129][130][132] - 两家公司均将发展重点押注于智能体(Agent)方向,但产品侧重点有所不同,Claude更侧重于B端生产力工具集成,而GPT Codex系列更专注于编程与开发场景 [133][66][108] - 模型能力的提升正驱动软件行业经历一场根本性的范式转变,传统SaaS公司面临压力,现在是需要密切关注和积极学习的关键时期 [134][136][137] Claude Opus 4.6 模型性能分析 - 在多项基准测试中表现卓越,综合能力被视为当前最先进的模型(SOTA)[23] - 终端编程能力:在Terminal-Bench 2.0测试中得分65.4%,高于GPT-5.2的64.7%和Gemini 3 Pro的56.2% [9][10] - 计算机操作能力:在OSWorld测试中得分72.7%,较其前代Opus 4.5的66.3%有显著提升,表明其向全面智能体化发展 [11] - 网络搜索能力:在BrowseComp测试中得分84.0%,大幅领先于GPT-5.2 Pro的77.9% [12][13] - 真实工作任务表现:在GDPval-AA评估中获得1606的Elo评分,比GPT-5.2高出144分,比其前代Opus 4.5高出190分 [14] - 新颖问题解决能力:在ARC AGI 2测试中得分高达68.8%,远超其他模型,展现了强大的“流体智力” [15][21] Claude Opus 4.6 产品功能更新 - 上下文窗口大幅扩展:支持100万token的上下文窗口,是之前200K容量的5倍,并在MRCR v2测试中,于100万token中准确找到隐藏信息的成功率达76% [28][34] - 输出上限提升:最大输出从64K token翻倍至128K token [37] - 上下文压缩功能:模型可自动将旧对话内容压缩为摘要,以支持更长时间的连续任务执行 [41][43] - 自适应思考与努力控制:新增Adaptive Thinking功能,让模型自主判断思考深度;用户可手动设置思考努力程度(low, medium, high, max),以平衡速度、成本与质量 [49][51] - 智能体团队协作:推出Agent Teams功能,允许一个会话作为协调者,启动多个拥有独立上下文窗口的团队成员并行工作并直接相互通信,适用于需要讨论与协作的复杂任务 [53][55][57] Anthropic 的B端产品集成进展 - Excel深度集成:Claude in Excel插件已集成Opus 4.6,新增支持数据透视表编辑、图表修改、条件格式、排序筛选及金融级格式设置等功能 [58][59] - PowerPoint集成:新推出Claude in PowerPoint插件,Claude可读取现有演示文稿的布局与样式,并根据客户模板创建新内容或进行针对性编辑 [62][63][64] - 公司在B端和生产工具领域的产品体验被认为已形成显著优势 [66] Claude Opus 4.6 定价与可用性 - API基础价格保持为输入每百万token 5美元,输出每百万token 25美元 [68] - 当提示超过20万token时,定价调整为输入每百万token 10美元,输出每百万token 37.50美元 [69] - 模型已在Claude网页版及Claude Code中全面上线 [73] GPT-5.3 Codex 模型特性与意义 - 自我改进的里程碑:该模型是首个在自身开发过程中发挥重要作用的模型,被用于调试训练过程、管理部署和诊断测试结果,这可能加速AI自身的进化速度 [80][86] - 终端编程能力领先:在Terminal-Bench 2.0测试中得分77.3%,显著高于Claude Opus 4.6的65.4% [92][93] - 计算机操作能力:在更严格、修复了300多个问题的OSWorld-Verified测试中得分64.7%,其测试基准被认为比Claude报告的原版OSWorld更难 [95][96] - 软件工程任务:在更复杂、多语言、多仓库的SWE-bench Pro Public测试中得分56.8%,该基准被认为比Claude使用的SWE-bench Verified子集难度更高 [103][106][107] - 真实工作贡献评估:在GDPval评估中,其产出被人类专家盲评为“与人类一样好或更好”的比例为70.9% [99] GPT-5.3 Codex 产品演示与更新 - 复杂游戏开发能力:模型在数天内自主迭代数百万token,生成了包含多地图、道具系统的完整赛车游戏以及包含生态系统探索、氧气管理系统的潜水游戏 [110][114] - 实时交互功能:用户可在模型工作过程中随时介入并调整方向,无需先停止任务 [117][118] - 性能与效率提升:在Codex平台上运行速度显著加快,完成相同任务所需token数不到5.2-Codex的一半,且单token处理速度快25%以上 [121][124]
中门对狙!Claude Opus 4.6和GPT-5.3 Codex同时发布,这下真的AI春晚了。
数字生命卡兹克·2026-02-06 07:58