Claude Opus 4.7来了，公开模型里的SOTA！不过用起来GPT味好浓

Anthropic发布Claude Opus 4.7模型 - Anthropic公司发布了其最新的Claude Opus 4.7模型，并宣称这是其目前最强大的公开可用模型，但其最强大的模型仍是未公开的Mythos [1][6] - 与未发布的Mythos相比，Opus 4.7在多项测试上的整体表现约低10%至15% [7] - Opus 4.7的定价为Opus 4.6保持一致，输入为5美元每百万tokens，输出为25美元每百万tokens，而Mythos Preview的价格是Opus 4.7的5倍 [8][45] 模型性能表现与特点 - 高级软件工程能力显著提升：在高级软件工程领域，Opus 4.7取得了最显著的进步 [13] - 在CursorBench上的表现从58%跃升至70% [14] - SWE-bench Verified测试达到78.2%，SWE-bench Multimodal达到72.7%，Terminal-Bench 2.0达到68.8% [15] - 在Rakuten-SWE-Bench中解决生产任务的数量是Opus 4.6的3倍 [15] - GitHub 93项任务编码基准提升了13% [15] - 视觉能力大幅增强：视觉处理能力有长足进步，长边最大支持2576像素（约3.75百万像素），是Opus 4.6的3倍以上 [22] - XBOW视觉敏锐度达到98.5%，而Opus 4.6仅为54.5% [22] - 能够识别完整Figma设计稿、1080p终端截图（含灰色小字），并精准解析复杂技术架构图、财报图表 [22] - 指令遵循与推理能力改进：在指令遵循上更加严格和可靠，不再猜测用户意图，而是严格按照字面执行 [26][27] - 在100万token长上下文场景的BFS任务中得分为58.6%，而Opus 4.6为41.2% [27] - Agent能力全方位增强：Opus 4.7被定位为“为Agent而生”的版本，核心Agent能力得到提升 [29][31] - 在Notion的多步骤工作流中，成功率比Opus 4.6提升14%，工具调用错误率降至三分之一 [20][31] - 在Vending-Bench 2长期经营模拟中，最终余额达到10937美元，而Opus 4.6为8018美元 [31] - 具备文件系统记忆功能，新任务可减少40%的重复上下文输入 [32] - 在Devin中能将长周期自主性提升到新水平，可连贯工作数小时 [33] 开发者工具与控制优化 - 新增xhigh推理等级，介于high与max之间，为开发者提供更精细的控制权，以平衡推理深度、延迟和token成本 [35] - 新增自适应思考模式，模型可自主决定思考深度，简单查询快速响应，复杂步骤重点投入 [35] - 提供任务预算功能（公开beta），开发者可引导token消耗，优化长任务资源分配 [36] - Claude Code新增/ultrareview命令，可创建专属审查会话，用于标记细微错误与设计问题 [36] 安全策略与部署考量 - Anthropic在训练中刻意差异化降低了Opus 4.7的网络能力，使其在面对网络安全相关任务时表现出更谨慎的行为模式 [37][40] - 公司发布了自动检测和阻止高风险网络安全请求的防护措施，并推出了Cyber Verification Program供安全专业人员申请用于合法目的 [40] - 公司试图对外塑造一个比竞争对手更注重安全和负责任AI部署的声誉 [39] 使用成本与效率分析 - Opus 4.7使用了新的分词器，相同输入可能映射到1.0到1.35倍之间的tokens，提示词可能消耗更多token [41][42] - 在high和xhigh努力级别下，思考深度增加，特别是在Agent场景的多轮对话后期，这意味着更多的token消耗 [43][47] - 尽管单次调用的token数可能增加，但Anthropic内部测试显示，在所有努力级别下的token使用效率相比Opus 4.6都有改善，完成任务所需的总token往往更少，因为模型犯错次数减少 [45] - 开发者可以通过调整努力参数、设置任务预算或优化提示词来平衡性能与成本 [48] 市场定位与可获得性 - Opus 4.7被描述为安全体系完成全验证、定价亲民且全平台开放的最强量产版 [9] - 模型已实现全平台开放，除Claude官方途径外，还登陆了微软Foundry、谷歌Cloud Vertex AI、亚马逊Bedrock三大云平台 [44]