Claude Opus 4.7来了,公开模型里的SOTA!不过用起来GPT味好浓
量子位·2026-04-17 09:54

Anthropic发布Claude Opus 4.7模型 - Anthropic公司发布了其最新的Claude Opus 4.7模型,并宣称这是其目前最强大的公开可用模型,但其最强大的模型仍是未公开的Mythos [1][6] - 与未发布的Mythos相比,Opus 4.7在多项测试上的整体表现约低10%至15% [7] - Opus 4.7的定价为Opus 4.6保持一致,输入为5美元每百万tokens,输出为25美元每百万tokens,而Mythos Preview的价格是Opus 4.7的5倍 [8][45] 模型性能表现与特点 - 高级软件工程能力显著提升:在高级软件工程领域,Opus 4.7取得了最显著的进步 [13] - 在CursorBench上的表现从58%跃升至70% [14] - SWE-bench Verified测试达到78.2%,SWE-bench Multimodal达到72.7%,Terminal-Bench 2.0达到68.8% [15] - 在Rakuten-SWE-Bench中解决生产任务的数量是Opus 4.6的3倍 [15] - GitHub 93项任务编码基准提升了13% [15] - 视觉能力大幅增强:视觉处理能力有长足进步,长边最大支持2576像素(约3.75百万像素),是Opus 4.6的3倍以上 [22] - XBOW视觉敏锐度达到98.5%,而Opus 4.6仅为54.5% [22] - 能够识别完整Figma设计稿、1080p终端截图(含灰色小字),并精准解析复杂技术架构图、财报图表 [22] - 指令遵循与推理能力改进:在指令遵循上更加严格和可靠,不再猜测用户意图,而是严格按照字面执行 [26][27] - 在100万token长上下文场景的BFS任务中得分为58.6%,而Opus 4.6为41.2% [27] - Agent能力全方位增强:Opus 4.7被定位为“为Agent而生”的版本,核心Agent能力得到提升 [29][31] - 在Notion的多步骤工作流中,成功率比Opus 4.6提升14%,工具调用错误率降至三分之一 [20][31] - 在Vending-Bench 2长期经营模拟中,最终余额达到10937美元,而Opus 4.6为8018美元 [31] - 具备文件系统记忆功能,新任务可减少40%的重复上下文输入 [32] - 在Devin中能将长周期自主性提升到新水平,可连贯工作数小时 [33] 开发者工具与控制优化 - 新增xhigh推理等级,介于highmax之间,为开发者提供更精细的控制权,以平衡推理深度、延迟和token成本 [35] - 新增自适应思考模式,模型可自主决定思考深度,简单查询快速响应,复杂步骤重点投入 [35] - 提供任务预算功能(公开beta),开发者可引导token消耗,优化长任务资源分配 [36] - Claude Code新增/ultrareview命令,可创建专属审查会话,用于标记细微错误与设计问题 [36] 安全策略与部署考量 - Anthropic在训练中刻意差异化降低了Opus 4.7的网络能力,使其在面对网络安全相关任务时表现出更谨慎的行为模式 [37][40] - 公司发布了自动检测和阻止高风险网络安全请求的防护措施,并推出了Cyber Verification Program供安全专业人员申请用于合法目的 [40] - 公司试图对外塑造一个比竞争对手更注重安全和负责任AI部署的声誉 [39] 使用成本与效率分析 - Opus 4.7使用了新的分词器,相同输入可能映射到1.0到1.35倍之间的tokens,提示词可能消耗更多token [41][42] - 在highxhigh努力级别下,思考深度增加,特别是在Agent场景的多轮对话后期,这意味着更多的token消耗 [43][47] - 尽管单次调用的token数可能增加,但Anthropic内部测试显示,在所有努力级别下的token使用效率相比Opus 4.6都有改善,完成任务所需的总token往往更少,因为模型犯错次数减少 [45] - 开发者可以通过调整努力参数、设置任务预算或优化提示词来平衡性能与成本 [48] 市场定位与可获得性 - Opus 4.7被描述为安全体系完成全验证、定价亲民且全平台开放的最强量产版 [9] - 模型已实现全平台开放,除Claude官方途径外,还登陆了微软Foundry、谷歌Cloud Vertex AI、亚马逊Bedrock三大云平台 [44]

Claude Opus 4.7来了,公开模型里的SOTA!不过用起来GPT味好浓 - Reportify