Claude Opus 4.7深夜上线,评分碾压
机器之心·2026-04-17 08:00

Anthropic发布Claude Opus 4.7模型 - Anthropic于周四晚间宣布其最新基础模型Claude Opus 4.7全面上市[2] - 该模型在高级软件工程、处理复杂任务方面相比Opus 4.6有显著提升,用户可放心将最棘手的编码工作交给其处理[2] - 模型定价与Opus 4.6相同,为每百万个输入token 5美元,每百万个输出token 25美元[3] 模型性能与基准测试 - 在多项基准测试中,Opus 4.7的表现优于Opus 4.6,例如在SWE-bench Pro的Agentic coding测试中得分为64.3%,高于Opus 4.6的53.4%和GPT-5.4的57.7%[2] - 在SWE-bench Verified的Agentic coding测试中得分为87.6%,高于Opus 4.6的80.8%和Gemini 3.1 Pro的80.6%[2] - 在Agentic financial analysis (Finance Agent v1.1)测试中得分为64.4%,高于Opus 4.6的60.1%和GPT-5.4 Pro的61.5%[2] - 在Graduate-level reasoning (GPQA Diamond)测试中得分为94.2%,略低于GPT-5.4 Pro的94.4%[2] - 在Visual reasoning (CharXiv Reasoning)测试中,无工具时得分为82.1%,有工具时得分为91.0%,均高于Opus 4.6[2] 核心功能与特性提升 - 指令执行能力:Opus 4.7对指令的执行更加严格和精准,用户需相应调整提示信息[8] - 多模态支持:图像处理能力增强,可处理长边高达2576像素(约375万像素)的图像,是之前Claude型号的三倍以上[8] - 实际应用能力:在财务分析方面更高效,能生成严谨的分析模型和更专业的演示文稿,在GDPval-AA评估中处于领先水平[8] - 内存占用:更擅长利用文件系统内存,能记住长时间、多会话工作中的重要笔记,降低对新任务上下文信息的要求[8] Claude Code新特性 - 自动模式:允许模型在无需全程监督下执行复杂、长时间运行的任务,权限提示由基于模型的分类器决定是否安全执行[21][22][23] - /fewer-permission-prompts技能:扫描会话历史,推荐将安全的常见命令加入权限白名单,以减少不必要的权限提示[26][27] - “回顾”功能:提供智能体所做工作及下一步行动的简短总结,便于长时间运行会话后快速了解进度[28] - 专注模式:在CLI中隐藏所有中间步骤,只显示最终结果,可通过/focus开关[30][31] - 自适应的思考深度:使用自适应思考,通过/effort设置努力程度(如xhigh, max)来调整模型的思考程度和响应速度[32][33][34] - 工作验证机制:为Claude提供验证其工作的方式(如端到端测试),可提升2-3倍产出,例如使用/go技能进行自我测试、运行/simplify技能并提交PR[37] 模型安全与一致性 - Opus 4.7是首个在网络安全能力上被有意降低的模型,作为“Project Glasswing”项目的一部分,旨在测试新的网络安全防护措施[37][38] - 模型配备了安全防护措施,能自动检测并阻止违禁或高风险的网络安全用途请求[38] - 总体安全性能与Opus 4.6相似,在诚实度和抵御“快速注入”攻击方面有所改进,但在提供管制药物减害建议方面略有不足[39] - Anthropic的一致性评估认为该模型“总体上一致性良好且值得信赖,但其行为并非完全理想”,Mythos Preview仍被认为是一致性最佳的模型[39] 平台与API更新 - 模型已在所有Claude产品、API、Amazon Bedrock、Google Cloud的Vertex AI以及Microsoft Foundry平台上推出[3] - 更精细的难度控制:新增介于high和max之间的xhigh级别,Claude Code所有套餐的默认级别已提升至xhigh[42] - 任务预算:在API公开测试版中推出,允许开发者引导Claude的token支出以优先处理较长时间的工作[42] - /ultrareview命令:在Claude Code中新增,可创建专门审查会话,标记错误和设计问题,为Pro和Max用户提供三次免费试用[43] - 自动模式扩展:已扩展至Claude Code Max用户[43] 技术细节与影响 - Opus 4.7使用了更新的分词器,改进了文本处理方式,可能是一个新的基础模型或从Mythos提炼而来[43] - 由于分词器更新,相同输入映射到的词元数量可能增加约1.0到1.35倍[43] - 在高难度任务下,模型会进行更多思考,尤其在主动语态场景的后期回合,这提高了可靠性但也意味着产生更多输出token[43] - 知识截止日期更新至2026年1月,可靠知识截止日期为2026年1月[44] - 用户可通过工作量参数、任务预算或引导模型简化代码来控制token使用,内部编码评估显示所有工作量级别的令牌使用率均有所提高[44] - Anthropic提供了从Opus 4.6升级到Opus 4.7的迁移指南[45] 市场反馈与竞争 - 用户反馈新模型效果不错,但也有人指出其token消耗非常惊人[49] - 同期,千问开源了Qwen3.6-35B-A3B模型(350亿参数,激活30亿),有用户表示在其设备上运行该模型生成“鹈鹕骑自行车”的效果比Opus 4.7好,但此结论有待进一步验证[49][52]

Claude Opus 4.7深夜上线,评分碾压 - Reportify