Claude Opus 4.7深夜上线，评分碾压

Anthropic发布Claude Opus 4.7模型 - Anthropic于周四晚间宣布其最新基础模型Claude Opus 4.7全面上市[2] - 该模型在高级软件工程、处理复杂任务方面相比Opus 4.6有显著提升，用户可放心将最棘手的编码工作交给其处理[2] - 模型定价与Opus 4.6相同，为每百万个输入token 5美元，每百万个输出token 25美元[3] 模型性能与基准测试 - 在多项基准测试中，Opus 4.7的表现优于Opus 4.6，例如在SWE-bench Pro的Agentic coding测试中得分为64.3%，高于Opus 4.6的53.4%和GPT-5.4的57.7%[2] - 在SWE-bench Verified的Agentic coding测试中得分为87.6%，高于Opus 4.6的80.8%和Gemini 3.1 Pro的80.6%[2] - 在Agentic financial analysis (Finance Agent v1.1)测试中得分为64.4%，高于Opus 4.6的60.1%和GPT-5.4 Pro的61.5%[2] - 在Graduate-level reasoning (GPQA Diamond)测试中得分为94.2%，略低于GPT-5.4 Pro的94.4%[2] - 在Visual reasoning (CharXiv Reasoning)测试中，无工具时得分为82.1%，有工具时得分为91.0%，均高于Opus 4.6[2] 核心功能与特性提升 - 指令执行能力：Opus 4.7对指令的执行更加严格和精准，用户需相应调整提示信息[8] - 多模态支持：图像处理能力增强，可处理长边高达2576像素（约375万像素）的图像，是之前Claude型号的三倍以上[8] - 实际应用能力：在财务分析方面更高效，能生成严谨的分析模型和更专业的演示文稿，在GDPval-AA评估中处于领先水平[8] - 内存占用：更擅长利用文件系统内存，能记住长时间、多会话工作中的重要笔记，降低对新任务上下文信息的要求[8] Claude Code新特性 - 自动模式：允许模型在无需全程监督下执行复杂、长时间运行的任务，权限提示由基于模型的分类器决定是否安全执行[21][22][23] - /fewer-permission-prompts技能：扫描会话历史，推荐将安全的常见命令加入权限白名单，以减少不必要的权限提示[26][27] - “回顾”功能：提供智能体所做工作及下一步行动的简短总结，便于长时间运行会话后快速了解进度[28] - 专注模式：在CLI中隐藏所有中间步骤，只显示最终结果，可通过/focus开关[30][31] - 自适应的思考深度：使用自适应思考，通过/effort设置努力程度（如xhigh, max）来调整模型的思考程度和响应速度[32][33][34] - 工作验证机制：为Claude提供验证其工作的方式（如端到端测试），可提升2-3倍产出，例如使用/go技能进行自我测试、运行/simplify技能并提交PR[37] 模型安全与一致性 - Opus 4.7是首个在网络安全能力上被有意降低的模型，作为“Project Glasswing”项目的一部分，旨在测试新的网络安全防护措施[37][38] - 模型配备了安全防护措施，能自动检测并阻止违禁或高风险的网络安全用途请求[38] - 总体安全性能与Opus 4.6相似，在诚实度和抵御“快速注入”攻击方面有所改进，但在提供管制药物减害建议方面略有不足[39] - Anthropic的一致性评估认为该模型“总体上一致性良好且值得信赖，但其行为并非完全理想”，Mythos Preview仍被认为是一致性最佳的模型[39] 平台与API更新 - 模型已在所有Claude产品、API、Amazon Bedrock、Google Cloud的Vertex AI以及Microsoft Foundry平台上推出[3] - 更精细的难度控制：新增介于high和max之间的xhigh级别，Claude Code所有套餐的默认级别已提升至xhigh[42] - 任务预算：在API公开测试版中推出，允许开发者引导Claude的token支出以优先处理较长时间的工作[42] - /ultrareview命令：在Claude Code中新增，可创建专门审查会话，标记错误和设计问题，为Pro和Max用户提供三次免费试用[43] - 自动模式扩展：已扩展至Claude Code Max用户[43] 技术细节与影响 - Opus 4.7使用了更新的分词器，改进了文本处理方式，可能是一个新的基础模型或从Mythos提炼而来[43] - 由于分词器更新，相同输入映射到的词元数量可能增加约1.0到1.35倍[43] - 在高难度任务下，模型会进行更多思考，尤其在主动语态场景的后期回合，这提高了可靠性但也意味着产生更多输出token[43] - 知识截止日期更新至2026年1月，可靠知识截止日期为2026年1月[44] - 用户可通过工作量参数、任务预算或引导模型简化代码来控制token使用，内部编码评估显示所有工作量级别的令牌使用率均有所提高[44] - Anthropic提供了从Opus 4.6升级到Opus 4.7的迁移指南[45] 市场反馈与竞争 - 用户反馈新模型效果不错，但也有人指出其token消耗非常惊人[49] - 同期，千问开源了Qwen3.6-35B-A3B模型（350亿参数，激活30亿），有用户表示在其设备上运行该模型生成“鹈鹕骑自行车”的效果比Opus 4.7好，但此结论有待进一步验证[49][52]