产品发布与核心能力 - Claude Opus 4.5正式发布,主打编码、智能体和计算机使用能力 [1] - 在SWE-bench Verified基准测试中得分80.9%,高于Sonnet 4.5的77.2%和GPT-5.1的77.9% [2][19] - 在Aider Polyglot基准测试中,面对高难度编码难题得分较Sonnet 4.5大幅提升10.6% [22] 性能表现与基准测试 - 在两小时高强度工程任务测试中,模型得分超过所有人类候选人 [16] - 在长时任务续航测试中,任务完成收益较Sonnet 4.5高出29% [26] - 在研究生级推理GPQA Diamond测试中得分87.0%,多语言问答MMMLU测试中得分90.8% [2][19] 计算机使用与工具能力 - 在计算机使用OSWorld测试中得分66.3%,显著高于前代Opus 4.1的44.4% [2][19] - 在Agentic tool use τ2-bench电信场景测试中得分98.2%,零售场景得分88.9% [2][19] - 能够自主处理财务对比分析,完成模板读取、数据收集与Excel输出 [7] 产品升级与定价 - 定价为每百万tokens输入5美元,输出25美元 [12] - 新增“努力度参数”,在中等设置下输出tokens用量减少76%,最高设置下性能提升4.3个百分点且tokens用量减少48% [32] - 取消Opus专用限额,Max与Team Premium用户整体使用额度上调 [43] 平台与功能扩展 - Claude Code推出计划模式,能生成更精准的执行计划并生成可编辑的plan.md文件 [41] - Claude app支持自动总结长对话内容,实现无限续航聊天模式 [42] - Chrome浏览器扩展程序向所有Max订阅用户开放,Claude for Excel扩展测试权限 [42]
Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏
量子位·2025-11-25 09:17