刚刚，Anthropic发布Sonnet 5，性能接近Opus 4.8，但不一定更便宜

模型核心定位与性能提升 - Anthropic正式发布Claude Sonnet 5，称其为迄今为止最具Agent属性的Sonnet模型，能够制定计划、使用工具并自主运行，达到了数月前需要更大、更昂贵模型才能实现的水平[1] - 相比前代Sonnet 4.6，Sonnet 5在推理、工具使用、编程和知识工作等智能体性能关键维度上有显著提升，其性能已接近更高阶的Opus 4.8模型，但价格更低[2][4] - 早期访问合作伙伴反馈一致，认为Sonnet 5比前代模型更具自主智能体能力，能完成复杂任务、主动检查输出，并以极具吸引力的价格完成智能体工作[10] 关键性能指标对比 - 在Agentic coding SWE-bench Pro评测中，Sonnet 5得分为63.2%，高于Sonnet 4.6的58.1%，但低于Opus 4.8的69.2%[5] - 在Agentic coding Terminal-Bench 2.1评测中，Sonnet 5得分为80.4%，显著高于Sonnet 4.6的67.0%，略低于Opus 4.8的82.7%[5] - 在Multidisciplinary reasoning（无工具）评测中，Sonnet 5得分为43.2%，高于Sonnet 4.6的34.6%，低于Opus 4.8的49.8%[5] - 在Humanity's Last Exam（有工具）评测中，Sonnet 5得分为57.4%，高于Sonnet 4.6的46.8%，与Opus 4.8的57.9%非常接近[5] - 在Computer use OSWorld-Verified评测中，Sonnet 5得分为81.2%，高于Sonnet 4.6的78.5%，低于Opus 4.8的83.4%[5] - 在知识工作GDPval-AA v2评测中，Sonnet 5得分为1618，高于Sonnet 4.6的1395，低于Opus 4.8的1815[5] 成本与性能权衡分析 - Sonnet 5相比Sonnet 4.6具有明确的性能提升，且覆盖的成本-性能选项范围比Opus 4.8更广[8] - 在中等努力程度下，Sonnet 5显著提升了成本效率；在更高努力程度下，其性能在某些任务上可媲美Opus 4.8[8] - 官方图表中展示的Sonnet 5标准定价为输入每百万token 3美元，输出每百万token 15美元；Opus 4.8定价为输入每百万token 5美元，输出每百万token 25美元[7] - 为庆祝发布，Anthropic推出限时尝鲜价至2026年8月31日：输入为每百万token 2美元，输出为每百万token 10美元，之后恢复标准定价[24] - 有第三方分析指出，在Intelligence Index上，Claude Sonnet 5的运行成本为每项任务2.29美元，相比Sonnet 4.6增加约2倍，也比Claude Opus 4.8高出约15%[40] - 成本上升主要由token使用量增加驱动，使Claude Sonnet 5成为运行成本最高的模型之一，仅次于Claude Fable 5[40] 安全与风险评估 - Anthropic的部署前安全评估发现，Sonnet 5整体上相比Sonnet 4.6有所改善，在拒绝恶意请求和抵御提示注入攻击方面表现更好[13] - 模型的幻觉率和谄媚行为率均低于Sonnet 4.6[13] - 在自动化行为审计中，Sonnet 5的失当行为率低于Sonnet 4.6，但高于Mythos Preview和Opus 4.8[13][14] - 在浏览器使用场景下的提示注入攻击成功率评估中，Sonnet 5仅为0.93%，远低于Opus 4.8的31.5%和Sonnet 4.6的50.7%[35] - 公司未刻意针对网络安全任务训练Sonnet 5，其在开发软件漏洞利用程序等潜在危险网络技能方面表现显著逊于Opus 4.8和Mythos 5[16] - 在针对Firefox浏览器漏洞开发利用程序的评估中，两款Sonnet模型均未能成功开发出可利用程序（得分均为0.0%），Sonnet 5的部分成功率略高于Sonnet 4.6[18] - 由于网络能力相比前代略有增强，Anthropic已默认启用网络安全护栏，其严格程度低于Fable 5[18] 技术更新与市场策略 - Sonnet 5采用了全新的tokenizer，相同输入内容会映射为更多token，增幅约为1.0～1.35倍，视内容类型而定[27][28] - 公司设定的尝鲜价旨在让用户过渡到Sonnet 5时整体使用成本大致保持不变[29] - 公司宣布全面上调Chat、Cowork、Claude Code以及Claude平台的速率限制，以适配更高“努力程度”模式带来的更大token消耗[21][31] - Sonnet 5已纳入Anthropic的“网络安全验证计划”，并在Claude原生平台、AWS上的Claude平台以及Microsoft Foundry中的Claude等平台开放使用[23][25] - 已加入该计划的组织在Sonnet 5上自动获得同等访问权限，无需重新申请[26]