模型核心定位与性能提升 - Anthropic正式发布Claude Sonnet 5,称其为迄今为止最具Agent属性的Sonnet模型,能够制定计划、使用工具并自主运行,达到了数月前需要更大、更昂贵模型才能实现的水平[1] - 相比前代Sonnet 4.6,Sonnet 5在推理、工具使用、编程和知识工作等智能体性能关键维度上有显著提升,其性能已接近更高阶的Opus 4.8模型,但价格更低[2][4] - 早期访问合作伙伴反馈一致,认为Sonnet 5比前代模型更具自主智能体能力,能完成复杂任务、主动检查输出,并以极具吸引力的价格完成智能体工作[10] 关键性能指标对比 - 在Agentic coding SWE-bench Pro评测中,Sonnet 5得分为63.2%,高于Sonnet 4.6的58.1%,但低于Opus 4.8的69.2%[5] - 在Agentic coding Terminal-Bench 2.1评测中,Sonnet 5得分为80.4%,显著高于Sonnet 4.6的67.0%,略低于Opus 4.8的82.7%[5] - 在Multidisciplinary reasoning(无工具)评测中,Sonnet 5得分为43.2%,高于Sonnet 4.6的34.6%,低于Opus 4.8的49.8%[5] - 在Humanity's Last Exam(有工具)评测中,Sonnet 5得分为57.4%,高于Sonnet 4.6的46.8%,与Opus 4.8的57.9%非常接近[5] - 在Computer use OSWorld-Verified评测中,Sonnet 5得分为81.2%,高于Sonnet 4.6的78.5%,低于Opus 4.8的83.4%[5] - 在知识工作GDPval-AA v2评测中,Sonnet 5得分为1618,高于Sonnet 4.6的1395,低于Opus 4.8的1815[5] 成本与性能权衡分析 - Sonnet 5相比Sonnet 4.6具有明确的性能提升,且覆盖的成本-性能选项范围比Opus 4.8更广[8] - 在中等努力程度下,Sonnet 5显著提升了成本效率;在更高努力程度下,其性能在某些任务上可媲美Opus 4.8[8] - 官方图表中展示的Sonnet 5标准定价为输入每百万token 3美元,输出每百万token 15美元;Opus 4.8定价为输入每百万token 5美元,输出每百万token 25美元[7] - 为庆祝发布,Anthropic推出限时尝鲜价至2026年8月31日:输入为每百万token 2美元,输出为每百万token 10美元,之后恢复标准定价[24] - 有第三方分析指出,在Intelligence Index上,Claude Sonnet 5的运行成本为每项任务2.29美元,相比Sonnet 4.6增加约2倍,也比Claude Opus 4.8高出约15%[40] - 成本上升主要由token使用量增加驱动,使Claude Sonnet 5成为运行成本最高的模型之一,仅次于Claude Fable 5[40] 安全与风险评估 - Anthropic的部署前安全评估发现,Sonnet 5整体上相比Sonnet 4.6有所改善,在拒绝恶意请求和抵御提示注入攻击方面表现更好[13] - 模型的幻觉率和谄媚行为率均低于Sonnet 4.6[13] - 在自动化行为审计中,Sonnet 5的失当行为率低于Sonnet 4.6,但高于Mythos Preview和Opus 4.8[13][14] - 在浏览器使用场景下的提示注入攻击成功率评估中,Sonnet 5仅为0.93%,远低于Opus 4.8的31.5%和Sonnet 4.6的50.7%[35] - 公司未刻意针对网络安全任务训练Sonnet 5,其在开发软件漏洞利用程序等潜在危险网络技能方面表现显著逊于Opus 4.8和Mythos 5[16] - 在针对Firefox浏览器漏洞开发利用程序的评估中,两款Sonnet模型均未能成功开发出可利用程序(得分均为0.0%),Sonnet 5的部分成功率略高于Sonnet 4.6[18] - 由于网络能力相比前代略有增强,Anthropic已默认启用网络安全护栏,其严格程度低于Fable 5[18] 技术更新与市场策略 - Sonnet 5采用了全新的tokenizer,相同输入内容会映射为更多token,增幅约为1.0~1.35倍,视内容类型而定[27][28] - 公司设定的尝鲜价旨在让用户过渡到Sonnet 5时整体使用成本大致保持不变[29] - 公司宣布全面上调Chat、Cowork、Claude Code以及Claude平台的速率限制,以适配更高“努力程度”模式带来的更大token消耗[21][31] - Sonnet 5已纳入Anthropic的“网络安全验证计划”,并在Claude原生平台、AWS上的Claude平台以及Microsoft Foundry中的Claude等平台开放使用[23][25] - 已加入该计划的组织在Sonnet 5上自动获得同等访问权限,无需重新申请[26]
刚刚,Anthropic发布Sonnet 5,性能接近Opus 4.8,但不一定更便宜
机器之心·2026-07-01 07:17