Claude Sonnet 5 发布：接近最强，三分之一的价，连 Anthropic 都在蚕食自己

Anthropic发布Claude Sonnet 5 - 核心观点：Anthropic发布的新模型Claude Sonnet 5，以显著降低的价格提供了接近其旗舰模型Opus 4.8的智能体（agentic）能力，标志着模型智能正变得更便宜、更可替换，可能重塑行业竞争格局和用户选择 [4][5][20] 性能与定价对比 - 在代理编码（agentic coding）任务上，Sonnet 5在SWE-bench Pro基准测试中达到63.2%，而Sonnet 4.6为58.1%，Opus 4.8为69.2% [8][9] - 在Terminal-Bench 2.1基准测试中，Sonnet 5达到80.4%，而Sonnet 4.6为67.0%，Opus 4.8为82.7% [8][9] - 在知识工作GDPval-AA v2基准测试中，Sonnet 5得分为1618，与Opus 4.8的1615分基本持平 [8][10] - 在带工具的Humanity‘s Last Exam基准测试中，Sonnet 5达到57.4%，与Opus 4.8的57.9%差距微小 [8][10] - 在计算机使用（OSWorld-Verified）基准测试中，Sonnet 5达到81.2%，而Sonnet 4.6为78.5%，Opus 4.8为83.4% [8][9] - Sonnet 5的介绍期定价为输入每百万token 2美元、输出每百万token 10美元，标准价后为输入3美元、输出15美元 [5] - 作为对比，Opus 4.8的定价为输入每百万token 5美元、输出每百万token 25美元，Sonnet 5的价格约为其三分之一 [5][20] 核心能力提升：自主完成任务 - Sonnet 5的主要提升并非“更聪明”，而是“更能自己跑完一整个循环”，即自主完成复杂任务的能力（follow-through）得到增强 [15][16] - 客户反馈显示，Sonnet 5能够自主完成“写测试复现bug、实现修复、将改动暂存、并验证bug重现”的全流程，而无需用户分段干预 [16] - 该模型在原本容易“干到一半就卡住”的多段式任务上表现更可靠，适合用于日常自动化 [16] 行业趋势与战略影响 - Sonnet 5的发布印证了风险投资家Ashu Garg的判断：竞争将不断压低“智能”的价格，任何一家实验室的技术领先都难以长期维持 [19][21] - Anthropic此次策略是用更便宜的Sonnet模型，去蚕食自家更昂贵的Opus旗舰模型的市场，迫使客户重新评估为“最强”性能支付溢价的必要性 [20] - 模型正变得越来越像一台可替换的、价格不断下降的“引擎”，其制造者自身也在加速这一 commoditization（商品化）进程 [21][25] - 长期趋势是，模型能力每隔几个月变得更强、更便宜，因此企业的护城河不应建立在“使用了哪个特定模型”上，模型将如同电力一样稳定、必需且同质化 [25] 产品更新与用户影响 - Sonnet 5现已成为Claude Free和Pro版本的默认模型 [23] - 模型采用了新的分词器（tokenizer），同样的输入内容可能会被计算多1.0到1.35倍的token数量，但介绍期价格基本对冲了这部分成本增加 [23] - 新增了努力程度（effort-level）控制功能，允许用户在“成本”和“性能”之间进行调节，对应官方展示的性价比曲线 [11][23] - 与Sonnet 4.6相比，Sonnet 5的幻觉和奉承倾向更低，并且更善于直接拒绝不安全的请求 [23] 对性能宣称的审慎看法 - 官方发布的性能对比表和性价比曲线是基于其自行挑选的基准测试和客户证言 [24] - “接近Opus”是许多更便宜模型的常见宣传话术，实际体验需用户用自己的具体任务进行验证 [24]