性能持平价格大降80%，Anthropic 新模型杀疯了

模型发布与核心策略 - Anthropic在Claude Opus 4.6发布仅12天后，迅速推出了新的中档模型Claude Sonnet 4.6，其核心策略并非技术突破，而是以显著更低的价格提供与高端竞品齐平的性能 [2] - Sonnet 4.6的定价保持在每百万token输入3美元、输出15美元，与Sonnet 4.5相同，但在多项基准测试中接近甚至超越了价格高出五倍的Opus 4.6 [2] - 公司强调“便宜不一定就没有好货”，旨在通过高性价比模型抢占市场 [3] 性能表现与基准测试 - 在SWE-bench Verified（真实软件编码能力）测试中，Sonnet 4.6得分79.6%，几乎追平Opus 4.6的80.8%，并略微领先于OpenAI的GPT-5.2 [5] - 在代理式金融分析任务（Finance Agent v1.1）中，Sonnet 4.6以63.3%的成绩领先所有竞争对手，包括Opus 4.6的60.1%和GPT-5.2的59.0% [5] - 在办公任务的GDPval-AA Elo评分中，Sonnet 4.6达到1633分，超过Opus 4.6的1606分和GPT-5.2的1462分 [6] - 在计算机使用能力（OSWorld-Verified）测试中，Sonnet 4.6得分72.5%，显著高于前代Sonnet 4.5的61.4%，并远超GPT-5.2的38.2% [12] - 在代理式搜索（BrowseComp）测试中，Opus 4.6以84.0%领先于Sonnet 4.6的74.7% [9] - 在终端编码任务（Terminal-Bench 2.0）中，Opus 4.6得分65.4%，Sonnet 4.6为59.1% [8] - 在新颖问题解决测试（ARC-AGI-2）中，Opus 4.6得分68.8%，Sonnet 4.6为58.3% [10] - 在Vending-Bench Arena（模拟企业运营）测试中，Sonnet 4.6发展出新颖投资策略，在365天模拟结束时的余额约为5700美元，远高于Sonnet 4.5的约2100美元 [24] 成本效益与市场影响 - 对于每天需处理数百万token的企业，使用Sonnet 4.6替代高端模型可大幅节省成本，过去需旗舰模型完成的任务现可用中档模型做到 [6] - 早期用户反馈显示，原本需要花费五倍价格才能获得的能力，现可用Sonnet 4.6达到相近效果，意味着运营成本可能降至原来的五分之一 [19][20] - 数据分析平台Hex Technologies的CTO表示，公司正将大部分流量迁移至Sonnet 4.6，在除最困难任务外均看到Opus级别的性能，但成本为Sonnet级别 [20] - 云存储公司Box的CTO表示，Sonnet 4.6在真实企业文档的重度推理问答中，表现比Sonnet 4.5提高了15个百分点 [20] - Anthropic的进步引发了软件股的大规模抛售，投资者担忧AI对现有业务的潜在颠覆，Sonnet 4.6可能加剧这种市场不安 [26][27] 关键能力与安全改进 - Sonnet 4.6的计算机使用能力（通过鼠标键盘与软件交互）实现重大突破，为最广泛的企业应用场景打开了大门，例如自动操作所有可交互系统而无需定制连接器 [12][14][15] - 早期用户如保险科技公司Pace的CEO表示，Sonnet 4.6在其复杂的保险计算机使用基准测试中达到94%的成绩，是所有测试过的Claude模型中最高，并能推理失败原因并自我纠正 [16] - Anthropic表示，Sonnet 4.6在抵御提示注入攻击（恶意网页指令劫持模型）方面比Sonnet 4.5有重大改进，这对于需要浏览网页和与外部系统交互的企业代理部署至关重要 [17][18] - 模型配备了100万token的超长上下文窗口，可容纳整个代码库、法律文件或数十篇研究论文，并能进行有效推理 [21][22] 市场扩张与合作伙伴关系 - 在Sonnet 4.6发布当天，印度IT巨头Infosys宣布与Anthropic合作，构建企业级agent，将Claude模型集成到Infosys的Topaz AI平台中，服务于银行、电信和制造业 [25] - Anthropic在印度班加罗尔开设了首个印度办事处，印度目前占全球Claude使用量的约6%，仅次于美国 [25] - Anthropic将其免费层级默认升级到了Sonnet 4.6，开发者可通过Claude API直接调用 [28]