模型发布与核心策略 - Anthropic在Claude Opus 4.6发布仅12天后,迅速推出了新的中档模型Claude Sonnet 4.6,其核心策略并非技术突破,而是以显著更低的价格提供与高端竞品齐平的性能 [2] - Sonnet 4.6的定价保持在每百万token输入3美元、输出15美元,与Sonnet 4.5相同,但在多项基准测试中接近甚至超越了价格高出五倍的Opus 4.6 [2] - 公司强调“便宜不一定就没有好货”,旨在通过高性价比模型抢占市场 [3] 性能表现与基准测试 - 在SWE-bench Verified(真实软件编码能力)测试中,Sonnet 4.6得分79.6%,几乎追平Opus 4.6的80.8%,并略微领先于OpenAI的GPT-5.2 [5] - 在代理式金融分析任务(Finance Agent v1.1)中,Sonnet 4.6以63.3%的成绩领先所有竞争对手,包括Opus 4.6的60.1%和GPT-5.2的59.0% [5] - 在办公任务的GDPval-AA Elo评分中,Sonnet 4.6达到1633分,超过Opus 4.6的1606分和GPT-5.2的1462分 [6] - 在计算机使用能力(OSWorld-Verified)测试中,Sonnet 4.6得分72.5%,显著高于前代Sonnet 4.5的61.4%,并远超GPT-5.2的38.2% [12] - 在代理式搜索(BrowseComp)测试中,Opus 4.6以84.0%领先于Sonnet 4.6的74.7% [9] - 在终端编码任务(Terminal-Bench 2.0)中,Opus 4.6得分65.4%,Sonnet 4.6为59.1% [8] - 在新颖问题解决测试(ARC-AGI-2)中,Opus 4.6得分68.8%,Sonnet 4.6为58.3% [10] - 在Vending-Bench Arena(模拟企业运营)测试中,Sonnet 4.6发展出新颖投资策略,在365天模拟结束时的余额约为5700美元,远高于Sonnet 4.5的约2100美元 [24] 成本效益与市场影响 - 对于每天需处理数百万token的企业,使用Sonnet 4.6替代高端模型可大幅节省成本,过去需旗舰模型完成的任务现可用中档模型做到 [6] - 早期用户反馈显示,原本需要花费五倍价格才能获得的能力,现可用Sonnet 4.6达到相近效果,意味着运营成本可能降至原来的五分之一 [19][20] - 数据分析平台Hex Technologies的CTO表示,公司正将大部分流量迁移至Sonnet 4.6,在除最困难任务外均看到Opus级别的性能,但成本为Sonnet级别 [20] - 云存储公司Box的CTO表示,Sonnet 4.6在真实企业文档的重度推理问答中,表现比Sonnet 4.5提高了15个百分点 [20] - Anthropic的进步引发了软件股的大规模抛售,投资者担忧AI对现有业务的潜在颠覆,Sonnet 4.6可能加剧这种市场不安 [26][27] 关键能力与安全改进 - Sonnet 4.6的计算机使用能力(通过鼠标键盘与软件交互)实现重大突破,为最广泛的企业应用场景打开了大门,例如自动操作所有可交互系统而无需定制连接器 [12][14][15] - 早期用户如保险科技公司Pace的CEO表示,Sonnet 4.6在其复杂的保险计算机使用基准测试中达到94%的成绩,是所有测试过的Claude模型中最高,并能推理失败原因并自我纠正 [16] - Anthropic表示,Sonnet 4.6在抵御提示注入攻击(恶意网页指令劫持模型)方面比Sonnet 4.5有重大改进,这对于需要浏览网页和与外部系统交互的企业代理部署至关重要 [17][18] - 模型配备了100万token的超长上下文窗口,可容纳整个代码库、法律文件或数十篇研究论文,并能进行有效推理 [21][22] 市场扩张与合作伙伴关系 - 在Sonnet 4.6发布当天,印度IT巨头Infosys宣布与Anthropic合作,构建企业级agent,将Claude模型集成到Infosys的Topaz AI平台中,服务于银行、电信和制造业 [25] - Anthropic在印度班加罗尔开设了首个印度办事处,印度目前占全球Claude使用量的约6%,仅次于美国 [25] - Anthropic将其免费层级默认升级到了Sonnet 4.6,开发者可通过Claude API直接调用 [28]
性能持平价格大降80%,Anthropic 新模型杀疯了
36氪·2026-02-18 13:52