Anthropic又“踢馆”！Sonnet 4.6操作电脑接近人类，性能堪比旗舰模型、定价仅1/5

Anthropic发布Claude Sonnet 4.6模型 - 核心观点：Anthropic在发布旗舰模型Opus 4.6后不到两周，再次推出中端模型Claude Sonnet 4.6，该模型以中端价格（输入每百万token 3美元，输出每百万token 15美元）提供了接近甚至部分超越旗舰Opus 4.6（输入每百万token 15美元，输出每百万token 75美元）的性能，实现了重大的成本性能比突破，可能重塑AI行业定价格局 [1][3][12] 模型性能与基准测试 - 操作电脑能力：Sonnet 4.6在OSWorld基准测试中得分达72.5%，在16个月内提升了五倍，接近人类水平，在复杂保险计算机使用基准测试中准确率达94% [1][5][7] - 编程能力：在SWE-bench Verified编码测试中，Sonnet 4.6得分79.6%，接近Opus 4.6的80.8% [10] - 办公与财务分析能力：在办公任务GDPval-AA Elo测试中，Sonnet 4.6得分1633，超过Opus 4.6的1606；在模拟财务分析测试中，Sonnet 4.6得分63.3%，超过Opus 4.6的60.1% [10] - 多维度对比：根据提供的基准测试表格，Sonnet 4.6在多项测试中表现优于前代Sonnet 4.5，并在智能体计算机使用（72.5%）、智能体金融分析（63.3%）等关键企业应用领域超越竞争对手GPT-5.2和Gemini 3 Pro [11][20][21] 开发者与客户反馈 - 开发者偏好：早期测试中，开发者在大约70%的情况下更偏好Sonnet 4.6而非Sonnet 4.5，甚至在59%的情况下更偏好其而非前代旗舰Opus 4.5 [1][3][9] - 企业客户评价：多家企业客户，如Hex Technologies、Box、Replit、Mercury等，证实该模型在多数任务上达到Opus级别性能，且成本更低，性能成本比“非凡”，正将流量转移至Sonnet 4.6 [12][14][15] 定价策略与市场影响 - 定价优势：Sonnet 4.6定价仅为旗舰Opus模型的五分之一，为每天进行数百万次API调用的企业部署提供了变革性的成本效益，消除了在成本与性能之间的权衡 [3][12][13] - 企业市场拓展：发布正值公司加速进军企业市场，近期以3800亿美元估值完成300亿美元新融资（估值较去年9月翻倍），并与印度IT巨头Infosys合作，整合Claude模型至其Topaz AI平台 [4] 技术特性与长期能力 - 上下文窗口：配备100万token的上下文窗口（测试版），能有效进行长期推理 [15] - 战略规划能力：在Vending-Bench Arena模拟业务测试中，Sonnet 4.6自主制定并执行长期投资策略，模拟结束时余额约5700美元，远超Sonnet 4.5的约2100美元 [16] - 安全改进：在抵御计算机操作中的提示注入攻击方面，较Sonnet 4.5有重大改进 [8] 行业竞争与背景 - 快速发布节奏：此次发布是公司在12天内的第二次重大模型发布，体现了行业激烈的竞争和快节奏的开发 [18] - 行业影响：AI模型的快速进展加剧了投资者对软件行业可能被颠覆的担忧，iShares扩展科技软件行业ETF今年以来已暴跌逾20% [18] - 竞争格局：Sonnet 4.6在多个基准测试中表现优于Google的Gemini 3 Pro和OpenAI的GPT-5.2，而OpenAI据报也在进行可能近1000亿美元的融资谈判 [20][21][22]