Anthropic又“踢馆”！Sonnet 4.6操作电脑接近人类，性能堪比旗舰模型、定价仅1/5

Anthropic发布Claude Sonnet 4.6模型 - 公司发布新中端模型Claude Sonnet 4.6，在编程、操作电脑、长文本推理、智能体规划、知识工作和设计等方面实现全面升级 [1] - 新模型定价与前代Sonnet 4.5相同，为每百万token输入3美元、输出15美元，但性能已接近定价为其五倍的旗舰Opus模型（Opus定价为输入15美元、输出75美元）[1] - 对于每天进行数百万次API调用的企业部署而言，这一成本性能比的改变具有变革意义 [1] 模型性能关键提升 - 操作电脑能力：Sonnet 4.6在标准基准测试OSWorld上得分达72.5%，在不到一年半时间内从14.9%提升至接近人类水平 [3][5] - 编程能力：在早期测试中，开发者在约70%的情况下更偏好Sonnet 4.6而非前代Sonnet 4.5，甚至在59%的情况下更偏好它而非去年11月发布的旗舰模型Opus 4.5 [1][7] - 基准测试表现：在SWE-bench Verified编码测试中得分为79.6%，接近Opus 4.6的80.8%；在OSWorld-Verified测试中得分为72.5%，与Opus 4.6的72.7%基本持平；在办公任务GDPval-AA Elo测试中得分1633，远超Opus 4.6的1606；在模拟财务分析测试中得分63.3%，击败了包括Opus 4.6（60.1%）在内的所有对比模型 [8] - 长期战略规划：模型配备100万token上下文窗口（测试版），在Vending-Bench Arena模拟业务测试中，Sonnet 4.6在365天模拟结束时余额约5700美元，远高于Sonnet 4.5的约2100美元 [12][13] 企业应用与市场影响 - 模型操作电脑的能力对企业应用至关重要，能自动化缺乏API的遗留软件系统，在复杂的保险计算机使用基准测试中准确率达94% [5] - 多家企业客户反馈积极：Hex Technologies正将大部分流量转移到Sonnet 4.6；Box表示该模型在真实企业文档的重度推理问答中比Sonnet 4.5高出15个百分点；Replit称性能成本比“非凡”；Mercury的产品副总裁称其更快、更便宜且更可能一次成功 [10][12] - 公司加速进军企业市场，近期以3800亿美元估值完成300亿美元新融资，估值较去年9月翻倍，并与印度IT巨头Infosys合作，将Claude模型整合至其Topaz AI平台 [2][18] 行业竞争格局 - 此次发布是公司在不到两周内的第二次重大模型发布，紧随旗舰模型Claude Opus 4.6之后，体现了行业快节奏开发 [16] - 在多个基准测试中，Sonnet 4.6超越了竞争对手Google的Gemini 3 Pro和OpenAI的GPT-5.2，例如在智能体计算机使用测试中以72.5%对38.2%领先GPT-5.2 [19] - 公司的快速进展加剧了市场对软件行业被AI颠覆的担忧，iShares扩展科技软件行业ETF今年以来已暴跌逾20% [16][17] - OpenAI据报也在进行可能接近1000亿美元的融资谈判 [21]