Anthropic发布Claude Sonnet 4.6模型 - 公司发布新中端模型Claude Sonnet 4.6,在编程、操作电脑、长文本推理、智能体规划、知识工作和设计等方面实现全面升级 [1] - 新模型定价与前代Sonnet 4.5相同,为每百万token输入3美元、输出15美元,但性能已接近定价为其五倍的旗舰Opus模型(Opus定价为输入15美元、输出75美元)[1] - 对于每天进行数百万次API调用的企业部署而言,这一成本性能比的改变具有变革意义 [1] 模型性能关键提升 - 操作电脑能力:Sonnet 4.6在标准基准测试OSWorld上得分达72.5%,在不到一年半时间内从14.9%提升至接近人类水平 [3][5] - 编程能力:在早期测试中,开发者在约70%的情况下更偏好Sonnet 4.6而非前代Sonnet 4.5,甚至在59%的情况下更偏好它而非去年11月发布的旗舰模型Opus 4.5 [1][7] - 基准测试表现:在SWE-bench Verified编码测试中得分为79.6%,接近Opus 4.6的80.8%;在OSWorld-Verified测试中得分为72.5%,与Opus 4.6的72.7%基本持平;在办公任务GDPval-AA Elo测试中得分1633,远超Opus 4.6的1606;在模拟财务分析测试中得分63.3%,击败了包括Opus 4.6(60.1%)在内的所有对比模型 [8] - 长期战略规划:模型配备100万token上下文窗口(测试版),在Vending-Bench Arena模拟业务测试中,Sonnet 4.6在365天模拟结束时余额约5700美元,远高于Sonnet 4.5的约2100美元 [12][13] 企业应用与市场影响 - 模型操作电脑的能力对企业应用至关重要,能自动化缺乏API的遗留软件系统,在复杂的保险计算机使用基准测试中准确率达94% [5] - 多家企业客户反馈积极:Hex Technologies正将大部分流量转移到Sonnet 4.6;Box表示该模型在真实企业文档的重度推理问答中比Sonnet 4.5高出15个百分点;Replit称性能成本比“非凡”;Mercury的产品副总裁称其更快、更便宜且更可能一次成功 [10][12] - 公司加速进军企业市场,近期以3800亿美元估值完成300亿美元新融资,估值较去年9月翻倍,并与印度IT巨头Infosys合作,将Claude模型整合至其Topaz AI平台 [2][18] 行业竞争格局 - 此次发布是公司在不到两周内的第二次重大模型发布,紧随旗舰模型Claude Opus 4.6之后,体现了行业快节奏开发 [16] - 在多个基准测试中,Sonnet 4.6超越了竞争对手Google的Gemini 3 Pro和OpenAI的GPT-5.2,例如在智能体计算机使用测试中以72.5%对38.2%领先GPT-5.2 [19] - 公司的快速进展加剧了市场对软件行业被AI颠覆的担忧,iShares扩展科技软件行业ETF今年以来已暴跌逾20% [16][17] - OpenAI据报也在进行可能接近1000亿美元的融资谈判 [21]
Anthropic又“踢馆”!Sonnet 4.6操作电脑接近人类,性能堪比旗舰模型、定价仅1/5
华尔街见闻·2026-02-18 12:33