Anthropic又“踢馆”!Sonnet 4.6操作电脑接近人类,性能堪比旗舰模型、定价仅1/5
美股IPO·2026-02-18 08:06

Anthropic发布Claude Sonnet 4.6模型 - 核心观点:Anthropic在发布旗舰模型Opus 4.6后不到两周,再次推出中端模型Claude Sonnet 4.6,该模型以中端价格(输入每百万token 3美元,输出每百万token 15美元)提供了接近甚至部分超越旗舰Opus 4.6(输入每百万token 15美元,输出每百万token 75美元)的性能,实现了重大的成本性能比突破,可能重塑AI行业定价格局 [1][3][12] 模型性能与基准测试 - 操作电脑能力:Sonnet 4.6在OSWorld基准测试中得分达72.5%,在16个月内提升了五倍,接近人类水平,在复杂保险计算机使用基准测试中准确率达94% [1][5][7] - 编程能力:在SWE-bench Verified编码测试中,Sonnet 4.6得分79.6%,接近Opus 4.6的80.8% [10] - 办公与财务分析能力:在办公任务GDPval-AA Elo测试中,Sonnet 4.6得分1633,超过Opus 4.6的1606;在模拟财务分析测试中,Sonnet 4.6得分63.3%,超过Opus 4.6的60.1% [10] - 多维度对比:根据提供的基准测试表格,Sonnet 4.6在多项测试中表现优于前代Sonnet 4.5,并在智能体计算机使用(72.5%)、智能体金融分析(63.3%)等关键企业应用领域超越竞争对手GPT-5.2和Gemini 3 Pro [11][20][21] 开发者与客户反馈 - 开发者偏好:早期测试中,开发者在大约70%的情况下更偏好Sonnet 4.6而非Sonnet 4.5,甚至在59%的情况下更偏好其而非前代旗舰Opus 4.5 [1][3][9] - 企业客户评价:多家企业客户,如Hex Technologies、Box、Replit、Mercury等,证实该模型在多数任务上达到Opus级别性能,且成本更低,性能成本比“非凡”,正将流量转移至Sonnet 4.6 [12][14][15] 定价策略与市场影响 - 定价优势:Sonnet 4.6定价仅为旗舰Opus模型的五分之一,为每天进行数百万次API调用的企业部署提供了变革性的成本效益,消除了在成本与性能之间的权衡 [3][12][13] - 企业市场拓展:发布正值公司加速进军企业市场,近期以3800亿美元估值完成300亿美元新融资(估值较去年9月翻倍),并与印度IT巨头Infosys合作,整合Claude模型至其Topaz AI平台 [4] 技术特性与长期能力 - 上下文窗口:配备100万token的上下文窗口(测试版),能有效进行长期推理 [15] - 战略规划能力:在Vending-Bench Arena模拟业务测试中,Sonnet 4.6自主制定并执行长期投资策略,模拟结束时余额约5700美元,远超Sonnet 4.5的约2100美元 [16] - 安全改进:在抵御计算机操作中的提示注入攻击方面,较Sonnet 4.5有重大改进 [8] 行业竞争与背景 - 快速发布节奏:此次发布是公司在12天内的第二次重大模型发布,体现了行业激烈的竞争和快节奏的开发 [18] - 行业影响:AI模型的快速进展加剧了投资者对软件行业可能被颠覆的担忧,iShares扩展科技软件行业ETF今年以来已暴跌逾20% [18] - 竞争格局:Sonnet 4.6在多个基准测试中表现优于Google的Gemini 3 Pro和OpenAI的GPT-5.2,而OpenAI据报也在进行可能近1000亿美元的融资谈判 [20][21][22]

Anthropic又“踢馆”!Sonnet 4.6操作电脑接近人类,性能堪比旗舰模型、定价仅1/5 - Reportify