Claude最强Sonnet模型4.6来了，百万token上下文

文章核心观点 - Anthropic公司在大年初二发布了其最新的Claude Sonnet 4.6模型，该公司称其为目前能力最强的Sonnet模型 [2] - 新模型在编码、计算机使用、长上下文推理、智能体规划、知识工作和设计等多个方面进行了全面升级 [4] - 在GDPval-AA测试中，Claude Sonnet 4.6的性能甚至略微领先于该公司不久前发布的更高阶模型Opus 4.6 [6] 模型发布与定价 - Claude Sonnet 4.6的Beta版包含100万token的上下文窗口 [5] - 对于免费和专业版用户，该模型现已成为claude.ai和Claude Cowork的默认模型 [5] - 定价与Sonnet 4.5保持一致，为每百万输入token 3美元，每百万输出token 15美元 [5] - 模型现已面向所有Claude套餐、Claude Cowork、Claude Code、API以及所有主流云平台开放 [22] - 免费套餐已默认升级至Sonnet 4.6版本，并包含文件创建、连接器、技能和压缩功能 [22] 计算机使用能力 - 在计算机使用基准测试OSWorld上，Sonnet模型的性能在过去十六个月里稳步提升 [10] - 早期Sonnet 4.6用户在浏览复杂电子表格、填写多步骤网页表单等任务中，看到了达到人类水平的能力 [10] - 在OSWorld-Verified基准测试中，Sonnet 4.6的“智能体计算机使用”得分达到72.5%，较Sonnet 4.5的61.4%有显著提升 [16] - 该模型在抵抗提示注入攻击方面有重大改进，安全性表现与Opus 4.6相近 [13] 综合性能基准测试 - 在终端编码基准测试Terminal-Bench 2.0中，Sonnet 4.6得分为59.1%，高于Sonnet 4.5的51.0% [16] - 在编码基准测试SWE-bench Verified中，Sonnet 4.6得分为79.6%，高于Sonnet 4.5的77.2% [16] - 在工具使用基准测试T2-bench中，Sonnet 4.6在零售和电信场景的得分分别为91.7%和97.9% [16] - 在智能体搜索基准测试BrowseComp中，Sonnet 4.6得分为74.7%，远高于Sonnet 4.5的43.9% [16] - 在多学科推理基准测试Humanity‘s Last Exam中，Sonnet 4.6在使用工具和未使用工具的情况下得分分别为49.0%和33.2% [16] - 在金融分析基准测试Finance Agent v1.1中，Sonnet 4.6得分为63.3%，高于Sonnet 4.5的54.5% [16] - 在办公任务基准测试GDPval-AA Elo中，Sonnet 4.6得分为1633，高于Sonnet 4.5的1276 [16] - 在解决新问题基准测试ARC-AGI-2中，Sonnet 4.6得分为58.3%，远高于Sonnet 4.5的13.6% [16] - 在研究生级推理基准测试GPQA Diamond中，Sonnet 4.6得分为89.9%，高于Sonnet 4.5的83.4% [16] - 在视觉推理基准测试MMMU-Pro中，Sonnet 4.6在使用工具和未使用工具的情况下得分分别为75.6%和74.5% [16] - 在多语言问答基准测试MMLU中，Sonnet 4.6得分为89.3% [16] 用户反馈与长上下文优势 - 在早期Claude Code测试中，用户大约有70%的时间更喜欢Sonnet 4.6而非Sonnet 4.5 [17] - 相比于前沿模型Opus 4.5，用户甚至有59%的时间更喜欢Sonnet 4.6 [18] - 用户评价Sonnet 4.6在过度工程化和“偷懒”方面显著减少，在指令遵循方面有明显改进，并报告了更少的虚假成功声明、更少的幻觉，以及在多步骤任务中更一致的执行力 [18] - 100万token的上下文窗口使其能在单个请求中容纳整个代码库、长篇合同或数十篇研究论文，并能有效地在所有上下文中进行推理，在长程规划方面表现更佳 [18] - 在Vending-Bench Arena评估中，Sonnet 4.6发展出一种新策略：在模拟的前十个月大力投资于产能，然后在最后阶段急剧转向专注于盈利能力，使其最终远远领先于竞争对手 [19][21]