刚刚，Claude Sonnet 4.5重磅发布，编程新王降临

产品发布与核心定位 - Anthropic正式发布Claude Sonnet 4.5，并将其定义为全球最强的代码模型 [2][3] - 该版本在智能体构建、计算机使用、推理和数学能力上展现出显著突破，旨在提升现代工作中运用工具和解决复杂问题的效率与可靠性 [3][5] 性能基准测试表现 - 在SWE-bench Verified测试中达到82.0%的准确率，优于Claude Opus 4.1的79.4%、Claude Sonnet 4的80.2%以及GPT-5的74.5% [4] - 在终端编码测试Terminal-Bench中取得50.0%的准确率，显著高于Claude Sonnet 4的36.4%和GPT-5的43.8% [4] - 在计算机使用基准OSWorld测试中以61.4%的成绩位居首位，相比四个月前Sonnet 4的42.2%有大幅提升 [4][13] - 在金融分析测试Finance Agent中取得55.3%的准确率，高于Claude Opus 4.1的50.9%和GPT-5的46.9% [4] 全新功能与产品升级 - Claude Code新增“检查点”功能，支持随时保存进度和回滚，并更新了终端界面及推出原生VS Code插件 [6] - Claude API增加上下文编辑功能和记忆工具，使智能体能运行更久并处理更复杂的任务 [6] - Claude apps支持在对话中直接执行代码、生成文件（包括表格、幻灯片和文档） [6] - 向开发者社区推出Claude Agent SDK，开放驱动Claude Code的底层基础设施 [8][9] 专业用户验证与实际应用效果 - iGent AI CEO表示，Claude Sonnet 4.5能自主编程超过30小时，帮助工程师在极短时间内完成原本需数月的复杂架构工作 [22][23] - replit内部测试显示，代码错误率从Sonnet 4的9%降至0% [22] 安全性与对齐性改进 - Sonnet 4.5是迄今为止对齐性最好的Claude模型，在减少迎合、欺骗等行为方面成效明显，并特别加强了对提示注入攻击的防御 [28] - 模型按照AI Safety Level 3框架发布，包含针对化学、生物等内容的分类器过滤机制，与Sonnet 4相比误报率已降低十倍 [31] API新特性与定价 - API层面重要更新包括记忆工具、上下文编辑、新的停止原因提示及工具参数改进 [34] - 定价保持与Sonnet 4一致，输入为3美元/百万Tokens，输出为15美元/百万Tokens [35] - 模型可通过Claude API、Amazon Bedrock、Google Cloud Vertex AI及Claude.ai与Claude Code平台使用 [37] 研究预览与行业影响 - 发布临时研究预览“Imagine with Claude”，该功能可实时生成软件演示视频，向Max订阅用户开放5天 [33] - 该版本被视为编程领域的重大跃升，预计将引发新一轮AI编程大战，成为行业争相对标的新对象 [40]