产品发布与核心定位 - Anthropic正式发布Claude Sonnet 4.5,并将其定义为全球最强的代码模型 [2][3] - 该版本在智能体构建、计算机使用、推理和数学能力上展现出显著突破,旨在提升现代工作中运用工具和解决复杂问题的效率与可靠性 [3][5] 性能基准测试表现 - 在SWE-bench Verified测试中达到82.0%的准确率,优于Claude Opus 4.1的79.4%、Claude Sonnet 4的80.2%以及GPT-5的74.5% [4] - 在终端编码测试Terminal-Bench中取得50.0%的准确率,显著高于Claude Sonnet 4的36.4%和GPT-5的43.8% [4] - 在计算机使用基准OSWorld测试中以61.4%的成绩位居首位,相比四个月前Sonnet 4的42.2%有大幅提升 [4][13] - 在金融分析测试Finance Agent中取得55.3%的准确率,高于Claude Opus 4.1的50.9%和GPT-5的46.9% [4] 全新功能与产品升级 - Claude Code新增“检查点”功能,支持随时保存进度和回滚,并更新了终端界面及推出原生VS Code插件 [6] - Claude API增加上下文编辑功能和记忆工具,使智能体能运行更久并处理更复杂的任务 [6] - Claude apps支持在对话中直接执行代码、生成文件(包括表格、幻灯片和文档) [6] - 向开发者社区推出Claude Agent SDK,开放驱动Claude Code的底层基础设施 [8][9] 专业用户验证与实际应用效果 - iGent AI CEO表示,Claude Sonnet 4.5能自主编程超过30小时,帮助工程师在极短时间内完成原本需数月的复杂架构工作 [22][23] - replit内部测试显示,代码错误率从Sonnet 4的9%降至0% [22] 安全性与对齐性改进 - Sonnet 4.5是迄今为止对齐性最好的Claude模型,在减少迎合、欺骗等行为方面成效明显,并特别加强了对提示注入攻击的防御 [28] - 模型按照AI Safety Level 3框架发布,包含针对化学、生物等内容的分类器过滤机制,与Sonnet 4相比误报率已降低十倍 [31] API新特性与定价 - API层面重要更新包括记忆工具、上下文编辑、新的停止原因提示及工具参数改进 [34] - 定价保持与Sonnet 4一致,输入为3美元/百万Tokens,输出为15美元/百万Tokens [35] - 模型可通过Claude API、Amazon Bedrock、Google Cloud Vertex AI及Claude.ai与Claude Code平台使用 [37] 研究预览与行业影响 - 发布临时研究预览“Imagine with Claude”,该功能可实时生成软件演示视频,向Max订阅用户开放5天 [33] - 该版本被视为编程领域的重大跃升,预计将引发新一轮AI编程大战,成为行业争相对标的新对象 [40]
刚刚,Claude Sonnet 4.5重磅发布,编程新王降临
36氪·2025-09-30 09:32