模型性能表现 - Claude Sonnet 4.5在SWE-bench验证评估中达到82.0%,领先于Claude Opus 4.1的79.4%和GPT-5的74.5% [7][13] - 在Terminal-Bench终端编码评估中取得50.0%的成绩,高于Claude Sonnet 4的36.4%和GPT-5的43.8% [13] - 计算机使用能力在OSWorld基准测试中达到61.4%,相比四个月前Sonnet 4的42.2%有显著提升 [11][13] - 高中数学竞赛AIME 2025评估中达到100%(使用Python工具),高于GPT-5的99.6% [13] - 金融分析能力达到55.3%,优于Claude Opus 4.1的50.9%和GPT-5的46.9% [13] 产品功能升级 - Anthropic为Claude Code添加检查点功能,支持进度保存和状态回滚 [8] - 更新终端界面并推出原生VS Code扩展,为API增加上下文编辑功能和记忆工具 [8] - 在应用程序中集成代码执行和文件创建功能,可直接生成电子表格、幻灯片和文档 [8] - 为Max用户提供Claude for Chrome扩展,支持在浏览器中直接操作网站和填写表格 [8][11] 开发者工具与架构 - 发布Claude Agent SDK,提供构建AI智能体的基础工具和架构 [4][35] - 智能体能够管理长时间运行任务的内存,处理权限系统平衡自主性与用户控制 [34] - 模型在复杂多步骤任务上可保持专注超过30小时 [7] 模型安全与对齐 - Claude Sonnet 4.5被称为Anthropic最符合对齐要求的前沿模型,在多个对齐领域有显著改进 [5][27] - 大幅减少谄媚、欺骗、争取主导权等行为,在抵御提示注入攻击方面取得进展 [27] - 在AI安全等级3保护措施下发布,包含检测化学、生物、放射性风险的分类器 [32] 市场定价与可用性 - Claude Sonnet 4.5定价与Sonnet 4版本一致,每百万token输入/输出分别为3美元/15美元 [5] - "Imagine with Claude"研究预览版将在未来五天内面向Max订阅用户开放 [36][38]
Claude Sonnet 4.5来了!能连续编程30多小时、1.1万行代码
机器之心·2025-09-30 08:27