Anthropic 深夜祭出 Claude Sonnet 4.5，能自主连续工作 30 小时，CEO：它更像你的同事

模型核心性能突破 - 新一代模型Claude Sonnet 4.5被定位为世界上最好的编码模型、构建复杂代理的最强大工具以及使用计算机的最佳模型[1] - 在SWE-bench Verified基准测试中准确率达77.2%，较前代提升近20个百分点，展示出卓越的真实软件编码能力[2] - 具备长周期任务处理能力，能自主运行30小时，生成1.1万行代码，完整开发出企业级应用，实现从“写代码”到“生产级交付”的跨越[2] 多领域能力显著提升 - 在计算机操作领域，OSWorld基准测试得分从42.2%跃升至61.4%，领先行业同类产品[4] - 金融、法律等专业领域推理能力较上一代Opus 4.1提升30%以上，数学问题解决精度显著优化[4] - 在金融分析（Finance Agent）测试中得分55.3%，显著高于GPT-5的46.9%和Gemini 2.5 Pro的29.4%[5] - 在Agentic tool use的电信（Telecom）场景测试中得分98.0%，远超旧版模型的49.6%和GPT-5的96.7%[5] 开发者工具与产品生态升级 - 同步推出Claude Agent SDK开发工具包，将内部开发核心基础设施对外开放，解决长期任务记忆管理、自主性与用户控制平衡等痛点[9] - 发布Claude Code 2.0，新增“检查点”功能支持代码进度保存与即时回滚，并刷新终端界面与原生VS Code扩展[8] - API能力强化，新增上下文编辑与记忆工具，使AI代理持续运行时间从7小时延长至30小时，可处理更复杂多步骤任务[8] - 应用内直接集成代码执行与文件创建功能，支持在对话中生成电子表格、幻灯片等文档，并面向Max订阅用户开放浏览器扩展[8] 安全性与可靠性增强 - 模型通过AI安全等级3（ASL-3）认证，配备化学、生物等危险内容分类检测器，误报率较初代模型降低90%[10] - 在防御即时注入攻击方面取得显著进展，大幅减少欺骗性回答、权力寻求等风险行为[10] - 公司称此为过去一年或一年半中最大的安全飞跃[13] 商业策略与行业影响 - 保持价格亲民，API调用费用与Claude Sonnet 4完全一致，为每百万代币输入3美元、输出15美元[13] - 公司推荐该模型用于“基本上所有用例”，并预计年底前可能再推出新模型[13] - 行业分析师指出，此次发布标志着AI从“辅助工具”向“独立生产力”的跨越，开放SDK举措将加速AI代理技术在各行业落地[13]