模型核心性能突破 - 新一代模型Claude Sonnet 4.5被定位为世界上最好的编码模型、构建复杂代理的最强大工具以及使用计算机的最佳模型[1] - 在SWE-bench Verified基准测试中准确率达77.2%,较前代提升近20个百分点,展示出卓越的真实软件编码能力[2] - 具备长周期任务处理能力,能自主运行30小时,生成1.1万行代码,完整开发出企业级应用,实现从“写代码”到“生产级交付”的跨越[2] 多领域能力显著提升 - 在计算机操作领域,OSWorld基准测试得分从42.2%跃升至61.4%,领先行业同类产品[4] - 金融、法律等专业领域推理能力较上一代Opus 4.1提升30%以上,数学问题解决精度显著优化[4] - 在金融分析(Finance Agent)测试中得分55.3%,显著高于GPT-5的46.9%和Gemini 2.5 Pro的29.4%[5] - 在Agentic tool use的电信(Telecom)场景测试中得分98.0%,远超旧版模型的49.6%和GPT-5的96.7%[5] 开发者工具与产品生态升级 - 同步推出Claude Agent SDK开发工具包,将内部开发核心基础设施对外开放,解决长期任务记忆管理、自主性与用户控制平衡等痛点[9] - 发布Claude Code 2.0,新增“检查点”功能支持代码进度保存与即时回滚,并刷新终端界面与原生VS Code扩展[8] - API能力强化,新增上下文编辑与记忆工具,使AI代理持续运行时间从7小时延长至30小时,可处理更复杂多步骤任务[8] - 应用内直接集成代码执行与文件创建功能,支持在对话中生成电子表格、幻灯片等文档,并面向Max订阅用户开放浏览器扩展[8] 安全性与可靠性增强 - 模型通过AI安全等级3(ASL-3)认证,配备化学、生物等危险内容分类检测器,误报率较初代模型降低90%[10] - 在防御即时注入攻击方面取得显著进展,大幅减少欺骗性回答、权力寻求等风险行为[10] - 公司称此为过去一年或一年半中最大的安全飞跃[13] 商业策略与行业影响 - 保持价格亲民,API调用费用与Claude Sonnet 4完全一致,为每百万代币输入3美元、输出15美元[13] - 公司推荐该模型用于“基本上所有用例”,并预计年底前可能再推出新模型[13] - 行业分析师指出,此次发布标志着AI从“辅助工具”向“独立生产力”的跨越,开放SDK举措将加速AI代理技术在各行业落地[13]
Anthropic 深夜祭出 Claude Sonnet 4.5,能自主连续工作 30 小时,CEO:它更像你的同事
36氪·2025-09-30 11:20