Claude Code 2.0
搜索文档
Anthropic 深夜祭出 Claude Sonnet 4.5,能自主连续工作 30 小时,CEO:它更像你的同事
36氪· 2025-09-30 11:20
模型核心性能突破 - 新一代模型Claude Sonnet 4.5被定位为世界上最好的编码模型、构建复杂代理的最强大工具以及使用计算机的最佳模型[1] - 在SWE-bench Verified基准测试中准确率达77.2%,较前代提升近20个百分点,展示出卓越的真实软件编码能力[2] - 具备长周期任务处理能力,能自主运行30小时,生成1.1万行代码,完整开发出企业级应用,实现从“写代码”到“生产级交付”的跨越[2] 多领域能力显著提升 - 在计算机操作领域,OSWorld基准测试得分从42.2%跃升至61.4%,领先行业同类产品[4] - 金融、法律等专业领域推理能力较上一代Opus 4.1提升30%以上,数学问题解决精度显著优化[4] - 在金融分析(Finance Agent)测试中得分55.3%,显著高于GPT-5的46.9%和Gemini 2.5 Pro的29.4%[5] - 在Agentic tool use的电信(Telecom)场景测试中得分98.0%,远超旧版模型的49.6%和GPT-5的96.7%[5] 开发者工具与产品生态升级 - 同步推出Claude Agent SDK开发工具包,将内部开发核心基础设施对外开放,解决长期任务记忆管理、自主性与用户控制平衡等痛点[9] - 发布Claude Code 2.0,新增“检查点”功能支持代码进度保存与即时回滚,并刷新终端界面与原生VS Code扩展[8] - API能力强化,新增上下文编辑与记忆工具,使AI代理持续运行时间从7小时延长至30小时,可处理更复杂多步骤任务[8] - 应用内直接集成代码执行与文件创建功能,支持在对话中生成电子表格、幻灯片等文档,并面向Max订阅用户开放浏览器扩展[8] 安全性与可靠性增强 - 模型通过AI安全等级3(ASL-3)认证,配备化学、生物等危险内容分类检测器,误报率较初代模型降低90%[10] - 在防御即时注入攻击方面取得显著进展,大幅减少欺骗性回答、权力寻求等风险行为[10] - 公司称此为过去一年或一年半中最大的安全飞跃[13] 商业策略与行业影响 - 保持价格亲民,API调用费用与Claude Sonnet 4完全一致,为每百万代币输入3美元、输出15美元[13] - 公司推荐该模型用于“基本上所有用例”,并预计年底前可能再推出新模型[13] - 行业分析师指出,此次发布标志着AI从“辅助工具”向“独立生产力”的跨越,开放SDK举措将加速AI代理技术在各行业落地[13]
Anthropic 深夜祭出 Claude Sonnet 4.5,能自主连续工作 30 小时!CEO:它更像你的同事
AI前线· 2025-09-30 09:18
模型核心性能突破 - Anthropic正式推出新一代模型Claude Sonnet 4 5,官方称其为世界上最好的编码模型、构建复杂代理的最强大工具、使用计算机的最佳模型[2] - 在SWE-bench Verified基准测试中,模型以77 2%的准确率名列前茅,较前代提升近20个百分点[4] - 模型具备长周期任务处理能力,能自主运行30小时,生成1 1万行代码,完整开发出类似钉钉的企业聊天应用,成为首个实现生产级交付的AI模型[4] - 在计算机操作领域,其OSWorld基准测试得分从四个月前的42 2%跃升至61 4%,领先行业同类产品[7] - 金融、法律等专业领域测试显示,其推理能力较上一代Opus 4 1提升30%以上,数学问题解决精度显著优化[7] - 在高中数学竞赛AIME 2025测试中达到87 0%准确率,金融分析测试达到55 3%准确率,显著优于前代及部分竞品[9] 产品生态与开发者工具 - 同步推出Claude Agent SDK开发工具包,将内部开发Claude Code的核心基础设施对外开放,解决AI代理开发中的长期任务记忆管理、自主性与用户控制平衡、多代理协同调度三大痛点[12] - Claude Code 2 0新增检查点功能,支持代码进度保存与即时回滚,配合刷新的终端界面与原生VS Code扩展,提升开发效率[13] - API新增上下文编辑与记忆工具,使AI代理持续运行时间从7小时延长至30小时,可处理更复杂多步骤任务[13] - 应用内直接集成代码执行与文件创建功能,支持在对话中生成电子表格、幻灯片等文档,并为Max订阅用户开放Chrome扩展程序下载[13] - SDK已在Canva等企业工程团队中得到验证,能显著提升代码库管理与产品研究效率[14] 安全与商业策略 - 模型通过AI安全等级3认证,配备化学、生物等危险内容分类检测器,误报率较初代模型降低90%,同时大幅减少欺骗性回答、权力寻求等风险行为[16] - 在防御即时注入攻击方面取得显著进展,而即时注入攻击是代理和计算机使用功能用户面临的最严重风险之一[16] - API调用费用与Claude Sonnet 4完全一致,为每百万代词输入3美元、输出15美元,保持价格亲民[19] - 公司推荐该模型用于基本上所有用例,并称其比Claude Opus 4 1小,但几乎在各个方面都更智能[19][21] - 行业分析师指出,此次发布标志着AI从辅助工具向独立生产力的跨越,开放SDK举措或将加速AI代理技术在各行业落地应用[21]