深夜炸场!Claude Sonnet 4.5上线,自主编程30小时,网友实测:一次调用重构代码库,新增3000行代码却运行失败
AI科技大本营·2025-09-30 18:24

Claude Sonnet 4.5模型性能提升 - 在SWE-bench Verified评测中取得顶级成绩,成为世界上最好的编码模型[1] - 能够自主持续运行超过30小时,相比Opus 4的7小时运行时间有大幅优化[3] - 在OSWorld电脑操作测试中得分61.4%,相比四个月前Sonnet 4的42.2%有显著提升[6] 模型能力对比表现 - 在Agentic Coding测试中达到77.2%(无并行计算)和82.0%(有并行计算),优于GPT-5的72.8%和Gemini 2.5 Pro的67.2%[7] - 终端编码测试得分50.0%,高于GPT-5的43.8%和Gemini的25.3%[7] - 金融分析测试得分55.3%,显著高于GPT-5的46.9%和Gemini的29.4%[7] - 高中数学竞赛测试获得100%满分,高于GPT-5的99.6%和Gemini的88.0%[7] 安全性能改进 - 被评为最"对齐"的前沿模型,在自动化行为审计工具评估中得分最低[10][11] - 按照AI安全等级3标准发布,配备与能力水平相匹配的防护措施[13] - 误报率相比最初版本降低10倍,与5月发布的Claude Opus 4相比下降一半[13] Claude Code功能更新 - 推出原生VS Code插件Beta版本,提供实时代码修改查看和内联差异显示[15] - 终端界面升级,新增清晰状态显示和可搜索的提示历史功能[17] - 增加checkpoint功能,支持代码状态自动保存和版本回退[21] - 推出Claude Agent SDK,开放核心模块供开发者构建自定义代理体验[19] 产品定价与可用性 - Claude Sonnet 4.5即日可用,API定价与4.0版本保持一致[22] - 输入token收费为每百万3美元,输出token收费为每百万15美元[22] - 推出限时实验功能"Imagine with Claude",向Max用户开放5天[22] 行业竞争动态 - DeepSeek发布V3.2版本,API调用成本大幅降低50%[32][36] - OpenAI计划在未来两周发布新产品,包括Sora 2独立社交媒体应用[34] - 行业进入新一轮竞争周期,各公司纷纷推出模型更新和成本优化措施[32][34]