深夜炸场！Claude Sonnet 4.5上线，自主编程30小时，网友实测：一次调用重构代码库，新增3000行代码却运行失败

Claude Sonnet 4.5模型性能提升 - 在SWE-bench Verified评测中取得顶级成绩，成为世界上最好的编码模型[1] - 能够自主持续运行超过30小时，相比Opus 4的7小时运行时间有大幅优化[3] - 在OSWorld电脑操作测试中得分61.4%，相比四个月前Sonnet 4的42.2%有显著提升[6] 模型能力对比表现 - 在Agentic Coding测试中达到77.2%（无并行计算）和82.0%（有并行计算），优于GPT-5的72.8%和Gemini 2.5 Pro的67.2%[7] - 终端编码测试得分50.0%，高于GPT-5的43.8%和Gemini的25.3%[7] - 金融分析测试得分55.3%，显著高于GPT-5的46.9%和Gemini的29.4%[7] - 高中数学竞赛测试获得100%满分，高于GPT-5的99.6%和Gemini的88.0%[7] 安全性能改进 - 被评为最"对齐"的前沿模型，在自动化行为审计工具评估中得分最低[10][11] - 按照AI安全等级3标准发布，配备与能力水平相匹配的防护措施[13] - 误报率相比最初版本降低10倍，与5月发布的Claude Opus 4相比下降一半[13] Claude Code功能更新 - 推出原生VS Code插件Beta版本，提供实时代码修改查看和内联差异显示[15] - 终端界面升级，新增清晰状态显示和可搜索的提示历史功能[17] - 增加checkpoint功能，支持代码状态自动保存和版本回退[21] - 推出Claude Agent SDK，开放核心模块供开发者构建自定义代理体验[19] 产品定价与可用性 - Claude Sonnet 4.5即日可用，API定价与4.0版本保持一致[22] - 输入token收费为每百万3美元，输出token收费为每百万15美元[22] - 推出限时实验功能"Imagine with Claude"，向Max用户开放5天[22] 行业竞争动态 - DeepSeek发布V3.2版本，API调用成本大幅降低50%[32][36] - OpenAI计划在未来两周发布新产品，包括Sora 2独立社交媒体应用[34] - 行业进入新一轮竞争周期，各公司纷纷推出模型更新和成本优化措施[32][34]