深夜炸场，Claude Sonnet 4.5上线，自主编程30小时，网友实测：一次调用重构代码库，新增3000行代码却运行失败

模型性能提升 - Anthropic发布Claude Sonnet 4.5版本，号称“世界上最好的编码模型”[1] - 在SWE-bench Verified评测中取得顶级成绩，能在复杂多步骤任务上专注运行超过30小时，相比Opus 4的7小时有大幅优化[2] - 在OSWorld电脑操作测试中得分61.4%，相比四个月前Sonnet 4的42.2%有显著提升[4] - 在Agentic Coding测试中达到77.2%，超过GPT-5的72.8%和Gemini 2.5 Pro的67.2%[7] - 在Agentic Tool Use测试的电信领域达到98.0%，远高于Opus 4.1的71.5%和Sonnet 4的49.6%[7] - 在金融分析测试中得分55.3%，高于GPT-5的46.9%和Gemini 2.5 Pro的29.4%[7] 安全与对齐改进 - Claude Sonnet 4.5是公司迄今推出的最“对齐”的前沿模型，有效改进了“幻觉”、“谄媚”、“欺骗”等问题[9] - 模型接受广泛安全训练，增强了对即时注入攻击的防护，在自动化行为审计中评分最低[10] - 按照AI安全等级3标准发布，配备分类器过滤涉及化学、生物、放射和核武器的危险内容[12] - 误报率相比最初版本降低了10倍，与今年5月发布的Claude Opus 4相比下降了一半[12] 开发者工具更新 - 推出原生VS Code插件的Beta版本，用户可通过专用侧边栏面板实时查看代码修改和内联差异[13] - 终端界面新增更清晰的状态显示和可搜索的提示历史，方便用户重复使用或编辑指令[16] - 增加checkpoint功能，允许用户通过双击Esc或/rewind命令回退到先前代码版本[18] - 发布Claude Agent SDK，开放用于构建Claude Code的核心模块给开发者[15][16] 产品功能扩展 - Claude API新增上下文编辑和记忆工具，使智能体可运行更长时间、处理更复杂任务[20] - Claude应用中可直接在对话里运行代码和生成文件，包括表格、幻灯片和文档[20] - 推出限时实验功能“Imagine with Claude”，能实时生成软件，对Max用户开放5天[20] - Sonnet 4.5的API定价与4.0相同，每百万输入token收费3美元，每百万输出token收费15美元[20] 行业竞争动态 - 开发者实测显示Claude Sonnet 4.5能自主生成3D射击游戏的贴图和音效，引发对游戏开发者替代的讨论[22] - 有开发者反馈模型一次调用可重构整个代码库，调用25个工具，新增3000多行代码，创建12个新文件[27] - 行业出现新一轮竞争，DeepSeek推出新模型，推理成本降低10倍，API成本降低50%[29] - 据报道OpenAI未来两周将发布新产品，为Sora 2推出独立社交媒体应用，内容100%由AI生成[32]