模型性能提升 - Anthropic发布Claude Sonnet 4.5版本,号称“世界上最好的编码模型”[1] - 在SWE-bench Verified评测中取得顶级成绩,能在复杂多步骤任务上专注运行超过30小时,相比Opus 4的7小时有大幅优化[2] - 在OSWorld电脑操作测试中得分61.4%,相比四个月前Sonnet 4的42.2%有显著提升[4] - 在Agentic Coding测试中达到77.2%,超过GPT-5的72.8%和Gemini 2.5 Pro的67.2%[7] - 在Agentic Tool Use测试的电信领域达到98.0%,远高于Opus 4.1的71.5%和Sonnet 4的49.6%[7] - 在金融分析测试中得分55.3%,高于GPT-5的46.9%和Gemini 2.5 Pro的29.4%[7] 安全与对齐改进 - Claude Sonnet 4.5是公司迄今推出的最“对齐”的前沿模型,有效改进了“幻觉”、“谄媚”、“欺骗”等问题[9] - 模型接受广泛安全训练,增强了对即时注入攻击的防护,在自动化行为审计中评分最低[10] - 按照AI安全等级3标准发布,配备分类器过滤涉及化学、生物、放射和核武器的危险内容[12] - 误报率相比最初版本降低了10倍,与今年5月发布的Claude Opus 4相比下降了一半[12] 开发者工具更新 - 推出原生VS Code插件的Beta版本,用户可通过专用侧边栏面板实时查看代码修改和内联差异[13] - 终端界面新增更清晰的状态显示和可搜索的提示历史,方便用户重复使用或编辑指令[16] - 增加checkpoint功能,允许用户通过双击Esc或/rewind命令回退到先前代码版本[18] - 发布Claude Agent SDK,开放用于构建Claude Code的核心模块给开发者[15][16] 产品功能扩展 - Claude API新增上下文编辑和记忆工具,使智能体可运行更长时间、处理更复杂任务[20] - Claude应用中可直接在对话里运行代码和生成文件,包括表格、幻灯片和文档[20] - 推出限时实验功能“Imagine with Claude”,能实时生成软件,对Max用户开放5天[20] - Sonnet 4.5的API定价与4.0相同,每百万输入token收费3美元,每百万输出token收费15美元[20] 行业竞争动态 - 开发者实测显示Claude Sonnet 4.5能自主生成3D射击游戏的贴图和音效,引发对游戏开发者替代的讨论[22] - 有开发者反馈模型一次调用可重构整个代码库,调用25个工具,新增3000多行代码,创建12个新文件[27] - 行业出现新一轮竞争,DeepSeek推出新模型,推理成本降低10倍,API成本降低50%[29] - 据报道OpenAI未来两周将发布新产品,为Sora 2推出独立社交媒体应用,内容100%由AI生成[32]
深夜炸场,Claude Sonnet 4.5上线,自主编程30小时,网友实测:一次调用重构代码库,新增3000行代码却运行失败
36氪·2025-09-30 16:43