加量不加价,一篇说明白 Claude Sonnet 4.5 强在哪
Founder Park·2025-09-30 11:46

产品发布与核心性能 - Anthropic发布Claude Sonnet 4.5模型,官方称之为世界上最好的编码模型 [2] - 该模型在处理复杂多步骤任务时能保持超过30小时的专注度 [2][9] - 在SWE-bench Verified评测中达到77.2%的得分,在Agentic coding with parallel test-time compute评测中达到82.0%的得分 [12] - 在OSWorld基准测试中得分达61.4%,相比四个月前Sonnet 4的42.2%得分有显著提升 [10] 定价与成本优化 - Claude Sonnet 4.5定价与Claude Sonnet 4相同,输入为3美元/百万token,输出为15美元/百万token [2] - 通过提示缓存可节省高达90%的成本,批量处理可节省50%的成本 [2] 功能与工具更新 - 在Claude Code中添加了检查点功能,可保存进度并即时回滚到之前的状态 [4] - 更新了终端界面并发布了原生VS Code扩展 [4] - 在Claude API中新增了上下文编辑功能和记忆工具 [4] - 代码执行和文件创建(电子表格、幻灯片和文档)功能已直接集成到对话中 [5] - 为Max用户提供了Claude for Chrome扩展程序 [6][13] 多领域能力表现 - 在金融分析Finance Agent评测中得分55.3%,优于GPT-5的46.9%和Gemini 2.5 Pro的29.4% [12] - 在研究生级推理GPQA Diamond评测中得分83.4% [12] - 金融、法律、医学和STEM领域的专家认为,相比旧模型,Sonnet 4.5在领域特定知识和推理方面能力显著更好 [14] 开发者工具与平台集成 - 发布面向开发者的工具Claude Agent SDK [2][30] - Sonnet 4.5已集成到Claude开发者平台、Amazon Bedrock和Google Cloud的Vertex AI中 [3] - Claude Agent SDK提供了管理内存、权限系统和协调子智能体的能力 [28][30] 实验性功能与安全特性 - 发布实验性研究预览功能"Imagine with Claude",可在五天内为Max订阅用户实时生成软件 [31][33] - 该模型是迄今为止对齐性最好的前沿模型,减少了谄媚、欺骗、权力寻求等未对齐行为 [24] - 模型在防御提示注入攻击方面取得重大进展 [24] - 根据AI安全级别3(ASL-3)保护下发布,包含针对CBRN武器相关内容的过滤器 [25]