Claude Sonnet 4.5被炸出来了，依旧最强编程，连续30小时自主运行写代码

模型性能提升 - Claude Sonnet 4.5在SWE-bench上的成绩为77.2%，比Sonnet 4的72.7%提升了1.8个百分点 [2][10] - 在OSWorld测试中取得60.2分的SOTA成绩，比Sonnet 4提升了近一半 [7][10] - 在终端编程（Terminal-Bench）测试中成绩为50.0%，显著高于Sonnet 4的36.4% [9][10] - 在高中水平数学AIME 2025试题中，借助Python可实现100%准确率，不借助工具准确率为87% [9][10] - 在金融分析（Finance Agent）测试中成绩为55.3%，高于Sonnet 4的44.5% [10] 智能体能力突破 - 能够连续工作30个小时完全自主编写代码，工作时长远超Opus 4的7小时 [3][5] - 在30小时内编写了11000多行代码，构建出类似Slack的聊天应用 [4] - 在工具使用（τ2-bench）测试中，电信领域成绩达98.0%，远高于Sonnet 4的49.6% [10] - 在专业领域（金融、医疗、法律、STEM）对战baseline模型的胜率均大幅提升，在16K上下文下超过60% [11] 安全性与实用性改进 - 通过安全训练减少了谄媚、欺骗等不良行为 [12] - 在防御即时注入攻击方面取得显著进展 [12] - 正常请求拒绝率从Sonnet 4的0.15%下降至0.02% [13] - 获得GitHub首席产品官认可，能更好地处理复杂跨代码库任务 [16] - 获得Cognition联创认可，显著提升Devin的规划能力和端到端评估成绩 [20] 产品定价与生态建设 - 保持提质不加价策略，输入token价格为3美元每百万，输出token价格为15美元每百万 [24] - 发布Claude Agent SDK，支持构建通用自主智能体，解决内存管理、权限系统等关键难题 [26][27][29] - 推出Imagine with Claude新功能，可实时生成软件原型，Max订阅用户可优先体验 [30][32][33]