模型性能提升 - Claude Sonnet 4.5在SWE-bench上的成绩为77.2%,比Sonnet 4的72.7%提升了1.8个百分点 [2][10] - 在OSWorld测试中取得60.2分的SOTA成绩,比Sonnet 4提升了近一半 [7][10] - 在终端编程(Terminal-Bench)测试中成绩为50.0%,显著高于Sonnet 4的36.4% [9][10] - 在高中水平数学AIME 2025试题中,借助Python可实现100%准确率,不借助工具准确率为87% [9][10] - 在金融分析(Finance Agent)测试中成绩为55.3%,高于Sonnet 4的44.5% [10] 智能体能力突破 - 能够连续工作30个小时完全自主编写代码,工作时长远超Opus 4的7小时 [3][5] - 在30小时内编写了11000多行代码,构建出类似Slack的聊天应用 [4] - 在工具使用(τ2-bench)测试中,电信领域成绩达98.0%,远高于Sonnet 4的49.6% [10] - 在专业领域(金融、医疗、法律、STEM)对战baseline模型的胜率均大幅提升,在16K上下文下超过60% [11] 安全性与实用性改进 - 通过安全训练减少了谄媚、欺骗等不良行为 [12] - 在防御即时注入攻击方面取得显著进展 [12] - 正常请求拒绝率从Sonnet 4的0.15%下降至0.02% [13] - 获得GitHub首席产品官认可,能更好地处理复杂跨代码库任务 [16] - 获得Cognition联创认可,显著提升Devin的规划能力和端到端评估成绩 [20] 产品定价与生态建设 - 保持提质不加价策略,输入token价格为3美元每百万,输出token价格为15美元每百万 [24] - 发布Claude Agent SDK,支持构建通用自主智能体,解决内存管理、权限系统等关键难题 [26][27][29] - 推出Imagine with Claude新功能,可实时生成软件原型,Max订阅用户可优先体验 [30][32][33]
Claude Sonnet 4.5被炸出来了,依旧最强编程,连续30小时自主运行写代码
量子位·2025-09-30 08:57