Workflow
深夜炸场!Claude Sonnet 4.5上线,自主编程30小时,网友实测:一次调用重构代码库,新增3000行代码却运行失败
AI科技大本营·2025-09-30 18:24

整理 | 苏宓 出品 | CSDN(ID:CSDNnews) 双节小长假将近,国内国外大模型公司闻风而动,赶在正式放假前让众人"小卷"一波。这不,继昨晚 DeepSeek 发布 DeepSeek V3.2-Exp 之后, Anthropic 又在今天带来了全新升级的 Claude Sonnet 4.5 版本,号称"世界上最好的编码模型"。 最强的编码模型 Claude Sonnet 4.5 来了:可自主持续运行 30 小时 根据官方测试结果显示,Claude Sonnet 4.5 在 SWE-bench Verified 评测里拿下了顶级成绩,这个测试主要看模型在真实世界里写代码的水平。 同时,Sonnet 4.5 在推理和数学等多项测试中也有大幅提升。从下图看出,在 Agentic Coding、Agentic Tool Use 等测试中 Claude Sonnet 4.5 远 超过更昂贵的 GPT-5、Gemini 2.5 Pro 等竞品模型。 实际测试中, Claude Sonnet 4.5 能在复杂的多步骤任务上坚持专注 超过 30 个小时。 相比此前 Opus 4 运行 7 小时左右的时间, Cla ...