Claude 4发布：新一代最强编程AI？

模型发布与性能 - Anthropic正式发布Claude 4系列模型包括Claude Opus 4和Claude Sonnet 4 [2] - Opus 4是目前全球最强的编程模型能够稳定胜任复杂且持续时间长的任务和Agent工作流 [4] - Sonnet 4着重强化了编程和推理能力能更精准地响应用户的指令 [4] - Opus 4在编程基准测试SWE-bench上拿下72.5%的高分在Terminal-bench上以43.2%领先同行 [6] - Sonnet 4在SWE-bench的成绩达到72.7% 几乎与Opus 4持平 [15] 新功能与特性 - 工具辅助的延伸思考功能模型在进行深入思考时能够交替使用工具优化推理过程 [7] - 两款模型可并行使用工具执行更精确的指令并提升记忆能力 [7] - Claude Code正式发布支持GitHub Actions、VS Code和JetBrains [7] - API新增四项功能包括代码执行工具、MCP连接器、文件API和最长可缓存1小时的提示缓存功能 [7] - 引入"思维总结"功能在模型思考路径过长时自动调用更小模型进行压缩和归纳 [30] 实测表现 - 在Replit的实测中 Opus 4在多文件、大改动的项目中表现出更高准确率 [9] - 在代号为Goose的Agent中该模型显著提升了代码质量同时保持稳定性和性能 [10] - 进行高要求的开源重构任务时连续稳定运行7小时 [11] - 能解决其他模型无法完成的复杂任务成功处理多个前代模型没法完成的关键操作 [11] - 创建带有动画效果的天气卡片只用一次机会就成功生成 [12] 行业影响与定位 - GitHub选择Sonnet 4作为新一代Github Copilot的底座模型 [17] - 两款模型为不同层级用户提供明确选项 Opus 4面向极致性能与科研突破 Sonnet 4面向主流落地与工程效率 [39] - 价格与前代保持一致 Opus 4每百万token为$15/$75 Sonnet 4为$3/$15 [38] - 三家头部AI公司几乎在同一时间选择Agent路径编程是最天然适合AI Agent落地的场景 [55][56][57] - 开发者群体是天然适配Agent产品的用户他们习惯自定义、愿意尝鲜、擅长集成 [58] 技术演进与未来展望 - 模型开发过程中存在"最后开窍"现象某些能力在最后一刻才展现出来 [69][70] - 正在进入新世界开发者可以像管理一支Agent团队一样工作 [74] - 预训练和后训练都有显著进步扩展规律在预训练阶段依然有效 [78] - 未来一年"代码"方面会出现很多令人惊艳的进展构建"Agent团队"将对世界产生有意思的影响 [103] - 当写软件的成本大幅下降时经济和商业结构将发生改变 [104][105]