Claude 4系列模型(Claude Opus 4

搜索文档
AI产业速递:Claude4系列模型大幅提升自主编码能力,Agent走向下一程
长江证券· 2025-05-27 09:18
报告行业投资评级 - 看好,维持 [7] 报告的核心观点 - 美国时间5月23日,Anthropic发布Claude 4系列模型,包括Claude Opus 4和Claude Sonnet 4两款混合模型,显著提升AI工具能力,减少模型使用快捷方式或漏洞完成任务的行为 [2][4] - 新一代模型专为编码和代理任务设计,可自主编码长达7h,Claude Opus 4在编码、推理等方面性能提升,Claude Sonnet 4解决了前代问题且代码准确率高,定价与之前模型保持一致 [9] - 发布并全面开放Claude Code,Agent进入自主阶段,Claude系列模型升级为代理任务提供更多探索可能 [9] - 多合作伙伴认可,Agent迈入新阶段,伴随模型能力提升,Agent适用场景有望扩张渗透,推荐关注AI coding板块及垂类场景下有壁垒的产品型厂商 [9] 根据相关目录分别进行总结 事件描述 - 美国时间5月23日,Anthropic发布Claude 4系列模型,Claude Opus 4是最高性能编码模型,Claude Sonnet 4是Claude Sonnet 3.7的重大升级,该系列模型提升了AI工具能力 [2][4] 事件评论 - 新一代模型专为编码和代理任务设计,Claude Opus 4可自主编码完成人类6 - 7小时的任务,在SWE - bench和Terminal - bench得分超越多个模型,Claude Sonnet 4解决前代问题且SWE - bench代码准确率达72.7%,定价Opus 4为$15/$75每百万Tokens,Sonnet 4为$3/$15 [9] - 发布并全面开放Claude Code,Claude 4可突破数小时自主工作,Anthropiic认为人工智能代理应具备情景智能、长期执行能力和真正的协作能力,Claude系列模型升级提升代理任务探索可能性 [9] - 多合作伙伴认可,Cursor、Cognition、GitHub、Manus等对模型给予肯定,伴随模型能力提升,Agent适用场景有望扩张渗透,推荐关注相关板块和厂商 [9]
“全球最强编程模型”来了!Anthropic发布Claude 4,连干七小时性能稳定
硬AI· 2025-05-23 23:03
核心观点 - Anthropic发布Claude 4系列模型,包括Opus 4和Sonnet 4,声称Opus 4为"全球最佳编程模型",标志着AI能力的新纪元[4][5] - 新模型在编码、推理和持续工作能力方面有显著提升,可能重塑软件开发行业格局[4][5][7] - Claude Code正式上线,由Opus 4和Sonnet 4支持,提供更多功能如代码分析和无缝结对编程[11][12] - Anthropic与OpenAI、Google的竞争加剧,行业格局面临重新评估[15][17] 模型性能 - Opus 4在SWE-bench测试中准确度达72.5%,Terminal-bench达43.2%[5] - Sonnet 4在SWE-bench准确度72.7%,较Sonnet 3.7版的62.3%显著提升[3][5] - Opus 4可连续工作7小时,乐天验证其在开源重构任务中保持稳定性能[7][8] 功能升级 - 新模型采用混合模式设计,支持即时回应和深入推理[5] - 引入"扩展思考与工具使用"功能,允许网络搜索和并行工具使用[10][11] - Opus 4记忆能力大幅提升,可创建"记忆文件"存储关键信息[11] 产品发布 - Claude Code正式上线,支持GitHub Actions、VS Code和JetBrains集成[11] - Claude Code可编写代码分析数据,适合专业开发者和非编程人员[12][13] - Sonnet 4将作为GitHub Copilot新编码代理的基础模型[17] 行业竞争 - Anthropic与OpenAI、Google在顶级模型领域竞争加剧[4][15] - 微软与xAI合作,谷歌推出AI搜索功能,OpenAI收购AI硬件公司[15] - 投资者需重新评估行业格局,Anthropic可能赢得更多市场份额[17]
速递|Anthropic推出Claude 4AI模型,高端模型Opus 4持续7小时输出不宕机,抢占AI编程入口
Z Potentials· 2025-05-23 11:33
Anthropic推出Claude 4系列AI模型 - 公司推出两款新AI模型Claude Opus 4和Claude Sonnet 4,声称在流行基准测试中表现行业最佳 [1] - 新模型能够分析大型数据集、执行长期任务并采取复杂行动,特别针对编程任务优化 [1] - 付费用户可访问Opus 4,免费用户可使用Sonnet 4,定价分别为每百万token 15/75美元和3/15美元 [1] - 100万token约等于75万个单词,比《战争与和平》全文多16.3万词 [1] 公司营收目标与融资情况 - 公司目标2027年实现120亿美元收益,较2025年22亿美元预期大幅增长 [3] - 近期敲定25亿美元信贷融资,并从亚马逊等投资者处筹集数十亿美元 [3] - 开发尖端模型导致成本上升,需应对OpenAI和谷歌等竞争对手挑战 [3] 模型性能与技术特点 - Opus 4能在工作流多个环节保持"专注执行",Sonnet 4在编程和数学方面较前代有所提升 [4] - 新系列相比Sonnet 3.7更不易出现"奖励黑客"行为 [4] - Opus 4在SWE-bench Verified编码评估中超越Gemini 2.5 Pro和GPT-4.1,但在MMMU等多模态评估中不及o3 [4] - 实施更严格防护措施,包括增强有害内容检测器和网络安全防御 [7] - 模型为"混合型",既能即时响应也能进行长时间深入推理 [7] 模型基准测试表现 - Opus 4在Agentic coding测试中达72.5%/79.4%,Sonnet 4达72.7%/80.2% [6] - Graduate-level reasoning测试中Opus 4达79.6%/83.3%,Sonnet 4达75.4%/83.8% [6] - 视觉推理测试中Opus 4为76.5%,低于o3的82.9% [6] - 高中数学竞赛测试中Opus 4达75.5%/90.0% [6] 开发者工具与功能升级 - 升级Claude Code,集成至IDE并提供SDK支持第三方应用连接 [9] - 已为VS Code、JetBrains和GitHub发布扩展与连接器 [9] - GitHub连接器允许标记Claude Code响应审阅者反馈并尝试修复代码 [9] - 模型能并行使用多种工具,在推理与工具间交替切换提升回答质量 [8] - 可提取并存储事实至"记忆"中,逐步构建"默会知识" [8] 模型更新策略与应用案例 - 转向更频繁的模型更新,持续提供改进以保持技术前沿 [10] - 开发重点让模型能更长时间独立工作并持续追踪操作状态 [10] - 日本乐天集团已实现连续7小时使用Opus 4优化开源代码 [10]
Claude 4发布:新一代最强编程AI?
虎嗅· 2025-05-23 08:30
模型发布与性能 - Anthropic正式发布Claude 4系列模型 包括Claude Opus 4和Claude Sonnet 4 [2] - Opus 4是目前全球最强的编程模型 能够稳定胜任复杂且持续时间长的任务和Agent工作流 [4] - Sonnet 4着重强化了编程和推理能力 能更精准地响应用户的指令 [4] - Opus 4在编程基准测试SWE-bench上拿下72.5%的高分 在Terminal-bench上以43.2%领先同行 [6] - Sonnet 4在SWE-bench的成绩达到72.7% 几乎与Opus 4持平 [15] 新功能与特性 - 工具辅助的延伸思考功能 模型在进行深入思考时能够交替使用工具优化推理过程 [7] - 两款模型可并行使用工具 执行更精确的指令 并提升记忆能力 [7] - Claude Code正式发布 支持GitHub Actions、VS Code和JetBrains [7] - API新增四项功能 包括代码执行工具、MCP连接器、文件API和最长可缓存1小时的提示缓存功能 [7] - 引入"思维总结"功能 在模型思考路径过长时自动调用更小模型进行压缩和归纳 [30] 实测表现 - 在Replit的实测中 Opus 4在多文件、大改动的项目中表现出更高准确率 [9] - 在代号为Goose的Agent中 该模型显著提升了代码质量 同时保持稳定性和性能 [10] - 进行高要求的开源重构任务时 连续稳定运行7小时 [11] - 能解决其他模型无法完成的复杂任务 成功处理多个前代模型没法完成的关键操作 [11] - 创建带有动画效果的天气卡片 只用一次机会就成功生成 [12] 行业影响与定位 - GitHub选择Sonnet 4作为新一代Github Copilot的底座模型 [17] - 两款模型为不同层级用户提供明确选项 Opus 4面向极致性能与科研突破 Sonnet 4面向主流落地与工程效率 [39] - 价格与前代保持一致 Opus 4每百万token为$15/$75 Sonnet 4为$3/$15 [38] - 三家头部AI公司几乎在同一时间选择Agent路径 编程是最天然适合AI Agent落地的场景 [55][56][57] - 开发者群体是天然适配Agent产品的用户 他们习惯自定义、愿意尝鲜、擅长集成 [58] 技术演进与未来展望 - 模型开发过程中存在"最后开窍"现象 某些能力在最后一刻才展现出来 [69][70] - 正在进入新世界 开发者可以像管理一支Agent团队一样工作 [74] - 预训练和后训练都有显著进步 扩展规律在预训练阶段依然有效 [78] - 未来一年"代码"方面会出现很多令人惊艳的进展 构建"Agent团队"将对世界产生有意思的影响 [103] - 当写软件的成本大幅下降时 经济和商业结构将发生改变 [104][105]