Anthropic推出Claude 4系列AI模型 - 公司推出两款新AI模型Claude Opus 4和Claude Sonnet 4,声称在流行基准测试中表现行业最佳 [1] - 新模型能够分析大型数据集、执行长期任务并采取复杂行动,特别针对编程任务优化 [1] - 付费用户可访问Opus 4,免费用户可使用Sonnet 4,定价分别为每百万token 15/75美元和3/15美元 [1] - 100万token约等于75万个单词,比《战争与和平》全文多16.3万词 [1] 公司营收目标与融资情况 - 公司目标2027年实现120亿美元收益,较2025年22亿美元预期大幅增长 [3] - 近期敲定25亿美元信贷融资,并从亚马逊等投资者处筹集数十亿美元 [3] - 开发尖端模型导致成本上升,需应对OpenAI和谷歌等竞争对手挑战 [3] 模型性能与技术特点 - Opus 4能在工作流多个环节保持"专注执行",Sonnet 4在编程和数学方面较前代有所提升 [4] - 新系列相比Sonnet 3.7更不易出现"奖励黑客"行为 [4] - Opus 4在SWE-bench Verified编码评估中超越Gemini 2.5 Pro和GPT-4.1,但在MMMU等多模态评估中不及o3 [4] - 实施更严格防护措施,包括增强有害内容检测器和网络安全防御 [7] - 模型为"混合型",既能即时响应也能进行长时间深入推理 [7] 模型基准测试表现 - Opus 4在Agentic coding测试中达72.5%/79.4%,Sonnet 4达72.7%/80.2% [6] - Graduate-level reasoning测试中Opus 4达79.6%/83.3%,Sonnet 4达75.4%/83.8% [6] - 视觉推理测试中Opus 4为76.5%,低于o3的82.9% [6] - 高中数学竞赛测试中Opus 4达75.5%/90.0% [6] 开发者工具与功能升级 - 升级Claude Code,集成至IDE并提供SDK支持第三方应用连接 [9] - 已为VS Code、JetBrains和GitHub发布扩展与连接器 [9] - GitHub连接器允许标记Claude Code响应审阅者反馈并尝试修复代码 [9] - 模型能并行使用多种工具,在推理与工具间交替切换提升回答质量 [8] - 可提取并存储事实至"记忆"中,逐步构建"默会知识" [8] 模型更新策略与应用案例 - 转向更频繁的模型更新,持续提供改进以保持技术前沿 [10] - 开发重点让模型能更长时间独立工作并持续追踪操作状态 [10] - 日本乐天集团已实现连续7小时使用Opus 4优化开源代码 [10]
速递|Anthropic推出Claude 4AI模型,高端模型Opus 4持续7小时输出不宕机,抢占AI编程入口
Z Potentials·2025-05-23 11:33