产品发布与上线 - 亚马逊云科技宣布Anthropic最新一代模型Claude Opus 4.1与Claude Sonnet 4在Amazon Bedrock全面上线 [1] - 新型双模推理模型支持在即时响应与“深度思考”模式间动态切换,能在复杂长耗时任务中保持稳定性能 [1] - 模型能够驱动AI Agents将耗时数小时的工作压缩至分钟级完成 [1] 模型性能与基准测试 - Claude Opus 4.1在Agentic coding SWE-bench测试中准确率为74.5%,高于Opus 4的72.5%、OpenAI O3的69.1%和Gemini 2.5 Pro的67.2% [2] - 在Agentic terminal coding Terminal-Bench测试中,Opus 4.1准确率为43.3%,高于Opus 4的39.2%、Sonnet 4的35.5%和OpenAI O3的30.2% [2] - 在Agentic tool use TAU-bench测试中,Opus 4.1准确率为82.4%,高于Opus 4的81.4%、Sonnet 4的80.5%和OpenAI O3的70.4% [2] - 在Multilingual Q&A MMMLUA测试中,Opus 4.1准确率为89.5%,高于Opus 4的88.8%和Sonnet 4的86.5% [2] 核心能力与优势 - Claude Opus 4.1在Agentic搜索与研究、内容创作以及记忆和上下文管理方面表现出色,能够综合提炼深刻见解、产出高质量内容并实现高效总结 [2] - Claude Opus 4.1是其迄今为止最智能的模型,且在编码和Agent领域处于行业领先地位,具备出色的长期任务处理能力和复杂问题解决能力 [2] - Claude Sonnet 4以高效性著称,适用于各类项目,在编码和推理能力上均超越了其前代产品Claude Sonnet 3.7 [2] 产品定位与特性 - Claude Opus 4.1可直接替代Opus 4 [2] - Claude Sonnet 4在性能与成本优化之间实现了平衡,非常适合处理大批量应用场景 [2] - 两款模型均配备20万token的上下文窗口,能让用户处理和生成大篇幅内容,且始终保持内容质量与连贯性 [2]
亚马逊云科技上线Anthropic新一代Claude模型