大幅降价、无限聊天、编码能力超越人类专家,Claude Opus 4.5重夺最强模型王冠
36氪·2025-11-25 09:48

模型性能表现 - Claude Opus 4.5在SWE-bench Verified软件工程基准测试中达到80.9%的准确率,超越OpenAI的GPT-5.1-Codex-Max(77.9%)和谷歌的Gemini 3 Pro(76.2%)[1][5] - 在Agentic coding测试中,Claude Opus 4.5表现优异,而GPT-5.1在Agentic coding单项达到76.3%[1] - 新模型在Graduate-level reasoning测试中得分87.0%,在Visual reasoning MMMU测试中达到80.7%,在Multilingual Q&A测试中达到90.8%[1] - 在Anthropic内部高难度工程评估中,Claude Opus 4.5采用“并行测试时计算”技术后得分超越所有曾参与测试的人类工程师,在专用编码环境中表现与史上最高分人类工程师持平[9] 效率与成本优化 - Anthropic大幅下调Claude Opus 4.5定价,输入token降至每百万5美元,输出token为每百万25美元,较前代产品Claude Opus 4.1(输入15美元/百万,输出75美元/百万)下降约三分之二[5] - 在“中等”投入级别下,Opus 4.5在SWE-bench Verified测试中达到与Sonnet 4.5相同最高分,输出token消耗量大幅降低76%,在“高”投入级别表现提升4.3个百分点同时token使用量减少近一半(48%)[10] - GitHub早期测试表明,Opus 4.5在token消耗减半的同时性能仍超越内部编码基准,尤其在代码迁移与重构等复杂任务上表现出色[10] 技术能力与创新 - Claude Opus 4.5展现出更强的判断力与直觉,在处理现实问题时表现出质的跨越,能够生成高度契合的连贯摘要[6] - 模型具备自我进化能力,通过持续优化解决问题的工具与方法提升任务技能,在专业文档生成、电子表格处理和演示文稿制作等场景表现显著提升[11] - Anthropic推出“无限聊天”功能,通过智能总结长对话早期内容有效突破传统上下文窗口限制,实现近乎无限的对话效果[12] - 面向开发者推出“程序化工具调用”能力,使Claude能直接编写并执行可调用外部函数的代码,Claude Code升级“计划模式”并推出支持并行运行多个AI智能体会话的桌面客户端[12] 行业竞争与市场影响 - AI模型迭代速度加快,Opus 4.5距前代Haiku 4.5和Sonnet 4.5发布仅相隔数周,2025年间OpenAI持续推出多个GPT-5变体,谷歌在11月中旬正式推出Gemini 3[13] - Anthropic利用AI技术反哺自身研发,Claude本身为产品构建和模型研究提供助力,显著加速开发进程[13] - 降价策略旨在推动更多初创公司深度集成并主推其技术,从而扩大市场基础,尽管AI市场预计十年内将突破万亿美元规模,但主要实验室盈利之路依然漫长[13]