大幅降价、无限聊天、编码能力超越人类专家，Claude Opus 4.5重夺最强模型王冠

模型性能表现 - Claude Opus 4.5在SWE-bench Verified软件工程基准测试中达到80.9%的准确率，超越OpenAI的GPT-5.1-Codex-Max（77.9%）和谷歌的Gemini 3 Pro（76.2%）[1][5] - 在Agentic coding测试中，Claude Opus 4.5表现优异，而GPT-5.1在Agentic coding单项达到76.3%[1] - 新模型在Graduate-level reasoning测试中得分87.0%，在Visual reasoning MMMU测试中达到80.7%，在Multilingual Q&A测试中达到90.8%[1] - 在Anthropic内部高难度工程评估中，Claude Opus 4.5采用“并行测试时计算”技术后得分超越所有曾参与测试的人类工程师，在专用编码环境中表现与史上最高分人类工程师持平[9] 效率与成本优化 - Anthropic大幅下调Claude Opus 4.5定价，输入token降至每百万5美元，输出token为每百万25美元，较前代产品Claude Opus 4.1（输入15美元/百万，输出75美元/百万）下降约三分之二[5] - 在“中等”投入级别下，Opus 4.5在SWE-bench Verified测试中达到与Sonnet 4.5相同最高分，输出token消耗量大幅降低76%，在“高”投入级别表现提升4.3个百分点同时token使用量减少近一半（48%）[10] - GitHub早期测试表明，Opus 4.5在token消耗减半的同时性能仍超越内部编码基准，尤其在代码迁移与重构等复杂任务上表现出色[10] 技术能力与创新 - Claude Opus 4.5展现出更强的判断力与直觉，在处理现实问题时表现出质的跨越，能够生成高度契合的连贯摘要[6] - 模型具备自我进化能力，通过持续优化解决问题的工具与方法提升任务技能，在专业文档生成、电子表格处理和演示文稿制作等场景表现显著提升[11] - Anthropic推出“无限聊天”功能，通过智能总结长对话早期内容有效突破传统上下文窗口限制，实现近乎无限的对话效果[12] - 面向开发者推出“程序化工具调用”能力，使Claude能直接编写并执行可调用外部函数的代码，Claude Code升级“计划模式”并推出支持并行运行多个AI智能体会话的桌面客户端[12] 行业竞争与市场影响 - AI模型迭代速度加快，Opus 4.5距前代Haiku 4.5和Sonnet 4.5发布仅相隔数周，2025年间OpenAI持续推出多个GPT-5变体，谷歌在11月中旬正式推出Gemini 3[13] - Anthropic利用AI技术反哺自身研发，Claude本身为产品构建和模型研究提供助力，显著加速开发进程[13] - 降价策略旨在推动更多初创公司深度集成并主推其技术，从而扩大市场基础，尽管AI市场预计十年内将突破万亿美元规模，但主要实验室盈利之路依然漫长[13]