Claude Opus 4.5来了，单次生成打造《我的世界》，还破解高难度Agent测评

编程干翻Gemini 3 Pro，面试击败所有人类候选人。智东西11月25日报道，今天，Anthropic发布了自家的旗舰编程模型Claude Opus 4.5。Anthropic称，这是全球范围内在编程、agents和计算机使用方面最强大的模型。在真实世界软件工程测试SWE-bench Verified中，Claude Opus 4.5成为首款得分超过80%的AI模型，不仅领先于自家的Claude Sonnet 4.5，还超过了上周发布的Gemini 3 Pro和GPT-5.1 Codex-Max。 Anthropic还把该公司面试人类工程师的高难度居家考试交给Claude Opus 4.5，结果，在规定的两小时内，Claude Opus 4.5的得分高于以往任何人类应聘者，这表型AI模型在重要技术技能方面，已经超越了优秀的人类应聘者。编程并非Claude Opus 4.5唯一的改进，其视觉、推理和数学能力都优于前代产品，可较好地胜任深度研究、处理幻灯片和电子表格等日常任务。 | | Opus 4.5 | Sonnet 4.5 | Opus 4.1 | Gemini 3 Pro | GPT-5 ...