Workflow
Claude Opus 4.5来了,单次生成打造《我的世界》,还破解高难度Agent测评
36氪·2025-11-25 12:24

编程干翻Gemini 3 Pro,面试击败所有人类候选人。 智东西11月25日报道,今天,Anthropic发布了自家的旗舰编程模型Claude Opus 4.5。Anthropic称,这是全球范围内在编程、agents和计算机使 用方面最强大的模型。 在真实世界软件工程测试SWE-bench Verified中,Claude Opus 4.5成为首款得分超过80%的AI模型,不仅领先于自家的Claude Sonnet 4.5,还超 过了上周发布的Gemini 3 Pro和GPT-5.1 Codex-Max。 Anthropic还把该公司面试人类工程师的高难度居家考试交给Claude Opus 4.5,结果,在规定的两小时内,Claude Opus 4.5的得分高于以往任何 人类应聘者,这表型AI模型在重要技术技能方面,已经超越了优秀的人类应聘者。 编程并非Claude Opus 4.5唯一的改进,其视觉、推理和数学能力都优于前代产品,可较好地胜任深度研究、处理幻灯片和电子表格等日常任 务。 | | Opus 4.5 | Sonnet 4.5 | Opus 4.1 | Gemini 3 Pro | GPT-5 ...