核心观点 - Anthropic正式发布其迄今为止最强大的旗舰模型Claude Fable 5与Claude Mythos 5,标志着AI模型进入能力分级与权限管控的新时代[1][8][117] - Fable 5是面向所有用户开放的“加防护网”版本,而解除安全限制的“满血版”Mythos 5仅限少数受信任用户使用[3][5][6] - 新模型在软件工程、视觉理解、长上下文记忆及前沿科研等复杂任务上展现出统治级性能,同时通过创新的安全架构(模型路由)和强调Token效率来平衡能力与风险[18][40][56][64] 产品发布与定价 - 发布两款新旗舰模型:面向大众的Claude Fable 5和仅限少数受信任用户的Claude Mythos 5[1][5] - 新模型的API定价相比之前的预览版降低一半以上,为每百万输入Token 10美元,每百万输出Token 50美元[12][84] - 从发布日至6月22日,Pro、Max、Team和企业版用户可免费使用Fable 5,之后需额外购买使用额度;API和企业客户不受此限[121][122][124] 模型核心能力与性能 - 软件工程:在SWE-bench Pro评测中取得80.3%的高分,显著优于GPT-5.5的58.6%[20][21] 在Cognition的FrontierCode评测中,于中等推理强度下获得前沿模型最高分[22][24] 可高效处理大型任务,例如在一天内完成一个原本需工程团队两个多月的、涉及5000万行Ruby代码的库迁移[27][28] - 原生视觉与长上下文:在无需外部工具的GDPpdf视觉文件推理基准测试中得分29.8%,优于Opus 4.8的22.5%和GPT-5.5的24.9%[31][32] 实现了纯粹的原生视觉“盲打”,仅凭游戏截图即可自主通关《宝可梦》等游戏[33][34][35] 在配备持久化文件记忆后,于《杀戮尖塔》游戏中的表现提升幅度是Opus 4.8的三倍[36][38] - 金融、法律与运营:在Hebbia金融基准测试中获得行业最高分[45] 在数据分析平台Hex的核心分析基准中,成为首个突破90%得分大关的模型,比Opus提升10个百分点[47] - 前沿科研:在生物医药领域,Mythos 5可独立执行生物学家的完整工作流,其设计的14个蛋白质靶向复合物中有9个已进入真实药物研发管线[50][51] 在基因组学研究中,Mythos 5自主训练的体积小100倍的微型模型,其表现击败了《Science》杂志上发表的最新科研成果[54][55] 安全架构与数据政策 - 模型路由安全机制:Fable 5内置独立分类器,用于检测网络安全、生物化学风险及模型蒸馏等高风险请求[57][58] 一旦触发,系统会自动将请求降级交由上一代Claude Opus 4.8处理,而非直接拒绝[4][59][62] 超过95%的会话不会触发降级,绝大多数任务体验接近Mythos 5[67][68] - 数据留存政策:从Fable 5/Mythos 5开始,Mythos级模型的所有流量数据将保留30天,用于安全监控,但不会用于模型训练[78][79] 行业影响与协作范式转变 - 人机协作范式逆转:AI学者Ethan Mollick指出,与Mythos级模型协作,人类角色正从需要精细操控的“巫师”转变为只需提出宏观需求的“甲方”或“委托人”[97][98][107] - 自主智能体工作流:Fable 5能够将模糊目标拆解为研究、编码、验证等多个环节并自主推进,在长达9个多小时的完全自主运行后交付高质量成品,如同雇佣了一个“工作室”[95][102][103][105] - Token效率与成本考量:新模型强调Token效率,旨在解决AI智能体长期自主运行带来的高成本问题,使强大能力不至于因成本过高而难以落地[40][42][43]
刚刚,Claude Mythos 5发布!5000万行代码1天搞定
量子位·2026-06-10 09:26