Claude Mythos 5发布！5000万行代码1天搞定

核心观点 - Anthropic发布了其有史以来最强大的大模型旗舰Claude Fable 5与Claude Mythos 5，标志着前沿AI进入权限与能力分级的新产品形态 [2][9] - Fable 5是面向所有用户、带有安全防护网的版本，而Mythos 5是解除安全限制的满血版，仅限少数受信任用户使用，两者基于同一底层模型，基础能力一致 [4][6][16] - 新模型在软件工程、复杂知识工作、视觉、长上下文、记忆及特定科研领域展现出显著优势，尤其在处理长周期、复杂任务时优势更明显 [18][19] - 公司通过独立分类器和模型路由机制将能力与安全拆解，为高风险请求自动降级至老模型，并实施严格的数据留存政策，这代表了前沿AI产品安全架构的根本性变化 [56][64][71][78] - API定价大幅下调至每百万输入Token 10美元、每百万输出Token 50美元，相比预览版降价超过一半，同时公司强调新模型的“Token效率”以控制长周期任务成本 [12][41][84] 模型性能与基准测试 - 软件工程能力突出：在SWE-bench Pro评测中取得80.3%的高分，显著优于GPT-5.5的58.6% [20][21]。在FrontierCode基准测试中，于“中等努力”模式下得分即位居所有前沿模型之首 [22][24] - 实际应用效能显著：例如，在5000万行Ruby代码库的全库迁移任务中，Fable 5仅用1天即完成，而人工团队预计需2个多月 [28]。在ViBench基准上，其实现了真正的“一枪流”生成应用 [29] - 原生视觉能力强大：在GDPpdf视觉文件推理基准测试中，不借助外部工具取得29.8%的成绩，优于Opus 4.8的22.5%和GPT-5.5的24.9% [30][31]。实现了对《宝可梦》游戏的纯“原生视觉盲打”通关 [33][34] - 长上下文与记忆能力升级：在配备持久化文件记忆后，于《杀戮尖塔》游戏中的表现提升幅度是Opus 4.8的3倍，到达最终章节的频率也提升3倍 [36][38] - 专业领域表现卓越：在Hebbia金融基准测试中取得行业最高分 [45]。在数据分析平台Hex的核心分析基准中，成为首个突破90%得分大关的模型，比Opus提升10个百分点 [47]。在法律代理基准测试中取得13.3%的得分 [20] 前沿科研与特殊能力 - 生命科学研究：满血版Mythos 5可独立执行生物学家的完整工作流，其设计的14个蛋白质靶向复合物中，有9个已进入真实药物研发管线 [50][51]。在盲法对比中，科学家在80%的情况下更倾向于Mythos的分子生物学假设 [53] - 基因组学研究突破：Mythos 5自主工作一周多，整合138个物种的单细胞数据并训练出一个定制微型机器学习模型，该模型体积小100倍，但性能击败了近期发表在《Science》杂志上的成果 [54] - 科研效率提升：在物理学研究测试中，Fable 5仅使用三分之一推理Token，在36小时内产出的成果即逼近GPT-5.5耗时4天的成绩 [49] 安全架构与产品机制 - 安全防护与模型路由：Fable 5配备独立分类器，监测网络安全、生物化学风险及模型蒸馏等高风险请求。一旦触发，系统将自动降级调用Claude Opus 4.8来回答，而非直接拒绝 [5][57][59][62]。超过95%的会话不会触发降级 [66] - 高风险领域定义：主要防范三类高风险领域：网络安全、生物和化学、模型蒸馏 [69][70] - 数据留存政策：从Fable 5/Mythos 5开始，Mythos级模型的所有流量需保留30天，用于安全监控，但不会用于训练 [78][79] - 当前限制：安全分类器设置较为保守，可能导致合理任务（如病毒研究、授权攻防演练）被误伤而降级，公司表示后续将降低误伤率 [75][76][77] 定价、成本与效率 - API定价：Fable 5与Mythos 5统一定价为每百万输入Token 10美元，每百万输出Token 50美元，相比之前的预览版降价超过一半 [12][84] - 强调Token效率：公司特别强调新模型的“Token效率”，旨在解决Agent化落地中因长周期任务消耗大量Token而导致的成本问题 [41][44][87] - 成本定位：尽管价格下调，但新模型仍属于高价模型，不会便宜到可以随意使用 [85][86] 行业影响与协作范式转变 - 协作范式根本性逆转：AI学者测试指出，人类与大模型的协作从需要精细操控的“巫师”模式，转变为人类作为提出宏观需求的“甲方”或“委托人”，模型则像自主运行的“工作室”或“承包方” [89][99][108][110] - 自主Agent能力：模型能够将模糊目标拆解为研究、信息搜集、设计、编码、验证等多个环节并自主推进，在长达9个多小时的完全自主运行后交付高质量成果 [96][103][104][106] - 长上下文成为智能操作系统：长文本上下文与自主逻辑结合，使其不再是简单的“内容容纳器”，而进化为能自主推演、长时运行的“新型智能操作系统” [109]