核心观点 - Anthropic发布了其有史以来最强大的大模型旗舰Claude Fable 5与Claude Mythos 5,标志着前沿AI进入权限与能力分级的新产品形态 [2][9] - Fable 5是面向所有用户、带有安全防护网的版本,而Mythos 5是解除安全限制的满血版,仅限少数受信任用户使用,两者基于同一底层模型,基础能力一致 [4][6][16] - 新模型在软件工程、复杂知识工作、视觉、长上下文、记忆及特定科研领域展现出显著优势,尤其在处理长周期、复杂任务时优势更明显 [18][19] - 公司通过独立分类器和模型路由机制将能力与安全拆解,为高风险请求自动降级至老模型,并实施严格的数据留存政策,这代表了前沿AI产品安全架构的根本性变化 [56][64][71][78] - API定价大幅下调至每百万输入Token 10美元、每百万输出Token 50美元,相比预览版降价超过一半,同时公司强调新模型的“Token效率”以控制长周期任务成本 [12][41][84] 模型性能与基准测试 - 软件工程能力突出:在SWE-bench Pro评测中取得80.3%的高分,显著优于GPT-5.5的58.6% [20][21]。在FrontierCode基准测试中,于“中等努力”模式下得分即位居所有前沿模型之首 [22][24] - 实际应用效能显著:例如,在5000万行Ruby代码库的全库迁移任务中,Fable 5仅用1天即完成,而人工团队预计需2个多月 [28]。在ViBench基准上,其实现了真正的“一枪流”生成应用 [29] - 原生视觉能力强大:在GDPpdf视觉文件推理基准测试中,不借助外部工具取得29.8%的成绩,优于Opus 4.8的22.5%和GPT-5.5的24.9% [30][31]。实现了对《宝可梦》游戏的纯“原生视觉盲打”通关 [33][34] - 长上下文与记忆能力升级:在配备持久化文件记忆后,于《杀戮尖塔》游戏中的表现提升幅度是Opus 4.8的3倍,到达最终章节的频率也提升3倍 [36][38] - 专业领域表现卓越:在Hebbia金融基准测试中取得行业最高分 [45]。在数据分析平台Hex的核心分析基准中,成为首个突破90%得分大关的模型,比Opus提升10个百分点 [47]。在法律代理基准测试中取得13.3%的得分 [20] 前沿科研与特殊能力 - 生命科学研究:满血版Mythos 5可独立执行生物学家的完整工作流,其设计的14个蛋白质靶向复合物中,有9个已进入真实药物研发管线 [50][51]。在盲法对比中,科学家在80%的情况下更倾向于Mythos的分子生物学假设 [53] - 基因组学研究突破:Mythos 5自主工作一周多,整合138个物种的单细胞数据并训练出一个定制微型机器学习模型,该模型体积小100倍,但性能击败了近期发表在《Science》杂志上的成果 [54] - 科研效率提升:在物理学研究测试中,Fable 5仅使用三分之一推理Token,在36小时内产出的成果即逼近GPT-5.5耗时4天的成绩 [49] 安全架构与产品机制 - 安全防护与模型路由:Fable 5配备独立分类器,监测网络安全、生物化学风险及模型蒸馏等高风险请求。一旦触发,系统将自动降级调用Claude Opus 4.8来回答,而非直接拒绝 [5][57][59][62]。超过95%的会话不会触发降级 [66] - 高风险领域定义:主要防范三类高风险领域:网络安全、生物和化学、模型蒸馏 [69][70] - 数据留存政策:从Fable 5/Mythos 5开始,Mythos级模型的所有流量需保留30天,用于安全监控,但不会用于训练 [78][79] - 当前限制:安全分类器设置较为保守,可能导致合理任务(如病毒研究、授权攻防演练)被误伤而降级,公司表示后续将降低误伤率 [75][76][77] 定价、成本与效率 - API定价:Fable 5与Mythos 5统一定价为每百万输入Token 10美元,每百万输出Token 50美元,相比之前的预览版降价超过一半 [12][84] - 强调Token效率:公司特别强调新模型的“Token效率”,旨在解决Agent化落地中因长周期任务消耗大量Token而导致的成本问题 [41][44][87] - 成本定位:尽管价格下调,但新模型仍属于高价模型,不会便宜到可以随意使用 [85][86] 行业影响与协作范式转变 - 协作范式根本性逆转:AI学者测试指出,人类与大模型的协作从需要精细操控的“巫师”模式,转变为人类作为提出宏观需求的“甲方”或“委托人”,模型则像自主运行的“工作室”或“承包方” [89][99][108][110] - 自主Agent能力:模型能够将模糊目标拆解为研究、信息搜集、设计、编码、验证等多个环节并自主推进,在长达9个多小时的完全自主运行后交付高质量成果 [96][103][104][106] - 长上下文成为智能操作系统:长文本上下文与自主逻辑结合,使其不再是简单的“内容容纳器”,而进化为能自主推演、长时运行的“新型智能操作系统” [109]
Claude Mythos 5发布!5000万行代码1天搞定
创业邦·2026-06-10 11:49