产品发布与核心架构 - Anthropic正式发布其有史以来最强悍的大模型旗舰,分为两个版本:面向所有用户开放的Claude Fable 5和仅限少数受信任用户使用的Claude Mythos 5 [1] - Fable 5是加了防护网版本的Mythos,一旦用户提问触发风险分类器(如试图写恶意软件),系统会自动降级调用上一代Claude Opus 4.8来回答 [3][4] - Mythos 5是解除了安全限制的满血原版,官网称其拥有全球最顶尖的网安攻防与生物科研纯血能力,但只给少数受信任用户使用 [5][6] - 两款新模型的API定价相比之前的预览版砍掉了一半以上,统一定价为每百万输入Token 10美元,每百万输出Token 50美元 [11][82] 核心能力与性能表现 - 官方表示Fable 5和Mythos 5的自主运行时间比以往任何Claude模型都长 [7] - 模型优势集中在软件工程、复杂知识工作、视觉、长上下文、记忆能力及生命科学研究,任务越长、越复杂,其相比过去Claude的优势越明显 [16][17] - 在软件工程领域,Fable 5在Agentic coding基准SWE-Bench Pro上得分为80.3%,高于竞争对手GPT-5.5的58.6%和自家前代Opus 4.8的69.2% [18][19] - 在Stripe的案例中,Fable 5用一天时间完成了对一个5000万行Ruby代码库的全库迁移,而该工作手动完成原本需要两个多月 [24][25] - 在视觉文件推理基准GDP.pdf上,Fable 5/Mythos 5在不借助外部工具的条件下得分为29.8%,高于Opus 4.8的22.5%和GPT-5.5的24.9% [28][29] - Fable 5实现了纯粹的原生视觉盲打,仅凭原始游戏截图,在无任何外挂前提下自主推演并打通了《宝可梦·火红版》整部游戏 [30][31][32] - 在配备持久化文件内存后,Fable 5游玩《杀戮尖塔》的表现提升幅度是Opus 4.8的三倍,到达最终章节的频率也提升三倍 [34][36] - 在Hebbia金融基准测试中,Fable 5拿到了行业最高分,在长篇文档推理、复杂图表解读及多步骤根因分析上实现双位数跨越式增长 [42][43] - 数据分析平台Hex指出,Fable 5是行业内第一个在其核心分析基准中突破90%得分大关的模型,比Opus提升了整整10个百分点 [45] - 在前沿物理学研究上,Fable 5仅使用1/3的推理Token,在36小时内产出的物理研究成果,就逼近了GPT-5.5耗时四天才跑出的成绩 [47] 生物医药与前沿科研突破 - 在生物医药领域,满血版Mythos 5可独立执行生物学家的全部工作流,包括选择蛋白质结合位点、自主调度生物信息学工具及自行Debug [48] - Mythos 5设计出的14个蛋白质靶向复合物中,有9个已进入实验室的真实药物研发管线 [49] - 在与Opus的盲法对比中,科学家在80%的情况下更倾向于Mythos的分子生物学假设,并已将其中几个推进到实验验证阶段 [51] - Mythos 5的一个关于大肠杆菌蛋白新机制的假设,在一家独立实验室的研究中得到了证实 [52] - 在基因组学研究中,Mythos 5自主工作一周多,拼凑了138个物种的单细胞数据,并自主设计训练了一个定制的微型机器学习模型,该模型体积小了100倍,但在表现上击败了最新发表在《Science》杂志上的科研成果 [52][53] 安全与治理新架构 - Fable 5采用了一套新的安全机制,通过一组独立分类器检测用户请求是否涉及网络安全攻击、生物化学风险及模型蒸馏,一旦触发则自动将请求转交给Claude Opus 4.8回答并告知用户降级 [55][56][57][61] - 超过95%的Fable 5会话不会触发降级,绝大多数写作、代码、分析等任务体验接近Mythos 5,剩下不到5%的请求会进入更严格的安全路径 [65][66][67] - 高风险领域主要分为三类:网络安全、生物和化学、模型蒸馏 [68][69] - 安全机制从单纯的拒绝回答演变为由分类器、模型路由、权限分级等共同组成的产品架构 [70][71][72] - 新机制存在误伤可能,例如生物学家研究病毒或安全工程师做攻防演练可能触发降级,公司承认当前护栏比理想状态更严格,后续会降低误伤率 [74][75] - 从Fable 5/Mythos 5开始,公司要求Mythos级模型所有流量保留30天,覆盖第一方和第三方场景,数据仅用于安全监控,不会用于训练 [76][77] 协作范式转变与行业影响 - AI学者Ethan Molrick的测试表明,人类与大模型之间的协作范式发生了根本性逆转,人类正从需要精细操控的“巫师”转变为只需提出宏观需求的“甲方”或“委托人” [95][96][105] - 在测试中,教授向Fable 5输入一个长达15页的复杂项目设计文档和宏观需求后,模型在后台完全自主运行9个多小时,内部调度多个Agent完成调研、撰写、校对等工作,最终交付极高质量成品,人类无需介入微观工作流 [99][100][101][102] - 这种结合长文本上下文与自主逻辑的能力,让上下文不再仅是内容容纳器,而沉淀为一个能自主推演、长时运行的“新型智能操作系统” [104] - 使用该工具既令人愉悦又令人不安,愉悦在于只需提出要求就能实现,不安也在于只需提出要求就能实现 [111][112] - 行业认为此次发布标志着前沿AI产品正在进入新形态,一个更强的模型被系上安全带后才把钥匙递给所有人 [115][116]
刚刚,Claude Mythos 5 发布!5000 万行代码 1 天搞定
程序员的那些事·2026-06-10 11:33