Token效率
搜索文档
Claude Mythos 5发布!5000万行代码1天搞定
创业邦· 2026-06-10 11:49
核心观点 - Anthropic发布了其有史以来最强大的大模型旗舰Claude Fable 5与Claude Mythos 5,标志着前沿AI进入权限与能力分级的新产品形态 [2][9] - Fable 5是面向所有用户、带有安全防护网的版本,而Mythos 5是解除安全限制的满血版,仅限少数受信任用户使用,两者基于同一底层模型,基础能力一致 [4][6][16] - 新模型在软件工程、复杂知识工作、视觉、长上下文、记忆及特定科研领域展现出显著优势,尤其在处理长周期、复杂任务时优势更明显 [18][19] - 公司通过独立分类器和模型路由机制将能力与安全拆解,为高风险请求自动降级至老模型,并实施严格的数据留存政策,这代表了前沿AI产品安全架构的根本性变化 [56][64][71][78] - API定价大幅下调至每百万输入Token 10美元、每百万输出Token 50美元,相比预览版降价超过一半,同时公司强调新模型的“Token效率”以控制长周期任务成本 [12][41][84] 模型性能与基准测试 - **软件工程能力突出**:在SWE-bench Pro评测中取得80.3%的高分,显著优于GPT-5.5的58.6% [20][21]。在FrontierCode基准测试中,于“中等努力”模式下得分即位居所有前沿模型之首 [22][24] - **实际应用效能显著**:例如,在5000万行Ruby代码库的全库迁移任务中,Fable 5仅用1天即完成,而人工团队预计需2个多月 [28]。在ViBench基准上,其实现了真正的“一枪流”生成应用 [29] - **原生视觉能力强大**:在GDPpdf视觉文件推理基准测试中,不借助外部工具取得29.8%的成绩,优于Opus 4.8的22.5%和GPT-5.5的24.9% [30][31]。实现了对《宝可梦》游戏的纯“原生视觉盲打”通关 [33][34] - **长上下文与记忆能力升级**:在配备持久化文件记忆后,于《杀戮尖塔》游戏中的表现提升幅度是Opus 4.8的3倍,到达最终章节的频率也提升3倍 [36][38] - **专业领域表现卓越**:在Hebbia金融基准测试中取得行业最高分 [45]。在数据分析平台Hex的核心分析基准中,成为首个突破90%得分大关的模型,比Opus提升10个百分点 [47]。在法律代理基准测试中取得13.3%的得分 [20] 前沿科研与特殊能力 - **生命科学研究**:满血版Mythos 5可独立执行生物学家的完整工作流,其设计的14个蛋白质靶向复合物中,有9个已进入真实药物研发管线 [50][51]。在盲法对比中,科学家在80%的情况下更倾向于Mythos的分子生物学假设 [53] - **基因组学研究突破**:Mythos 5自主工作一周多,整合138个物种的单细胞数据并训练出一个定制微型机器学习模型,该模型体积小100倍,但性能击败了近期发表在《Science》杂志上的成果 [54] - **科研效率提升**:在物理学研究测试中,Fable 5仅使用三分之一推理Token,在36小时内产出的成果即逼近GPT-5.5耗时4天的成绩 [49] 安全架构与产品机制 - **安全防护与模型路由**:Fable 5配备独立分类器,监测网络安全、生物化学风险及模型蒸馏等高风险请求。一旦触发,系统将自动降级调用Claude Opus 4.8来回答,而非直接拒绝 [5][57][59][62]。超过95%的会话不会触发降级 [66] - **高风险领域定义**:主要防范三类高风险领域:网络安全、生物和化学、模型蒸馏 [69][70] - **数据留存政策**:从Fable 5/Mythos 5开始,Mythos级模型的所有流量需保留30天,用于安全监控,但不会用于训练 [78][79] - **当前限制**:安全分类器设置较为保守,可能导致合理任务(如病毒研究、授权攻防演练)被误伤而降级,公司表示后续将降低误伤率 [75][76][77] 定价、成本与效率 - **API定价**:Fable 5与Mythos 5统一定价为每百万输入Token 10美元,每百万输出Token 50美元,相比之前的预览版降价超过一半 [12][84] - **强调Token效率**:公司特别强调新模型的“Token效率”,旨在解决Agent化落地中因长周期任务消耗大量Token而导致的成本问题 [41][44][87] - **成本定位**:尽管价格下调,但新模型仍属于高价模型,不会便宜到可以随意使用 [85][86] 行业影响与协作范式转变 - **协作范式根本性逆转**:AI学者测试指出,人类与大模型的协作从需要精细操控的“巫师”模式,转变为人类作为提出宏观需求的“甲方”或“委托人”,模型则像自主运行的“工作室”或“承包方” [89][99][108][110] - **自主Agent能力**:模型能够将模糊目标拆解为研究、信息搜集、设计、编码、验证等多个环节并自主推进,在长达9个多小时的完全自主运行后交付高质量成果 [96][103][104][106] - **长上下文成为智能操作系统**:长文本上下文与自主逻辑结合,使其不再是简单的“内容容纳器”,而进化为能自主推演、长时运行的“新型智能操作系统” [109]
刚刚,Claude Mythos 5 发布!5000 万行代码 1 天搞定
程序员的那些事· 2026-06-10 11:33
产品发布与核心架构 - Anthropic正式发布其有史以来最强悍的大模型旗舰,分为两个版本:面向所有用户开放的Claude Fable 5和仅限少数受信任用户使用的Claude Mythos 5 [1] - Fable 5是加了防护网版本的Mythos,一旦用户提问触发风险分类器(如试图写恶意软件),系统会自动降级调用上一代Claude Opus 4.8来回答 [3][4] - Mythos 5是解除了安全限制的满血原版,官网称其拥有全球最顶尖的网安攻防与生物科研纯血能力,但只给少数受信任用户使用 [5][6] - 两款新模型的API定价相比之前的预览版砍掉了一半以上,统一定价为每百万输入Token 10美元,每百万输出Token 50美元 [11][82] 核心能力与性能表现 - 官方表示Fable 5和Mythos 5的自主运行时间比以往任何Claude模型都长 [7] - 模型优势集中在软件工程、复杂知识工作、视觉、长上下文、记忆能力及生命科学研究,任务越长、越复杂,其相比过去Claude的优势越明显 [16][17] - 在软件工程领域,Fable 5在Agentic coding基准SWE-Bench Pro上得分为80.3%,高于竞争对手GPT-5.5的58.6%和自家前代Opus 4.8的69.2% [18][19] - 在Stripe的案例中,Fable 5用一天时间完成了对一个5000万行Ruby代码库的全库迁移,而该工作手动完成原本需要两个多月 [24][25] - 在视觉文件推理基准GDP.pdf上,Fable 5/Mythos 5在不借助外部工具的条件下得分为29.8%,高于Opus 4.8的22.5%和GPT-5.5的24.9% [28][29] - Fable 5实现了纯粹的原生视觉盲打,仅凭原始游戏截图,在无任何外挂前提下自主推演并打通了《宝可梦·火红版》整部游戏 [30][31][32] - 在配备持久化文件内存后,Fable 5游玩《杀戮尖塔》的表现提升幅度是Opus 4.8的三倍,到达最终章节的频率也提升三倍 [34][36] - 在Hebbia金融基准测试中,Fable 5拿到了行业最高分,在长篇文档推理、复杂图表解读及多步骤根因分析上实现双位数跨越式增长 [42][43] - 数据分析平台Hex指出,Fable 5是行业内第一个在其核心分析基准中突破90%得分大关的模型,比Opus提升了整整10个百分点 [45] - 在前沿物理学研究上,Fable 5仅使用1/3的推理Token,在36小时内产出的物理研究成果,就逼近了GPT-5.5耗时四天才跑出的成绩 [47] 生物医药与前沿科研突破 - 在生物医药领域,满血版Mythos 5可独立执行生物学家的全部工作流,包括选择蛋白质结合位点、自主调度生物信息学工具及自行Debug [48] - Mythos 5设计出的14个蛋白质靶向复合物中,有9个已进入实验室的真实药物研发管线 [49] - 在与Opus的盲法对比中,科学家在80%的情况下更倾向于Mythos的分子生物学假设,并已将其中几个推进到实验验证阶段 [51] - Mythos 5的一个关于大肠杆菌蛋白新机制的假设,在一家独立实验室的研究中得到了证实 [52] - 在基因组学研究中,Mythos 5自主工作一周多,拼凑了138个物种的单细胞数据,并自主设计训练了一个定制的微型机器学习模型,该模型体积小了100倍,但在表现上击败了最新发表在《Science》杂志上的科研成果 [52][53] 安全与治理新架构 - Fable 5采用了一套新的安全机制,通过一组独立分类器检测用户请求是否涉及网络安全攻击、生物化学风险及模型蒸馏,一旦触发则自动将请求转交给Claude Opus 4.8回答并告知用户降级 [55][56][57][61] - 超过95%的Fable 5会话不会触发降级,绝大多数写作、代码、分析等任务体验接近Mythos 5,剩下不到5%的请求会进入更严格的安全路径 [65][66][67] - 高风险领域主要分为三类:网络安全、生物和化学、模型蒸馏 [68][69] - 安全机制从单纯的拒绝回答演变为由分类器、模型路由、权限分级等共同组成的产品架构 [70][71][72] - 新机制存在误伤可能,例如生物学家研究病毒或安全工程师做攻防演练可能触发降级,公司承认当前护栏比理想状态更严格,后续会降低误伤率 [74][75] - 从Fable 5/Mythos 5开始,公司要求Mythos级模型所有流量保留30天,覆盖第一方和第三方场景,数据仅用于安全监控,不会用于训练 [76][77] 协作范式转变与行业影响 - AI学者Ethan Molrick的测试表明,人类与大模型之间的协作范式发生了根本性逆转,人类正从需要精细操控的“巫师”转变为只需提出宏观需求的“甲方”或“委托人” [95][96][105] - 在测试中,教授向Fable 5输入一个长达15页的复杂项目设计文档和宏观需求后,模型在后台完全自主运行9个多小时,内部调度多个Agent完成调研、撰写、校对等工作,最终交付极高质量成品,人类无需介入微观工作流 [99][100][101][102] - 这种结合长文本上下文与自主逻辑的能力,让上下文不再仅是内容容纳器,而沉淀为一个能自主推演、长时运行的“新型智能操作系统” [104] - 使用该工具既令人愉悦又令人不安,愉悦在于只需提出要求就能实现,不安也在于只需提出要求就能实现 [111][112] - 行业认为此次发布标志着前沿AI产品正在进入新形态,一个更强的模型被系上安全带后才把钥匙递给所有人 [115][116]