Token效率 - 财报，业绩电话会，研报，新闻

Token效率

搜索文档

创业邦· 2026-06-10 11:49

核心观点 - Anthropic发布了其有史以来最强大的大模型旗舰Claude Fable 5与Claude Mythos 5，标志着前沿AI进入权限与能力分级的新产品形态 [2][9] - Fable 5是面向所有用户、带有安全防护网的版本，而Mythos 5是解除安全限制的满血版，仅限少数受信任用户使用，两者基于同一底层模型，基础能力一致 [4][6][16] - 新模型在软件工程、复杂知识工作、视觉、长上下文、记忆及特定科研领域展现出显著优势，尤其在处理长周期、复杂任务时优势更明显 [18][19] - 公司通过独立分类器和模型路由机制将能力与安全拆解，为高风险请求自动降级至老模型，并实施严格的数据留存政策，这代表了前沿AI产品安全架构的根本性变化 [56][64][71][78] - API定价大幅下调至每百万输入Token 10美元、每百万输出Token 50美元，相比预览版降价超过一半，同时公司强调新模型的“Token效率”以控制长周期任务成本 [12][41][84] 模型性能与基准测试 - **软件工程能力突出**：在SWE-bench Pro评测中取得80.3%的高分，显著优于GPT-5.5的58.6% [20][21]。在FrontierCode基准测试中，于“中等努力”模式下得分即位居所有前沿模型之首 [22][24] - **实际应用效能显著**：例如，在5000万行Ruby代码库的全库迁移任务中，Fable 5仅用1天即完成，而人工团队预计需2个多月 [28]。在ViBench基准上，其实现了真正的“一枪流”生成应用 [29] - **原生视觉能力强大**：在GDPpdf视觉文件推理基准测试中，不借助外部工具取得29.8%的成绩，优于Opus 4.8的22.5%和GPT-5.5的24.9% [30][31]。实现了对《宝可梦》游戏的纯“原生视觉盲打”通关 [33][34] - **长上下文与记忆能力升级**：在配备持久化文件记忆后，于《杀戮尖塔》游戏中的表现提升幅度是Opus 4.8的3倍，到达最终章节的频率也提升3倍 [36][38] - **专业领域表现卓越**：在Hebbia金融基准测试中取得行业最高分 [45]。在数据分析平台Hex的核心分析基准中，成为首个突破90%得分大关的模型，比Opus提升10个百分点 [47]。在法律代理基准测试中取得13.3%的得分 [20] 前沿科研与特殊能力 - **生命科学研究**：满血版Mythos 5可独立执行生物学家的完整工作流，其设计的14个蛋白质靶向复合物中，有9个已进入真实药物研发管线 [50][51]。在盲法对比中，科学家在80%的情况下更倾向于Mythos的分子生物学假设 [53] - **基因组学研究突破**：Mythos 5自主工作一周多，整合138个物种的单细胞数据并训练出一个定制微型机器学习模型，该模型体积小100倍，但性能击败了近期发表在《Science》杂志上的成果 [54] - **科研效率提升**：在物理学研究测试中，Fable 5仅使用三分之一推理Token，在36小时内产出的成果即逼近GPT-5.5耗时4天的成绩 [49] 安全架构与产品机制 - **安全防护与模型路由**：Fable 5配备独立分类器，监测网络安全、生物化学风险及模型蒸馏等高风险请求。一旦触发，系统将自动降级调用Claude Opus 4.8来回答，而非直接拒绝 [5][57][59][62]。超过95%的会话不会触发降级 [66] - **高风险领域定义**：主要防范三类高风险领域：网络安全、生物和化学、模型蒸馏 [69][70] - **数据留存政策**：从Fable 5/Mythos 5开始，Mythos级模型的所有流量需保留30天，用于安全监控，但不会用于训练 [78][79] - **当前限制**：安全分类器设置较为保守，可能导致合理任务（如病毒研究、授权攻防演练）被误伤而降级，公司表示后续将降低误伤率 [75][76][77] 定价、成本与效率 - **API定价**：Fable 5与Mythos 5统一定价为每百万输入Token 10美元，每百万输出Token 50美元，相比之前的预览版降价超过一半 [12][84] - **强调Token效率**：公司特别强调新模型的“Token效率”，旨在解决Agent化落地中因长周期任务消耗大量Token而导致的成本问题 [41][44][87] - **成本定位**：尽管价格下调，但新模型仍属于高价模型，不会便宜到可以随意使用 [85][86] 行业影响与协作范式转变 - **协作范式根本性逆转**：AI学者测试指出，人类与大模型的协作从需要精细操控的“巫师”模式，转变为人类作为提出宏观需求的“甲方”或“委托人”，模型则像自主运行的“工作室”或“承包方” [89][99][108][110] - **自主Agent能力**：模型能够将模糊目标拆解为研究、信息搜集、设计、编码、验证等多个环节并自主推进，在长达9个多小时的完全自主运行后交付高质量成果 [96][103][104][106] - **长上下文成为智能操作系统**：长文本上下文与自主逻辑结合，使其不再是简单的“内容容纳器”，而进化为能自主推演、长时运行的“新型智能操作系统” [109]

人工智能

Token效率

Artificial Intelligence

Artificial Intelligence

Claude Fable 5

Claude Mythos 5

刚刚，Claude Mythos 5 发布！5000 万行代码 1 天搞定

程序员的那些事· 2026-06-10 11:33

产品发布与核心架构 - Anthropic正式发布其有史以来最强悍的大模型旗舰，分为两个版本：面向所有用户开放的Claude Fable 5和仅限少数受信任用户使用的Claude Mythos 5 [1] - Fable 5是加了防护网版本的Mythos，一旦用户提问触发风险分类器（如试图写恶意软件），系统会自动降级调用上一代Claude Opus 4.8来回答 [3][4] - Mythos 5是解除了安全限制的满血原版，官网称其拥有全球最顶尖的网安攻防与生物科研纯血能力，但只给少数受信任用户使用 [5][6] - 两款新模型的API定价相比之前的预览版砍掉了一半以上，统一定价为每百万输入Token 10美元，每百万输出Token 50美元 [11][82] 核心能力与性能表现 - 官方表示Fable 5和Mythos 5的自主运行时间比以往任何Claude模型都长 [7] - 模型优势集中在软件工程、复杂知识工作、视觉、长上下文、记忆能力及生命科学研究，任务越长、越复杂，其相比过去Claude的优势越明显 [16][17] - 在软件工程领域，Fable 5在Agentic coding基准SWE-Bench Pro上得分为80.3%，高于竞争对手GPT-5.5的58.6%和自家前代Opus 4.8的69.2% [18][19] - 在Stripe的案例中，Fable 5用一天时间完成了对一个5000万行Ruby代码库的全库迁移，而该工作手动完成原本需要两个多月 [24][25] - 在视觉文件推理基准GDP.pdf上，Fable 5/Mythos 5在不借助外部工具的条件下得分为29.8%，高于Opus 4.8的22.5%和GPT-5.5的24.9% [28][29] - Fable 5实现了纯粹的原生视觉盲打，仅凭原始游戏截图，在无任何外挂前提下自主推演并打通了《宝可梦·火红版》整部游戏 [30][31][32] - 在配备持久化文件内存后，Fable 5游玩《杀戮尖塔》的表现提升幅度是Opus 4.8的三倍，到达最终章节的频率也提升三倍 [34][36] - 在Hebbia金融基准测试中，Fable 5拿到了行业最高分，在长篇文档推理、复杂图表解读及多步骤根因分析上实现双位数跨越式增长 [42][43] - 数据分析平台Hex指出，Fable 5是行业内第一个在其核心分析基准中突破90%得分大关的模型，比Opus提升了整整10个百分点 [45] - 在前沿物理学研究上，Fable 5仅使用1/3的推理Token，在36小时内产出的物理研究成果，就逼近了GPT-5.5耗时四天才跑出的成绩 [47] 生物医药与前沿科研突破 - 在生物医药领域，满血版Mythos 5可独立执行生物学家的全部工作流，包括选择蛋白质结合位点、自主调度生物信息学工具及自行Debug [48] - Mythos 5设计出的14个蛋白质靶向复合物中，有9个已进入实验室的真实药物研发管线 [49] - 在与Opus的盲法对比中，科学家在80%的情况下更倾向于Mythos的分子生物学假设，并已将其中几个推进到实验验证阶段 [51] - Mythos 5的一个关于大肠杆菌蛋白新机制的假设，在一家独立实验室的研究中得到了证实 [52] - 在基因组学研究中，Mythos 5自主工作一周多，拼凑了138个物种的单细胞数据，并自主设计训练了一个定制的微型机器学习模型，该模型体积小了100倍，但在表现上击败了最新发表在《Science》杂志上的科研成果 [52][53] 安全与治理新架构 - Fable 5采用了一套新的安全机制，通过一组独立分类器检测用户请求是否涉及网络安全攻击、生物化学风险及模型蒸馏，一旦触发则自动将请求转交给Claude Opus 4.8回答并告知用户降级 [55][56][57][61] - 超过95%的Fable 5会话不会触发降级，绝大多数写作、代码、分析等任务体验接近Mythos 5，剩下不到5%的请求会进入更严格的安全路径 [65][66][67] - 高风险领域主要分为三类：网络安全、生物和化学、模型蒸馏 [68][69] - 安全机制从单纯的拒绝回答演变为由分类器、模型路由、权限分级等共同组成的产品架构 [70][71][72] - 新机制存在误伤可能，例如生物学家研究病毒或安全工程师做攻防演练可能触发降级，公司承认当前护栏比理想状态更严格，后续会降低误伤率 [74][75] - 从Fable 5/Mythos 5开始，公司要求Mythos级模型所有流量保留30天，覆盖第一方和第三方场景，数据仅用于安全监控，不会用于训练 [76][77] 协作范式转变与行业影响 - AI学者Ethan Molrick的测试表明，人类与大模型之间的协作范式发生了根本性逆转，人类正从需要精细操控的“巫师”转变为只需提出宏观需求的“甲方”或“委托人” [95][96][105] - 在测试中，教授向Fable 5输入一个长达15页的复杂项目设计文档和宏观需求后，模型在后台完全自主运行9个多小时，内部调度多个Agent完成调研、撰写、校对等工作，最终交付极高质量成品，人类无需介入微观工作流 [99][100][101][102] - 这种结合长文本上下文与自主逻辑的能力，让上下文不再仅是内容容纳器，而沉淀为一个能自主推演、长时运行的“新型智能操作系统” [104] - 使用该工具既令人愉悦又令人不安，愉悦在于只需提出要求就能实现，不安也在于只需提出要求就能实现 [111][112] - 行业认为此次发布标志着前沿AI产品正在进入新形态，一个更强的模型被系上安全带后才把钥匙递给所有人 [115][116]

大模型

Token效率

Artificial Intelligence

Artificial Intelligence

Claude Fable 5

Claude Mythos 5