Claude Mythos 5
搜索文档
Anthropic“光与影”双重奏:高喊AI风险的同时推顶尖模型
第一财经· 2026-06-10 22:40
新模型发布 - 北京时间2026年6月10日,公司推出Claude Fable 5与仅限特定机构使用的Claude Mythos 5,这对孪生模型共享代号为Capybara的底层架构,标志着公司正式跨越上一代Opus级天花板,实现阶跃式提升[3] - 新模型定价分别为10美元/百万输入Token和50美元/百万输出Token,低于前代Mythos Preview版本[6] - 模型面世过程充满戏剧性,2026年3月26日因内部配置失误导致草案文件全网泄露,公司随后在4月7日推出仅定向开放给网安机构的Mythos Preview[5] 公司发展历程与现状 - 公司成立于2021年2月,创始团队由前OpenAI核心技术与安全成员组成,初始融资规模仅1.24亿美元,估值41亿美元[7] - 成立五年,公司年化收入(ARR)已突破470亿美元,估值达9650亿美元,该年化收入数字在2026年年初时仅为140亿美元[4][8] - 2023年,公司将营收从0做到1亿美元,并预估若2026年保持增速,公司有可能实现盈利[18] 技术能力与优势 - 在Claude 3.5到3.7阶段打下基础,并在Claude 4系列到Mythos模型阶段,在长逻辑推理与系统级安全上形成了显著的局部优势[11] - 信息安全研究员指出,Mythos与Opus之间存在明显代差,Mythos可以超过绝大多数人类专家,并能降低漏洞挖掘门槛,与GPT-5.5这一代模型形成了网络安全能力的分水岭[9] - 公司的优势并非单纯来自模型参数更强,而是来自更早地将Claude模型放入真实工程流程中,通过真实用户、代码库和反馈不断迭代,形成了数据飞轮效应[13][14] - 在Coding(编程)赛道形成优势,特别是在Agentic(智能体)的自主执行力上表现突出,而OpenAI的GPT-5.5/Codex在后端开发等重度工程领域依然极其强大[12][15] 战略与商业化 - 公司核心成功因素是对Coding赛道的精准定位,以及对垂直赛道商业化变现的聚焦投入[4] - 商业化呈现分化:OpenAI依靠泛用API和庞大开发者生态占据基本盘;公司则切入高客单价的硬核安全与特殊研发市场,尽管Mythos系列定价偏高,但在特定攻防场景的ROI可观,大企业愿意买单[15] - 公司将Claude模型作为组织效率、用户增长和产品商业化的共同入口,模型从处理代码片段发展到承担端到端任务,甚至参与内部代码审查、修复bug和实验流程[14] 组织与文化 - 公司早期文化类似扁平化、决策链路短的小作坊,员工多来自OpenAI早期团队,招聘偏好“好奇、承认不知道、跨领域”,形成了高技术密度、低自我意识的团队文化[11] - 为提升效率,团队将很多产品功能周期从过去的6个月压缩到1个月甚至更短,整个公司围绕AI-native产品重新组织了研发、产品、市场和文档流程[14] - 公司由一群极度关注“AI安全与可解释性”的研究员创立,其严谨的极客基因很契合代码生成这种容错率极低的领域[15] 行业竞争格局 - 头部厂商模型处于交替领先状态,尚未有明确胜者,公司依托安全理念与Coding领域的优势暂时领跑[5] - 顶级模型之间仍是交替领先的竞争状态,并未出现真正不可追赶的代差,公司与OpenAI之间并未产生代际差距,但与其他厂商如Gemini、X.ai及国内模型的差距会更明显一些[16] - 长期竞争将围绕云生态展开,每一家大型云厂商都会拥有自己的模型体系并扶持外部生态模型公司,公司深度绑定亚马逊云生态[17] - 有观点认为,公司是目前最领先的大模型创业公司,但谷歌、微软等大型科技公司的内部闭源模型同样很强,部分能力可能已超过创业公司产品[17] 安全理念与争议 - 公司以AI安全为使命,其发展脉络中贯穿着对安全与性能边界的权衡,这种矛盾甚至成为其独树一帜的特点[7] - “安全第一”的理念是一把双刃剑,既是差异化护城河,也招致“过度谨慎”的批评,例如涉及网络安全的查询会自动回落至Opus 4.8,导致部分良性请求被拦截,前沿任务受限[6] - 公司选择开放经过切分与限制的版本,释放Coding与生产能力,同时尽量压制网络安全、攻击自动化等高风险能力,对于网络安全的访问有多层审核和控制[10]
Thoughts on the market & Gokul/Samik’s CPO view; TSM; ANET, CIEN; FLEX-20260610
JPMorgan· 2026-06-10 21:11
市场表现 - 昨日科技股出现回调,软件领域受影响更大,主要由于CPO预期被下调及AAPL WWDC未能引发市场热情[1] - 整体市场表现疲软,SPX下跌0.7%,NDX下跌1.1%,主要受科技股拖累[14] 业绩总结 - TSMC在5月创下新高销售额为NT$4170亿(约合132亿美元),同比增长30.1%[4] - CIEN的订单积压达到77亿美元,预计在2026财年将持续增长,80%的64亿美元硬件订单将在12个月内发货[10] 用户数据与产品 - Anthropic推出Claude Fable 5,定价为每百万输入令牌10美元,每百万输出令牌50美元,相较于之前的Mythos Preview大幅降价[17] - Claude Fable 5在软件工程、知识工作、视觉、长上下文和科学研究等领域表现突出,用户体验从“施法者”转变为“委托人”[17] 未来展望 - ANET推出1.6T交换机,预计在2027年将带来显著的市场机会,市场规模预计从今年的37亿美元增长至2030年的406亿美元,年均增长率超过80%[8] - CPO的规模扩展预计将在2028年或2029年实现,主要面向非超大规模云计算客户[3] - FLEX正从组件采购转向集成模块系统,目标将利润率提升至20%,目前处于中低十位数水平[13] - AXON在无人机领域的战略定位因监管变化而迎来重大转折,预计将推动其在数据中心安全等领域的快速增长[9] 新技术与市场动态 - DDR5现货价格持续上涨,DDR4供应紧张开始影响DDR3市场,显示出市场的广泛紧张[17] - NAND现货价格因第二季度合约价格上涨而稳定,512Gb TLC晶圆现货价格本周下降0.22%,降至20.638美元[21] - TSMC首席财务官表示,持续的通货膨胀正在推高运营成本,可能会进行适度的价格调整[21] - 联想计划在7月对其产品组合进行价格上涨,因内存价格创历史新高,DRAM和NAND闪存现货价格上涨超过300%[21] 其他策略 - Crusoe暂停在怀俄明州的1.8G数据中心项目,市场情绪受到负面影响[1] - 800V直流电源的主流采用预计仍需12至18个月,当前主要依赖于±400V架构[13]
Fable 5自带反蒸馏机制!检测到就降智,误触率高到离谱
量子位· 2026-06-10 18:10
henry 发自 凹非寺 量子位 | 公众号 QbitAI 都先别急着吹! Claude刚刚发布的新模型 Fable 5 ,很多人可能压根就用不上! 有不少网友实测发现,Fable 5的安全护栏检测机制的触发几率似乎比官方宣称的 不到5% 严格得多。 无论是普通编码任务。 还是简单打个招呼,都有可能被自动路由回老模型Opus 4.8。 更离谱的是,我自己也中招了。我让Claude帮我搜点资料,丰富一下背景。 结果它想了两步,啪——切Opus了。 | 换句话说。你以为自己在用Anthropic刚发布的最强模型,实际上聊着聊着,对面已经偷偷换人了。 | | --- | | 而且不光是安全检测容易误伤,更绝的还在后头: | Anthropic还在长达319页的系统卡里埋了一套 防蒸馏 机制。 如果系统怀疑你想拿Claude的输出训练自己的AI模型,它甚至不会告诉你发生了什么,而是直接降低Fable的回答质量。 可以说,前一手防你作恶,后一手防你抄作业,相当符合A社的一贯风格。 寓言怎么老变成章鱼? 先给今天没刷新闻的大伙补个课。 今天凌晨,Anthropic终于发布了预热许久的两款模型—— 「神话」(Mythos) ...
双倍价格卖你阉割版Mythos!Claude故意降智还不告知、强制留底30天,彻底把用户惹毛
AI前线· 2026-06-10 16:29
文章核心观点 - Anthropic公司发布Claude Fable 5和Mythos 5双模型,实为同一模型(Mythos-class底座)的两种分级销售策略,面向公众的Fable 5版本受到严格的安全机制限制,而近乎无限制的Mythos 5版本仅向白名单机构(如Project Glasswing内的网络安全机构和关键基础设施企业)开放[15][16][17] - 公司在Fable 5模型中部署了用户“不可见”的干预机制,包括修改用户提示词、使用引导向量(steering vectors)或参数高效微调(PEFT)来限制模型在特定前沿研究领域(如AI模型研发、网络安全、生物化学)回答的有效性,且此过程不会主动告知用户[23][25] - 文章质疑模型能力限制的边界已从技术安全考量转向商业竞争考量,通过“防蒸馏”等机制构建“同源不同权”的分层供给特权,模型能力的实际分配正成为与原始能力同等重要的“硬核技术”[39][40] 产品策略与市场定位 - **双模型分级策略**:Claude Fable 5面向公众,Claude Mythos 5仅向“可信访问”名单开放,未来准入计划需与美国政府协商[15][16][17] - **定价差异**:Fable 5的API定价为每百万token输入10美元、输出50美元,是Opus 4.8价格的两倍[18] - **地理限制与计价**:Fable 5提供仅限美国境内推理的版本,输入输出统一按1.1倍计价[19][20] - **数据保留新规**:所有Mythos级流量的数据强制保留30天,此前签有零数据保留协议的客户也不例外[19] 模型性能与安全机制 - **基准测试表现**:在SWE-Bench Pro的Agentic coding测试中,Fable 5得分为80.3%,高于Mythos Preview的77.8%、Opus 4.8的69.2%,并显著领先于GPT5.5的58.6%、Gemini 3.1 Pro的54.2%以及DeepSeek V4-Pro Max的55.4%[2] - **性能标注说明**:官方评测分数取Mythos 5和Fable 5两者中的较高值,带星号项目因安全机制拦截,Fable 5表现更接近Opus 4.8[30][31] - **触发式回退机制**:当用户请求涉及网络安全、生物、化学、医学等“高风险”领域时,模型会通过简单的“关键词匹配”拦截,并自动无缝回退到上一代模型Opus 4.8进行回答,此机制平均触发率官方称不到5%[4][17][18][26] - **移动端敏感度**:在移动端,拦截机制可能更敏感,会删除模型输出的相关信息并替换为更安全的回答[5] 用户影响与信任危机 - **“不可见”的降智**:对于前沿大模型研发类请求,模型通过隐蔽手段限制回答有效性,用户端无任何提示或报错,导致用户无法区分“模型不会”和“模型没尽力”[10][23][27][29] - **信任关系受损**:工程师无法排除“结果不对”是否源于模型被暗中限制,摧毁了用户与工具之间基于输出稳定性的基本信任关系[28][29] - **体验不确定性**:Fable 5的用户体验成为一个概率分布,多数人获得满血性能,少数人触发降级,且用户无法预知自己处于哪个区间[32] 行业趋势与竞争动态 - **从产品到特权**:前沿模型正从“统一能力的产品”转向“分层供给的特权”,能力的边界越来越多由商业规则而非技术极限决定[39][40] - **“防蒸馏”与竞争**:公司将防止模型能力被系统性提取(“蒸馏”)作为安全机制的核心部分,并曾点名指责中国模型公司进行“工业规模的蒸馏攻击”[33][35] - **开源与闭源路线对立**:中国头部模型如Qwen和DeepSeek选择开放权重,而闭源巨头则将“防蒸馏”机制内置,同一行为在不同生态中被赋予截然不同的含义[38] - **“撤梯子”心态**:行业声音批评前沿实验室在自身借助模型能力提升后,通过限制他人访问相同能力来维持竞争优势[15]
Anthropic发布新模型:5000万行代码1天完成
新华网财经· 2026-06-10 15:59
新一代大模型发布 - Anthropic于美东时间6月9日发布新一代大模型Claude Fable 5,同步推出Claude Mythos 5,距离上一代Claude Opus 4.8发布仅间隔11天[2] - Fable 5是首个面向公众开放的Mythos级模型,定价为10美元/百万输入Token和50美元/百万输出Token,Mythos 5定价相同但保留更完整能力,目前仅向少数受信任机构开放[2] - Claude Fable 5被描述为公司迄今公开发布的能力最强通用大模型,在软件工程、科研、金融分析、视觉理解等多个领域达到业内领先水平,但对涉及网络安全、生物学和化学等敏感领域的问题进行了降权限处理[2] 模型性能与能力 - Fable 5在几乎所有测试基准上都达到业内领先水平,尤其擅长长周期、多步骤、高复杂度任务,软件开发是其最突出的能力之一[3] - 支付巨头Stripe在早期测试中发现,Fable 5在一个包含5000万行Ruby代码的大型代码库中,仅用一天时间便完成了一项原本需要一个团队两个月才能完成的代码迁移工作[3] - Mythos 5取消了部分安全限制,已能够独立完成蛋白质设计流程,在部分药物研发任务中达到甚至超过专业研究人员水平,其提出的一项关于大肠杆菌蛋白的新机制假说已获得独立实验室验证[3] 公司研发效率与内部应用 - 截至2026年5月,公司代码库中80%上线落地的程序由旗下大模型Claude自主生成,对比2024年同期,研发工程师单日有效代码产出提升8倍[5] - 搭载Mythos Preview最新模型后,科研人员工作效率达到无AI辅助状态的4倍,AI可独立完成的复杂科研任务时长翻倍周期从早年7个月缩短至当前4个月[5] - 在部分高难度算法优化场景里,人类耗时数小时仅能实现4倍算力优化,而Mythos模型可一次性完成52倍效率提升[5] 融资与估值 - 当地时间5月28日,Anthropic宣布完成H轮650亿美元融资,投后估值达9650亿美元,超越OpenAI 8520亿美元的估值[6] - 若以标普500企业市值排名,Anthropic目前规模已可跻身全美第13大企业,估值已超越英特尔和沃尔玛,仅次于伯克希尔哈撒韦[6] - 本轮融资由Altimeter Capital、Dragoneer、Greenoaks与红杉资本领投,同时包含大型云服务商此前承诺的150亿美元投资,其中亚马逊出资50亿美元,美光科技、三星电子与SK海力士也在投资方名单中[6] 财务表现与上市计划 - 截至2026年4月,Anthropic年化运营收入突破470亿美元,较2月底G轮时的300亿美元增长超50%,月均新增营收超50亿美元[7] - 公司收入结构绝大多数来自企业API调用,覆盖金融、法律、科技等领域,客单价高、粘性强[7] - 有消息称Anthropic考虑最早10月IPO,可能筹集超600亿美元资金,已于6月初向美国证券交易委员会保密提交IPO文件草案,并选择摩根士丹利和高盛担任其IPO主承销商[7] 行业定位与发展战略 - Anthropic主要瞄准企业级市场,凭借Claude模型200k超长上下文、高安全性与强推理能力,成为不少企业AI部署首选[7] - Anthropic近期曾发文呼吁全球暂停前沿AI开发,依托内部实测数据论证“递归自我改进(RSI)”的落地进程正在超预期提速[4] - 公司联合创始人表示,训练人工智能模型是一项高度资本密集型的业务,开发人工智能模型的高昂成本正迫使公司寻求上市融资[8]
Claude Mythos 5发布!5000万行代码1天搞定
创业邦· 2026-06-10 11:49
核心观点 - Anthropic发布了其有史以来最强大的大模型旗舰Claude Fable 5与Claude Mythos 5,标志着前沿AI进入权限与能力分级的新产品形态 [2][9] - Fable 5是面向所有用户、带有安全防护网的版本,而Mythos 5是解除安全限制的满血版,仅限少数受信任用户使用,两者基于同一底层模型,基础能力一致 [4][6][16] - 新模型在软件工程、复杂知识工作、视觉、长上下文、记忆及特定科研领域展现出显著优势,尤其在处理长周期、复杂任务时优势更明显 [18][19] - 公司通过独立分类器和模型路由机制将能力与安全拆解,为高风险请求自动降级至老模型,并实施严格的数据留存政策,这代表了前沿AI产品安全架构的根本性变化 [56][64][71][78] - API定价大幅下调至每百万输入Token 10美元、每百万输出Token 50美元,相比预览版降价超过一半,同时公司强调新模型的“Token效率”以控制长周期任务成本 [12][41][84] 模型性能与基准测试 - **软件工程能力突出**:在SWE-bench Pro评测中取得80.3%的高分,显著优于GPT-5.5的58.6% [20][21]。在FrontierCode基准测试中,于“中等努力”模式下得分即位居所有前沿模型之首 [22][24] - **实际应用效能显著**:例如,在5000万行Ruby代码库的全库迁移任务中,Fable 5仅用1天即完成,而人工团队预计需2个多月 [28]。在ViBench基准上,其实现了真正的“一枪流”生成应用 [29] - **原生视觉能力强大**:在GDPpdf视觉文件推理基准测试中,不借助外部工具取得29.8%的成绩,优于Opus 4.8的22.5%和GPT-5.5的24.9% [30][31]。实现了对《宝可梦》游戏的纯“原生视觉盲打”通关 [33][34] - **长上下文与记忆能力升级**:在配备持久化文件记忆后,于《杀戮尖塔》游戏中的表现提升幅度是Opus 4.8的3倍,到达最终章节的频率也提升3倍 [36][38] - **专业领域表现卓越**:在Hebbia金融基准测试中取得行业最高分 [45]。在数据分析平台Hex的核心分析基准中,成为首个突破90%得分大关的模型,比Opus提升10个百分点 [47]。在法律代理基准测试中取得13.3%的得分 [20] 前沿科研与特殊能力 - **生命科学研究**:满血版Mythos 5可独立执行生物学家的完整工作流,其设计的14个蛋白质靶向复合物中,有9个已进入真实药物研发管线 [50][51]。在盲法对比中,科学家在80%的情况下更倾向于Mythos的分子生物学假设 [53] - **基因组学研究突破**:Mythos 5自主工作一周多,整合138个物种的单细胞数据并训练出一个定制微型机器学习模型,该模型体积小100倍,但性能击败了近期发表在《Science》杂志上的成果 [54] - **科研效率提升**:在物理学研究测试中,Fable 5仅使用三分之一推理Token,在36小时内产出的成果即逼近GPT-5.5耗时4天的成绩 [49] 安全架构与产品机制 - **安全防护与模型路由**:Fable 5配备独立分类器,监测网络安全、生物化学风险及模型蒸馏等高风险请求。一旦触发,系统将自动降级调用Claude Opus 4.8来回答,而非直接拒绝 [5][57][59][62]。超过95%的会话不会触发降级 [66] - **高风险领域定义**:主要防范三类高风险领域:网络安全、生物和化学、模型蒸馏 [69][70] - **数据留存政策**:从Fable 5/Mythos 5开始,Mythos级模型的所有流量需保留30天,用于安全监控,但不会用于训练 [78][79] - **当前限制**:安全分类器设置较为保守,可能导致合理任务(如病毒研究、授权攻防演练)被误伤而降级,公司表示后续将降低误伤率 [75][76][77] 定价、成本与效率 - **API定价**:Fable 5与Mythos 5统一定价为每百万输入Token 10美元,每百万输出Token 50美元,相比之前的预览版降价超过一半 [12][84] - **强调Token效率**:公司特别强调新模型的“Token效率”,旨在解决Agent化落地中因长周期任务消耗大量Token而导致的成本问题 [41][44][87] - **成本定位**:尽管价格下调,但新模型仍属于高价模型,不会便宜到可以随意使用 [85][86] 行业影响与协作范式转变 - **协作范式根本性逆转**:AI学者测试指出,人类与大模型的协作从需要精细操控的“巫师”模式,转变为人类作为提出宏观需求的“甲方”或“委托人”,模型则像自主运行的“工作室”或“承包方” [89][99][108][110] - **自主Agent能力**:模型能够将模糊目标拆解为研究、信息搜集、设计、编码、验证等多个环节并自主推进,在长达9个多小时的完全自主运行后交付高质量成果 [96][103][104][106] - **长上下文成为智能操作系统**:长文本上下文与自主逻辑结合,使其不再是简单的“内容容纳器”,而进化为能自主推演、长时运行的“新型智能操作系统” [109]
刚刚,Claude Mythos 5 发布!5000 万行代码 1 天搞定
程序员的那些事· 2026-06-10 11:33
产品发布与核心架构 - Anthropic正式发布其有史以来最强悍的大模型旗舰,分为两个版本:面向所有用户开放的Claude Fable 5和仅限少数受信任用户使用的Claude Mythos 5 [1] - Fable 5是加了防护网版本的Mythos,一旦用户提问触发风险分类器(如试图写恶意软件),系统会自动降级调用上一代Claude Opus 4.8来回答 [3][4] - Mythos 5是解除了安全限制的满血原版,官网称其拥有全球最顶尖的网安攻防与生物科研纯血能力,但只给少数受信任用户使用 [5][6] - 两款新模型的API定价相比之前的预览版砍掉了一半以上,统一定价为每百万输入Token 10美元,每百万输出Token 50美元 [11][82] 核心能力与性能表现 - 官方表示Fable 5和Mythos 5的自主运行时间比以往任何Claude模型都长 [7] - 模型优势集中在软件工程、复杂知识工作、视觉、长上下文、记忆能力及生命科学研究,任务越长、越复杂,其相比过去Claude的优势越明显 [16][17] - 在软件工程领域,Fable 5在Agentic coding基准SWE-Bench Pro上得分为80.3%,高于竞争对手GPT-5.5的58.6%和自家前代Opus 4.8的69.2% [18][19] - 在Stripe的案例中,Fable 5用一天时间完成了对一个5000万行Ruby代码库的全库迁移,而该工作手动完成原本需要两个多月 [24][25] - 在视觉文件推理基准GDP.pdf上,Fable 5/Mythos 5在不借助外部工具的条件下得分为29.8%,高于Opus 4.8的22.5%和GPT-5.5的24.9% [28][29] - Fable 5实现了纯粹的原生视觉盲打,仅凭原始游戏截图,在无任何外挂前提下自主推演并打通了《宝可梦·火红版》整部游戏 [30][31][32] - 在配备持久化文件内存后,Fable 5游玩《杀戮尖塔》的表现提升幅度是Opus 4.8的三倍,到达最终章节的频率也提升三倍 [34][36] - 在Hebbia金融基准测试中,Fable 5拿到了行业最高分,在长篇文档推理、复杂图表解读及多步骤根因分析上实现双位数跨越式增长 [42][43] - 数据分析平台Hex指出,Fable 5是行业内第一个在其核心分析基准中突破90%得分大关的模型,比Opus提升了整整10个百分点 [45] - 在前沿物理学研究上,Fable 5仅使用1/3的推理Token,在36小时内产出的物理研究成果,就逼近了GPT-5.5耗时四天才跑出的成绩 [47] 生物医药与前沿科研突破 - 在生物医药领域,满血版Mythos 5可独立执行生物学家的全部工作流,包括选择蛋白质结合位点、自主调度生物信息学工具及自行Debug [48] - Mythos 5设计出的14个蛋白质靶向复合物中,有9个已进入实验室的真实药物研发管线 [49] - 在与Opus的盲法对比中,科学家在80%的情况下更倾向于Mythos的分子生物学假设,并已将其中几个推进到实验验证阶段 [51] - Mythos 5的一个关于大肠杆菌蛋白新机制的假设,在一家独立实验室的研究中得到了证实 [52] - 在基因组学研究中,Mythos 5自主工作一周多,拼凑了138个物种的单细胞数据,并自主设计训练了一个定制的微型机器学习模型,该模型体积小了100倍,但在表现上击败了最新发表在《Science》杂志上的科研成果 [52][53] 安全与治理新架构 - Fable 5采用了一套新的安全机制,通过一组独立分类器检测用户请求是否涉及网络安全攻击、生物化学风险及模型蒸馏,一旦触发则自动将请求转交给Claude Opus 4.8回答并告知用户降级 [55][56][57][61] - 超过95%的Fable 5会话不会触发降级,绝大多数写作、代码、分析等任务体验接近Mythos 5,剩下不到5%的请求会进入更严格的安全路径 [65][66][67] - 高风险领域主要分为三类:网络安全、生物和化学、模型蒸馏 [68][69] - 安全机制从单纯的拒绝回答演变为由分类器、模型路由、权限分级等共同组成的产品架构 [70][71][72] - 新机制存在误伤可能,例如生物学家研究病毒或安全工程师做攻防演练可能触发降级,公司承认当前护栏比理想状态更严格,后续会降低误伤率 [74][75] - 从Fable 5/Mythos 5开始,公司要求Mythos级模型所有流量保留30天,覆盖第一方和第三方场景,数据仅用于安全监控,不会用于训练 [76][77] 协作范式转变与行业影响 - AI学者Ethan Molrick的测试表明,人类与大模型之间的协作范式发生了根本性逆转,人类正从需要精细操控的“巫师”转变为只需提出宏观需求的“甲方”或“委托人” [95][96][105] - 在测试中,教授向Fable 5输入一个长达15页的复杂项目设计文档和宏观需求后,模型在后台完全自主运行9个多小时,内部调度多个Agent完成调研、撰写、校对等工作,最终交付极高质量成品,人类无需介入微观工作流 [99][100][101][102] - 这种结合长文本上下文与自主逻辑的能力,让上下文不再仅是内容容纳器,而沉淀为一个能自主推演、长时运行的“新型智能操作系统” [104] - 使用该工具既令人愉悦又令人不安,愉悦在于只需提出要求就能实现,不安也在于只需提出要求就能实现 [111][112] - 行业认为此次发布标志着前沿AI产品正在进入新形态,一个更强的模型被系上安全带后才把钥匙递给所有人 [115][116]
Claude Fable 5正式发布 - 王者归航。
数字生命卡兹克· 2026-06-10 10:04
Anthropic发布Fable 5与Mythos 5模型 - 公司于今年4月发布了名为Claude Mythos Preview的模型,该模型被定位为超越Opus的“神话”级别模型,当时与约50家初始合作伙伴发现了超过一万个高危或严重级别的漏洞[2] - 经过两个月,公司于今日发布了Fable 5版本,该版本在底层模型基础上增加了安全分类器并向所有用户开放,同时向原有合作伙伴发布了Mythos 5版本[2] - Fable 5与Mythos 5基于同一底层模型,核心区别在于Fable 5增加了额外的安全限制层[4] 模型定价与获取策略 - Fable 5模型定价为每百万输入token 10美元,每百万输出token 50美元[8] - 从发布日到6月22日,Fable 5将免费包含在Claude Pro、Max、Team及企业版订阅方案中,6月23日起将从订阅方案中移除,未来仅能通过API使用,公司表示将在容量充足时考虑将其恢复为标准订阅组成部分[7][8] 模型性能基准测试 - 在Agentic coding SWE-Bench Pro测试中,Mythos 5/Fable 5得分80.3%,高于Mythos Preview的77.8%、Opus 4.8的69.2%、GPT 5.5的58.6%和Gemini 3.1 Pro的54.2%[15] - 在Agentic coding测试中,Mythos 5/Fable 5得分29.3%,显著高于Opus 4.8的13.4%和GPT 5.5的5.7%[15] - 在Knowledge work测试中,Mythos 5/Fable 5得分1932,高于Opus 4.8的1890和GPT 5.5的1769[15] - 在Cybersecurity ExploitBench测试中,Mythos 5/Fable 5得分78.0%,远高于Mythos Preview的69.0%、Opus 4.8的40.0%和GPT 5.5的34.0%[15] - 在Health HealthBench Professional测试中,Mythos 5/Fable 5得分66.0%,高于Mythos Preview的64.7%、Opus 4.8的56.9%和GPT 5.5的51.8%[15] 模型能力与应用案例 - 在代码开发任务中,Fable 5在30分钟内自主完成了一个涉及聚簇概念和时间衰减算法的热点排序功能开发并上线[21][22] - 在数据分析任务中,Fable 5花费1小时18分钟生成了一份极其详细的网页报告,对现有评分体系提供了深刻的洞见[31][34] - Stripe使用Fable 5在一天内完成了对其5000万行Ruby代码库的全库迁移,此项工作若由人工团队完成可能需要两个多月[45][47][50] - 在游戏领域,Fable 5仅通过视觉屏幕截图输入,无需任何代码、地图或作弊辅助,即从头到尾通关了《宝可梦火红》这款RPG游戏[53][54][55] - 在工具创造领域,Fable 5自主创建了一个基于浏览器的3D CAD编辑器,并使用该工具设计了一个可3D打印的模型[60][61] - 在生命科学领域,未受安全限制的Mythos 5将药物设计流程的某些环节加速了约十倍,并在一个蛋白质设计实验中,针对14个蛋白质靶点产出了9个有潜力的候选方案[64][66] - 在基因组学研究中,Mythos 5整合了跨138个动物物种、数百万个细胞的单细胞数据,自主设计并训练的机器学习模型在性能上超过了一个近期发表在《Science》上的模型,且模型规模小了100倍[67][68] 模型安全限制与使用成本 - Fable 5的安全限制主要针对三类领域:网络安全、生物与化学、模型蒸馏[69] - 由于安全限制,涉及药物和基因等特定科学研究只能在Mythos 5上使用,Fable 5会拒绝相关请求并可能退回至Opus 4.8模型[69] - 用户实际使用中感受到Fable 5的计算资源消耗显著更高,例如一位Claude Max会员(200美元档)运行3个任务(其中1个未完成)即消耗了约5小时额度的73%[16] 行业竞争格局与定价对比 - 与主要竞品相比,Fable 5的定价(输入$10/百万token,输出$50/百万token)高于GPT-5.5(输出$30/百万token)和Claude Opus 4.8(输出$25/百万token),远高于DeepSeek V4 Pro(输入$0.435/百万token,输出$0.87/百万token)[10] - DeepSeek V4 Pro因其极低的定价和不错的智能水平,被用户广泛用于工作流中的自动化API任务[12][13]
刚刚,Claude Mythos 5发布!5000万行代码1天搞定
量子位· 2026-06-10 09:26
衡宇 Jay 发自 凹非寺 量子位 | 公众号 QbitAI Anthropic遮遮掩掩两个月的 "神话"Mythos ,终于降临了—— 自家有史以来最强悍的大模型旗舰,分两个版本端上桌: Cla ud e Fable 5与 Claude Mythos 5。 Fable 5是加了防护网版本的Mythos**,面向所有用户开放。 一旦用户提问触发风险分类器(比如试图让它写恶意软件),系统就会自动降级调用上一代Claude Opus 4.8来回答。 Mythos 5是原汁原味的满血版"Mythos" ,但只给少数受信任用户使用。 它在网络安全等领域解除了安全限制,官网称其"拥有全球最顶尖的网安攻防与生物科研纯血能力"。 官方表示,Fable 5和Mythos 5的自主运行时间比以往任何Claude模型都长。 小小叹个气? 前 沿AI, 开始进入权限时代了。 而且就在Anthropic郑重其事地呼吁全部AI研究立刻停止后没两天…… 不懂Dario怎么也开始走上奥特曼每次为自家新模型、新产品提前营销造势的老路,还是阵仗极大的那种。 好了,咱们迅速进入技术相关环节,冲—— 双版本Mythos来了!官方给"Token效率 ...
早报 | 美军开始对伊朗报复性打击;阿里百度等回应被美列入“涉军”清单;王传福回应股价被低估;谷歌CEO称其工作最可能被AI取代
虎嗅APP· 2026-06-10 08:31
地缘政治与能源安全 - 美军于美国东部时间17时开始对伊朗发动“自卫性”打击,以回应前一天美军直升机被击落事件 [2][3] - 伊朗武装部队已达到最高战斗和防御准备状态,并做好应对任何侵略的准备 [4] - 自2月底以来,仍有超过160艘主流油轮滞留波斯湾水域超100天,霍尔木兹海峡被国际海事组织认定为“不存在安全通航条件” [5] 全球金融市场动态 - 美股科技股遭遇抛售,纳指盘中最大跌幅接近4%,最终收跌1%,费城半导体指数盘中跌幅高达8.6% [6] - AI板块全线重挫:高盛AI主题篮子下跌427个基点,数据中心主题跌559个基点,光学主题跌800个基点,偏离均值2.3个标准差 [6] - 国际油价收跌:美油主力合约跌2.85%至88.7美元/桶,布油主力合约跌2.57%至91.83美元/桶 [7] - 国际贵金属期货普遍收跌:COMEX黄金期货跌1.80%至4284.80美元/盎司,COMEX白银期货跌4.56%至65.46美元/盎司 [7] 科技与人工智能 - Anthropic发布迄今最强公开模型Claude Fable 5,在软件工程、科研、金融分析、视觉理解等多个领域达到业内领先水平 [11][12] - 滴滴作为首批合作伙伴,将核心网约车服务接入微信AI生态,用户可通过微信内AI交互直接唤起叫车服务 [13][14] - 谷歌CEO皮查伊表示,AI有朝一日可能完全承担CEO的职责,成为该职位的有力竞争者 [28] - 苹果WWDC 2026发布基于Gemini的Siri AI及iOS 27等27系操作系统 [26] 公司资本运作与市场动态 - SpaceX的IPO计划吸引超过2500亿美元投资者认购需求,远超计划募集的750亿美元,超额认购率约为3.5到4倍 [8] - 美国国防部将阿里巴巴、百度、药明康德、比亚迪列入中国军工企业名单,四家公司均发布公告称此举错误且无依据 [9][10] - 长安汽车挂牌转让其持有的长安福特新能源40%股权,转让底价1.54亿元,若转让成功将不再直接持有该公司股权 [17] 公司经营与行业事件 - 比亚迪召开股东会,董事长王传福回应股价被低估问题,表示公司潜力被认同但股价尚未反映,并希望股东保持耐心 [18][19] - 哈啰出行被报道指其存在竞争、监管、财务和安全加速失控等问题,公司回应称文章系系统性污名化,已提交举报 [20] - 法国监管部门就Switch手柄缺陷问题对任天堂处以3500万欧元(约合2.7亿元人民币)罚款 [16] - 阿维塔回应新品牌AIVA名称设计与其“撞脸”,表示保留追究法律责任的权利 [21]