Workflow
Mythos 5
icon
搜索文档
What smart people are saying about the 2 most controversial parts of Anthropic's new models
Business Insider· 2026-06-10 21:14
文章核心观点 - Anthropic公司发布其备受期待的“Mythos级”模型Claude Fable 5和Mythos 5,但因其引入的两项特殊安全措施而引发争议,这些措施包括在怀疑用户进行前沿AI研究时秘密降低模型性能,以及将特定请求自动转给能力较弱的模型处理 [1] 模型发布与安全措施 - Anthropic发布了Claude Fable 5和Mythos 5模型 [1] - 公司披露了两项特殊安全措施:当怀疑用户在进行前沿AI研究时,模型可能秘密提供降级的协助;某些请求会自动被路由到能力较弱的模型 [1] - 公司表示,这些措施旨在降低强大AI系统帮助用户开发竞争性前沿模型或加速危险能力发展的风险 [2] 行业专家观点:对安全措施与风险的看法 - 政策专家David Kasten认为Anthropic确实在努力降低与Mythos相关的风险,但发布模型本身存在风险,因为攻击者和防御者之间总是一场“猫鼠游戏” [2][3] - 数字安全专家Davi Ottenheimer质疑Mythos是否如Anthropic之前所暗示的那样危险,他指出公司在4月份曾以安全风险为由未向公众发布该模型,但现在却将其出售给公众 [5] - Ottenheimer批评公司“将安全用作营销噱头” [6] - 研究工程师Elie Bakouch批评Anthropic故意限制Mythos在特定AI开发任务上的表现,并认为这对研究社区非常不利,且干预行为对用户不可见是“疯狂的” [8] 行业专家观点:对竞争格局与行业集中的影响 - 行业观察者Jeremy Howard认为,Anthropic的安全措施可能加剧AI行业的集中度,因为其允许自身(当前的顶级实验室)使用其顶级模型进行前沿AI研究,这会导致AI前沿进步,但权力不平衡加剧 [9] - 通讯作者Gergely Orosz指出,Anthropic试图限制竞争的做法可能会影响许多并非真正在构建竞争性AI模型的人 [11][12] - 风险投资合伙人Deedy Das关注模型能力,指出Claude Fable 5在迁移5000万行代码库、生成高级3D图形以及在优化任务上超越竞争对手模型等方面表现惊人,并称其价格与OpenAI的GPT-5.5大致相同,但比GPT-5.5 Pro便宜六倍 [13][14] 行业专家观点:对模型能力与实用性的评价 - 行业分析师Patrick Moorhead分享其首次使用Fable 5的体验令人失望,模型因认为任务“过于危险”而拒绝协助进行收益分析要点和董事会演示准备 [11] - GoodData创始人Roman Stanek认为,AI能力并非网络安全领域的真正问题,许多已知漏洞已存在20年但从未被修复,因为无论是雇佣人类工程师还是使用AI来修复,都没有人愿意付费 [7]
GPT-5.6首批实测来了!精准狙击Mythos
量子位· 2026-06-10 12:12
行业竞争态势 - 人工智能行业主要参与者(Anthropic、OpenAI、谷歌)在2024年6月集中发布新一代旗舰模型,竞争激烈[8][9][35][36] - Anthropic已率先发布Claude Fable 5和Mythos 5模型,对竞争对手构成直接压力[1][2][38] - 谷歌的Gemini 3.5 Pro模型在5月亮相,但计划在6月正式上线[39][40] - OpenAI的GPT-5.6模型计划在6月晚些时候发布[41] Anthropic (Claude) 模型发布 - 公司发布了Claude Fable 5和Mythos 5两款新模型[1] - 新模型定价统一为每百万输入Token 10美元、每百万输出Token 50美元[44] - 新定价约为其现有Opus模型价格的两倍[45] OpenAI (GPT) 模型进展 - 公司正在内部测试代号为“kepler”和“kindle”的两个新检查点,其中“kindle-alpha”被选为发布候选版[4][14] - 内部测试版本GPT-5.6在海外开发者社区泄露并被广泛实测[6] - 根据泄露信息,GPT-5.6的主要升级方向包括前端/UI生成能力和视觉能力[18][20] - 有实测反馈指出,发布候选版“kindle-alpha”的前端生成能力相比“kepler”检查点可能出现退步[26][34] - 最新动态显示,“kindle”模型已被移出测试平台,出现了一个代号为“Levi”的新模型,但其来源尚不明确[30][32] 模型能力对比 - 在智能体编码基准测试上,有消息称GPT-5.6“在多个agentic coding基准上击败Mythos”[33] - 然而,另有实测观点认为,以“kindle”目前的形态,“会被Mythos轻松击败”[34] - 除了性能,定价策略也是影响市场竞争的关键因素,若GPT-5.6能力接近但价格显著更低,则可能在市场采用率上获得优势[43][46]
Why Anthropic's 'safe' Mythos-class model won't answer questions about cancer
Business Insider· 2026-06-10 12:02
公司发布与产品策略 - 公司于周二发布了Claude Fable 5模型,其能力与Mythos 5模型相当,但增加了安全防护措施[4] - 公司表示,这是其首个Mythos级别的模型,认为模型现在拥有更强的能力完成现实世界的科学任务[5] - 公司计划未来向更广泛的生物学和生命科学界提供无需这些安全防护的Mythos级别模型,以加速生物医学研究和药物发现[8] 安全防护措施与实施 - 为了向公众安全且快速地发布模型,公司采取了保守的安全调校策略,并计划改进防护措施以减少误报[8] - 安全分类器主要针对三类请求进行标记:网络安全、生物学与化学,以及对Fable 5能力的提炼[6] - 当安全防护被触发时,Fable 5要么被阻止回答,要么在回答前切换至Opus 4.8模型,具体取决于用户偏好[6] - 早期数据显示,超过95%的Fable会话没有回退到Opus模型[7] 模型能力与限制 - 由于底层“Mythos-class”模型过于强大,为向公众发布,需要广泛的安全防护措施,这些措施可能错误地标记良性的请求[1] - 当被问及癌症或网络安全等基础问题时,Claude会迅速从Fable 5切换至Opus 4.8模型,并通知用户这一变更[2] - 公司解释,安全措施会标记大多数网络安全或生物学主题的信息,可能也会标记安全、正常的内容,这些措施使得公司能够更快地在其他领域提供Mythos级别的能力[3] 行业背景与风险认知 - 此次发布约在一周前,公司的研究人员表示人工智能发展过快,前沿实验室可能需要减速或暂停,以便社会能够跟上[9] - 政策研究负责人从公司的公开声明中明确看出,公司对日益强大的模型所带来的风险感到担忧[9] - 尽管将安全措施视为公司降低风险的良好尝试,但历史表明“人们最终会找到绕过安全限制的方法”,这始终是攻击者与防御者之间的一场猫鼠游戏[10] - 公司最强大的模型频繁回退至能力较弱的模型,可能导致公众对AI模型变得多强大的理解出现差距,这种理解差距可能非常危险,导致政策制定者或公众无法完全理解这些模型在其提供的能力方面所带来的风险[11]
铝:承压运行;氧化铝:矿端扰动带动盘面向上;铸造铝合金:跟随电解铝
国泰君安期货· 2026-06-10 11:27
期 货 研 究 2026 年 06 月 10 日 铝:承压运行 氧化铝:矿端扰动带动盘面向上 铸造铝合金:跟随电解铝 王蓉 投资咨询从业资格号:Z0002529 wangrong2@gtht.com 铝、氧化铝、铸造铝合金基本面数据更新 | T | T-1 | T-5 | T-22 | T-66 | 24110 | 沪铝主力合约收盘价 | 5 | -500 | 450 | -715 | | | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | 沪铝主力合约夜盘收盘价 | - | - | - | 23900 | - | LME铝3M收盘价 | 3608 | -67 | 491 | -67 | રેત | | | 沪铝主力合约成交量 | 161003 | -123851 | -184683 | -98797 | 14507 | 沪铝主力合约持仓量 | 264111 | -4218 | -29487 | 89708 | -52261 | 电解铝 | | LME铝3M成交量 | 18763 | -1060 ...
每 20 次里有 1 次,回答你的不是那个旗舰——Claude Fable 5 的暗门,一个操作员摸完了
深思SenseAI· 2026-06-10 11:25
Claude Fable 5 模型概述 - 新发布的旗舰模型Claude Fable 5对所有用户提供13天免费使用期,截至6月22日[3] - 该模型与仅限Project Glasswing合作伙伴使用的Mythos 5底层相同,区别在于安全护栏的设置,是公开版本中最强的模型[6] - 在SWE-Bench Pro基准测试中,Fable得分80.3%,显著高于Opus 4.8的69.2%和GPT 5.5的58.6%[6] 技术性能与优势 - 模型在处理长而复杂的任务时优势更明显,其领先幅度随任务复杂度增加而扩大[7] - 在视觉能力上有重大升级,能够仅凭截图重建网页应用源码,并成功通关Pokémon火红版游戏[10] - 记忆能力显著增强,在《杀戮尖塔》游戏测试中,其性能提升是Opus 4.8的3倍,长任务处理能力成为其力量倍增器[10] - 在FrontierCode基准测试中,Fable使用中等(medium)档位努力值已超过Opus 4.8使用最大(max)档位的表现[12] 使用机制与路由策略 - 模型内置分类器,当检测到用户提问涉及网络安全、生物化学或模型蒸馏(窃取能力)三类话题时,会将问题自动路由给Opus 4.8模型处理,并给出提示[9][11] - 此类路由触发概率低于5%,但用户若涉及相关领域工作,需注意实际应答模型可能已切换[9] - 这种设计应被理解为智能路由机制而非模型降级,用户可据此优化工作分配,将flagged任务直接交给Opus,其余任务充分利用免费Fable[9] 实际应用与效能验证 - 在实际代码审查测试中,Fable在熟悉的活跃项目里发现了此前Opus数月都未发现的bug,仅一个钱包解析器就找出9个问题[14] - 其优势体现在能同时处理整个文件的工作记忆,并发现隐藏在函数间接缝处的复杂bug,这体现了长上下文和视觉升级的实际价值[14] - Stripe公司使用该模型完成了对五千万行Ruby代码库的全库迁移,耗时仅一天,而人工处理预计需要两个月[7] 使用建议与经济性 - 模型定价为10美元输入、50美元输出,不到上一代Mythos Preview价格的一半[6] - 建议用户根据任务类型调整努力值(effort)档位:长任务使用xhigh,日常编辑和提问使用medium即可,max档位往往边际效益递减[12] - 在自动红队测试中,Fable在攻击性任务上的成功率仅为5.4%,显著低于Opus 4.8的56.6%和Opus 4.6的83.2%,这反映了其安全护栏的有效性[9] - 免费期结束后,Fable将从订阅服务中移除,后续使用需按API价格扣除额度,公司表示将在产能允许时考虑重新纳入订阅,但无具体时间表[16] 战略行动建议 - 建议用户在免费期内优先处理那些被长期拖延、最重大且不敢轻易动手的复杂任务,例如跨40个文件的重构、大型代码审计或迁移项目[16] - 不应将免费资源浪费在总结邮件等简单任务上,而应聚焦于只有Fable等高级模型才能高效完成的重型工作[17] - 具体操作设置为使用claude-fable-5模型,对长任务开启持久记忆功能,以最大化利用其“越跑越强”和“会读屏”的能力特性[17]
Japan Computer Services & IT Consulting: Fable5/ Myths5announced—eye-opening performance and pricing-20260610
Citi· 2026-06-10 11:08
报告核心信息 - 报告标题为“Fable 5 / Mythos 5 announced – eye-opening performance and pricing”,主要分析Anthropic公司发布的新模型Fable 5/Mythos 5 [1] - 报告所属行业为日本计算机服务与IT咨询 [1] - 报告发布日期为2026年6月9日 [1] 核心观点 - **事件与市场反应**:Anthropic于日本时间6月10日凌晨2点发布了新模型Fable 5(Mythos 5的公开版本,网络安全能力受限)[1]。该消息在美股开盘前泄露,导致当日美国SaaS股票下跌,例如ServiceNow下跌7%,Salesforce下跌4%,表明市场将此消息视为对SaaS股票的负面冲击,其影响程度超过了此前Opus 4.8发布时的情况[1] - **对行业观点的影响**:尽管Fable 5在性能上显著超越Opus 4.8,且能够执行长任务,但报告认为这并不足以成为大幅改变当前对SaaS或系统集成公司看法的理由[2] - **定价与投资回报率**:Fable 5的定价为每100万输入/输出token 10美元/50美元,是目前公开可用模型中价格最高的,显著高于Opus 4.8(5美元/25美元)和GPT-5.5(5美元/30美元)[1][4]。鉴于当前市场对AI投资回报率存在激烈辩论,报告认为要证明其高价的合理性,Fable 5可能需要与其他模型结合使用,或仅限于特定高价值领域[2] - **性能基准对比**:Fable 5在多项基准测试中得分显著超越OpenAI的模型,报告预计OpenAI将很快发布GPT-5.6,模型竞争将持续[2] 模型性能与定价数据 - **定价对比**:Fable 5定价为10美元/50美元(每100万输入/输出token),Opus 4.8为5美元/25美元,GPT-5.5为5美元/30美元,Gemini 3.1 Pro为2美元/12美元[4] - **性能基准得分**: - 代理编码:Fable 5为80.3%,Opus 4.8为69.2%,GPT-5.5为58.6%,Gemini 3.1 Pro为54.2%[4] - 网络安全:Fable 5为78.0%,Opus 4.8为40.0%,GPT-5.5为34.0%[4] - 多学科推理:Fable 5为59.0%,Opus 4.8为49.8%,GPT-5.5为41.4%,Gemini 3.1 Pro为44.4%[4] - 代理计算机使用:Fable 5为85.0%,Opus 4.8为83.4%,GPT-5.5为78.7%,Gemini 3.1 Pro为76.2%[4] - 知识工作:Fable 5为1.932,Opus 4.8为1.890,GPT-5.5为1.769,Gemini 3.1 Pro为1.314[4] - 工具使用:Fable 5为17.4%,Opus 4.8为15.5%,GPT-5.5为12.9%,Gemini 3.1 Pro为9.6%[4]
Anthropic's Claude Fable is a version of Mythos the public can access today
TechCrunch· 2026-06-10 01:00
产品发布与市场策略 - AI公司Anthropic首次向公众推出其最强大的AI模型Claude Fable 5,这是其Mythos模型的第一个公开版本 [1] - 在6月22日前,Fable 5将免费包含在Pro、Max、Team以及基于席位的企业计划中,6月23日起将被移除,未来使用需要消耗使用额度,公司计划尽快将其恢复为标准订阅功能 [3] - 公司同时向已获批准访问高级模型的组织部署了Mythos模型的新版本Mythos 5 [4] 产品性能与能力 - Fable 5在软件工程、知识工作和视觉方面表现出色,但在网络安全、生物、化学和蒸馏等高风险领域,模型会阻止回答并回退到Claude Opus 4.8 [1] - 早期数据显示,至少95%的Fable会话完全由模型自身响应完成,需要回退到Opus 4.8的情况很少见 [7] - 第三方测试中,分析公司Hex称Fable在其复杂、长期分析任务的核心分析基准测试中首次获得90%的分数 [7] - 第三方评价显示,Fable在最具挑战性的问题上表现出强大的判断力和对细微差别的关注,更擅长“一次性完成完整应用”,并具有出色的工具调用能力,在UI设计和游戏编码等任务上表现显著优于其他模型 [8] 定价与市场反应 - Fable 5和Mythos 5的定价为每百万输入token 10美元,每百万输出token 50美元,是Opus 4.8价格的两倍 [9] - 高昂的价格可能抑制其广泛使用,许多企业在看到账单或过早耗尽年度AI预算后,对AI成本日益不满 [9] - 公司预计对Fable 5的需求将非常高且难以预测,部分企业如购物奖励平台Rakuten认为其带来的优势值得该价格点 [10] 安全与治理措施 - 由于对Mythos级别模型可能被滥用的担忧,公司在发布Fable 5前,通过越狱尝试对其分类器进行了压力测试 [6] - 内部运行的外部漏洞赏金计划在超过1000小时的测试中未产生通用越狱方法,外部红队组织也未能找到通用越狱方法 [6] - 随着Fable 5和Mythos 5的发布,公司将要求对所有流量进行30天数据保留,即使企业之前有零保留协议,该数据仅用于防御复杂新颖的攻击和减少误报,不用于训练,此政策可能为行业设立先例 [6] 行业背景与公司动态 - Fable的发布正值Anthropic准备与OpenAI和Elon Musk的SpaceX一同进入公开市场之际 [5] - 此前,该公司呼吁全球主要AI实验室为前沿AI发展建立一个协调的“刹车踏板”,并警告系统发展如此迅速,可能很快实现递归自我改进 [5] - Mythos模型于4月作为预览版发布,最初因网络安全问题仅限于少数合作伙伴,上周访问权限已扩展到15个国家的数百个组织,重点仍是管理关键基础设施的组织 [2]