Fable 5自带反蒸馏机制！检测到就降智，误触率高到离谱

模型发布与核心定位 - Anthropic发布了两款新模型“神话”（Mythos）和“寓言”（Fable）[11] - Fable 5 是Anthropic首次将Mythos级别能力向普通用户开放的模型[14] - 官方定位这两款模型为当前大模型的天花板，各方面能力已到顶[19] - Fable 5 在软件工程、知识工作、视觉理解等能力全面增强，超过此前所有公开发布的Claude模型[18] - Fable免费开放给所有人至22号（22号后仅通过API可用），而Mythos目前仅开放给部分合作伙伴[16] 模型性能表现 - 在Agentic coding SWE-Bench Pro基准测试中，Mythos 5 / Fable 5 得分为80.3%，高于Claude Opus 4.8的69.2%、GPT 5.5的58.6%和Gemini 3.1 Pro的54.2%[20][24] - 在知识工作GDPval-AA基准测试中，Mythos 5 / Fable 5 得分为1932，略高于Opus 4.8的1890和GPT 5.5的1769[20][24] - 在计算机使用OSWorld-Verified测试中，Mythos 5 / Fable 5 得分为85.0%，与Mythos Preview的85.4%相当，高于其他竞品[20][24] - 在多学科推理Humanity‘s Last Exam测试中，Mythos 5 / Fable 5 得分为64.5%，高于Opus 4.8的57.9%[20][24] - 在网络安全ExploitBench测试中，Mythos 5 / Fable 5 得分为78.0%，显著高于Opus 4.8的40.0%和GPT 5.5的34.0%[20][24] 安全与使用限制机制 - Fable 5 相比Mythos多了一个安全护栏[15] - 模型内置分类器，当对话涉及网络安全、生物、化学等高风险领域，或系统怀疑用户意图是蒸馏训练自家AI模型时，会自动将会话切换至Claude Opus 4.8[28] - 官方声称此安全检测平均触发率不到5%，但用户实测反馈触发几率比宣称的严格得多[1][32] - 在实际体验中，切换发生在Fable的思考过程中，且不会询问用户[30] - 在怀疑用户进行前沿LLM研发时，模型不会切换，而是会通过Prompt Modification、Steering Vector、PEFT等方式悄悄降低回答质量，且不通知用户[7][43][44] - Fable 5 在网络安全任务上的实际表现基本等同于Opus 4.8，因为分类器在该领域几乎总会触发[47] 用户实际体验与问题 - 许多用户反映安全护栏在实际使用中容易误伤，例如分析代码[33]、进行安全审计[34]、审查代码库[35]等场景均可能触发切换 - 有用户将Fable自己的系统卡交给模型解读，也触发了模型切换[36] - 从事生物医学研究的科学家表示，因涉及违禁词而无法使用Fable工作[37] - 用户对模型切换无提示、回答质量暗中降低且无通知的机制感到不满[63][64] - Fable的token消耗成本接近Opus的两倍[55] - 模型采用限量开放方式，结合使用限制和高成本，引发用户对未来可能按量收费的担忧[54][56] 行业影响与潜在考量 - 有观点认为，Anthropic处于IPO前关键阶段，需要向投资人证明其拥有前沿模型能力，因此采取了有保留的开放策略[57][60] - 模型对前沿LLM研发相关内容的限制，可能对学术研究和技术交流产生负面影响[62] - AI研究员指出，模型厂商为能力加护栏或许不可避免，但至少应告知用户何时撤掉了前沿能力[66][67] - 此次发布展示了行业头部公司在推进模型能力边界的同时，对安全性和商业化的平衡策略