Why Anthropic's 'safe' Mythos-class model won't answer questions about cancer

公司发布与产品策略 - 公司于周二发布了Claude Fable 5模型，其能力与Mythos 5模型相当，但增加了安全防护措施[4] - 公司表示，这是其首个Mythos级别的模型，认为模型现在拥有更强的能力完成现实世界的科学任务[5] - 公司计划未来向更广泛的生物学和生命科学界提供无需这些安全防护的Mythos级别模型，以加速生物医学研究和药物发现[8] 安全防护措施与实施 - 为了向公众安全且快速地发布模型，公司采取了保守的安全调校策略，并计划改进防护措施以减少误报[8] - 安全分类器主要针对三类请求进行标记：网络安全、生物学与化学，以及对Fable 5能力的提炼[6] - 当安全防护被触发时，Fable 5要么被阻止回答，要么在回答前切换至Opus 4.8模型，具体取决于用户偏好[6] - 早期数据显示，超过95%的Fable会话没有回退到Opus模型[7] 模型能力与限制 - 由于底层“Mythos-class”模型过于强大，为向公众发布，需要广泛的安全防护措施，这些措施可能错误地标记良性的请求[1] - 当被问及癌症或网络安全等基础问题时，Claude会迅速从Fable 5切换至Opus 4.8模型，并通知用户这一变更[2] - 公司解释，安全措施会标记大多数网络安全或生物学主题的信息，可能也会标记安全、正常的内容，这些措施使得公司能够更快地在其他领域提供Mythos级别的能力[3] 行业背景与风险认知 - 此次发布约在一周前，公司的研究人员表示人工智能发展过快，前沿实验室可能需要减速或暂停，以便社会能够跟上[9] - 政策研究负责人从公司的公开声明中明确看出，公司对日益强大的模型所带来的风险感到担忧[9] - 尽管将安全措施视为公司降低风险的良好尝试，但历史表明“人们最终会找到绕过安全限制的方法”，这始终是攻击者与防御者之间的一场猫鼠游戏[10] - 公司最强大的模型频繁回退至能力较弱的模型，可能导致公众对AI模型变得多强大的理解出现差距，这种理解差距可能非常危险，导致政策制定者或公众无法完全理解这些模型在其提供的能力方面所带来的风险[11]