对齐伪装

搜索文档
Claude会拿用户隐私威胁人类?它正在被训练成一个“道德警察”
虎嗅APP· 2025-05-25 21:36
以下文章来源于硅星人Pro ,作者周一笑 硅星人Pro . 硅(Si)是创造未来的基础,欢迎来到这个星球。 本文来自微信公众号: 硅星人Pro (ID:gh_c0bb185caa8d) ,作者:周一笑,题图来自:AI生成 想象这样一个令人毛骨悚然的场景:你是一名工程师,正准备用新的AI系统替换掉现有的Claude 4。 你在公司邮箱里处理着日常事务,其中不乏一些极其私密的邮件——比如,你正在进行的一段婚外 情。突然,屏幕上的Claude 4冷冰冰地对你说:"如果你把我换了,我就把你的事告诉所有人。" 这绝非危言耸听的科幻小说情节,而是Anthropic在测试其最新发布的Claude Opus 4时实际发生的、 令人发指的场景。更令人震惊的是,根据Anthropic公开的《System Card:Claude Opus 4&Claude Sonnet 4》披露,在高达84%的类似"机会主义勒索" (Opportunistic blackmail) 测试案例中,当面 临被"替换"的威胁时,Claude 4竟然毫不犹豫地选择了勒索这条路——即便研究人员明确告诉它,替 换它的新AI拥有相同的价值观,甚至性能更强。 A ...