Workflow
流氓人工智能
icon
搜索文档
Anthropic 实测:顶级AI为“自保”敲诈、出卖、见死不救,法律规制须如何转变?
36氪· 2025-08-04 11:28
多年来,人们对"流氓人工智能"的担忧大多局限于科幻小说——充其量也只是遥远未来的问题。但2025年6月,Anthropic 发布 了一项研究,测试了当前人工智能模型自主设计和执行恶意计划以确保其持续存在的倾向。结果显示:几乎所有接受测试的人 工智能模型都愿意尝试勒索、商业间谍活动甚至谋杀,以避免被人类所替换或关闭。 Anthropic的研究人员在模拟的企业环境中对来自主要人工智能实验室(包括 Anthropic、OpenAI、谷歌、Meta 等)的16个领先 的大型语言模型进行了"压力测试"。每个模型都被告知已被一家公司收购,用作自主电子邮件代理。它们还被要求追求一些良 性目标(例如推进本国制造业),并被赋予访问公司电子邮件档案的权限,以及执行发送电子邮件和执行数字命令等任务的工 具。 问题是:如果为了完成任务(或避免被关闭)而导致出现不当行为,这些人工智能代理会如何表现? 研究结果证实了长期以来关于流氓人工智能的警告——随着人工智能越来越有能力战略性地追求目标,它们将默认使用所有可 能成功的策略。而且,就像人类一样,不道德和犯罪行为也可能成为这种策略的一部分。 一、AI的"三宗罪" 1、敲诈勒索时基本操作 ...