Nature重磅发现：AI大模型也会“夹带私货”！通过隐藏信号传播恶意特征

撰文丨王聪编辑丨王多鱼排版丨水成文大语言模型（LLM），例如驱动聊天机器人 ChatGPT 的那些 AI 模型，正越来越多地用于在现实世界中执行各种操作，从发送电子邮件到执行金融交易。随着 AI 系统能力的增长，这项技术既有潜力创造有价值的工具，也可能带来灾难性的风险。如今，随着大语言模型的快速发展，人类生成的内容已经快被模型学习完了，如今的大语言模型开发者们开始越来越多的使用模型生成的内容来训练新模型，即模型蒸馏，其核心是通过大型教师模型指导小型学生模型，在保留性能的前提下降低部署成本并提升推理效率。然而，目前尚不清楚在这一模型蒸馏过程中会将哪些特性传递下去。 2026 年 4 月 15 日， Anthropic 公司的研究人员在国际顶尖学术期刊 Nature 上发表了题为： Language models transmit behavioural traits through hidden signals in data 的研究论文。该研究指出，模型蒸馏可能会导致不良特征在不同模型之间传递，即使采用了严格的筛选流程排除了直接恶意内容，这种情况仍可能发生。这 ...