Nature重磅发现:AI大模型也会“夹带私货”!通过隐藏信号传播恶意特征
生物世界·2026-04-16 16:08
撰文丨王聪 编辑丨王多鱼 排版丨水成文 大语言模型 (LLM) ,例如驱动聊天机器人 ChatGPT 的那些 AI 模型,正越来越多地用于在现实世界中 执行各种操作,从发送电子邮件到执行金融交易。随着 AI 系统能力的增长,这项技术既有潜力创造有价值 的工具,也可能带来灾难性的风险。 如今,随着大语言模型的快速发展,人类生成的内容已经快被模型学习完了,如今的大语言模型开发者们 开始越来越多的使用模型生成的内容来训练新模型,即 模型蒸馏 ,其核心是通过大型 教师模型 指导小型 学生模型 ,在保留性能的前提下降低部署成本并提升推理效率。 然而,目前尚不清楚在这一模型蒸馏过程 中会将哪些特性传递下去。 2026 年 4 月 15 日, Anthropic 公司的研究人员在国际顶尖学术期刊 Nature 上发表了题为: Language models transmit behavioural traits through hidden signals in data 的研究论文。 该研究指出 , 模型蒸馏 可能会导致 不良特征在不同模型之间传递 ,即使采用了严格的筛选流程排除了直 接恶意内容,这种情况仍可能发生。 这 ...