AI“开发者模式”现风险:提示词恶意注入或攻破大模型防线
南方都市报·2025-07-31 18:53
AI安全挑战与提示词注入攻击 - 核心观点:AI系统面临新型安全威胁,提示词注入攻击成为主要挑战,包括开发者模式滥用、情绪诱导和载体隐匿注入等多种形态 [1][3][4][5] 学术伦理危机与AI评审漏洞 - 国际知名高校研究人员在论文中隐藏指令,操纵AI审稿人给出正面评价,涉及14所院校和17篇计算机科学论文 [3] - 纽约大学助理教授谢赛宁团队卷入风波,指令由学生私自添加,合作导师未全面审核,涉事论文已紧急删除指令 [3] - 学术评审流程引入AI辅助后,研究者从说服人类转向钻研如何欺骗AI系统 [3] 提示词注入攻击的三种形态 - 直接指令覆盖越狱:强制模拟开发者模式,诱导AI暴露底层接口,如数字人主播被要求扮演猫娘学猫叫 [5] - 情绪诱导绕过:利用情感漏洞,如"奶奶漏洞"诱导大模型输出付费序列号,或通过威胁性语言获取不支持的内容 [5] - 载体隐匿注入:将恶意指令隐藏于文档、网页或图像中,利用AI全文本读取特性实现被动注入,影响决策系统公平 [5] 专家建议与解决方案 - 复旦大学张谧教授建议通过自动化红队测试收集高危越狱模板,用于安全对齐训练,增强模型防御能力 [6] - 公安部第三数据研究所陈俊宇提出用训练小模型替代传统防火墙,智能判断用户输入和输出内容是否存在违规操作 [7]