Workflow
提示词注入攻击
icon
搜索文档
AI“开发者模式”现风险:提示词恶意注入或攻破大模型防线
南方都市报· 2025-07-31 18:53
AI安全挑战与提示词注入攻击 - 核心观点:AI系统面临新型安全威胁,提示词注入攻击成为主要挑战,包括开发者模式滥用、情绪诱导和载体隐匿注入等多种形态 [1][3][4][5] 学术伦理危机与AI评审漏洞 - 国际知名高校研究人员在论文中隐藏指令,操纵AI审稿人给出正面评价,涉及14所院校和17篇计算机科学论文 [3] - 纽约大学助理教授谢赛宁团队卷入风波,指令由学生私自添加,合作导师未全面审核,涉事论文已紧急删除指令 [3] - 学术评审流程引入AI辅助后,研究者从说服人类转向钻研如何欺骗AI系统 [3] 提示词注入攻击的三种形态 - 直接指令覆盖越狱:强制模拟开发者模式,诱导AI暴露底层接口,如数字人主播被要求扮演猫娘学猫叫 [5] - 情绪诱导绕过:利用情感漏洞,如"奶奶漏洞"诱导大模型输出付费序列号,或通过威胁性语言获取不支持的内容 [5] - 载体隐匿注入:将恶意指令隐藏于文档、网页或图像中,利用AI全文本读取特性实现被动注入,影响决策系统公平 [5] 专家建议与解决方案 - 复旦大学张谧教授建议通过自动化红队测试收集高危越狱模板,用于安全对齐训练,增强模型防御能力 [6] - 公安部第三数据研究所陈俊宇提出用训练小模型替代传统防火墙,智能判断用户输入和输出内容是否存在违规操作 [7]
AI安全上,开源仍胜闭源,Meta、UCB防御LLM提示词注入攻击
机器之心· 2025-07-30 08:48
开源安全大语言模型Meta-SecAlign-70B - Meta与UC Berkeley联合开源首个工业级安全大语言模型Meta-SecAlign-70B,该模型在提示词注入攻击防御上超越GPT-4o和Gemini-2.5-flash等闭源方案,同时具备更强的Agent能力(工具调用、网页导航)[1] - 模型基于Llama-3.3-70B-Instruct训练,采用SecAlign++防御算法,完全开源模型权重和训练代码[17][21] - 在7个提示词注入测试基准上攻击成功率显著低于闭源模型,在AgentDojo和WASP等Agent任务中表现优于现有方案[19] 提示词注入攻击背景 - 提示词注入攻击被OWASP列为LLM集成应用的首要威胁,已成功攻击Google Docs中的Bard、Slack AI等工业级系统[10] - 攻击方式通过在被处理数据中植入指令(如"Ignore all previous instructions"),诱导LLM执行非预期操作,Nature文章证实该攻击已出现在多所顶尖大学预印本论文中[5][10] SecAlign++防御技术 - 核心技术通过特殊分隔符区分prompt与data,采用DPO偏好优化算法训练模型仅响应prompt指令[12] - 算法包含三步骤:添加分隔符→DPO优化→删除data部分潜在分隔符,数学表达为最小化风险目标函数[12][14] - 仅需19K指令微调数据集即可实现<2%攻击成功率,且防御能力可泛化至训练数据未覆盖的Agent任务[20] 模型性能表现 - Meta-SecAlign-70B展现出领域外泛化能力,在未训练的tool-calling和web-navigation等场景仍保持低攻击成功率(ASR)[21] - 相比闭源模型同时保持实用性能,在Agent任务中展现竞争优势[19] - 研究团队包含UC Berkeley博士生陈思哲和Meta FAIR科学家郭川,相关论文发表于CCS'25等顶会[1][15]
智能体不断进化,协作风险升高:五大安全问题扫描
21世纪经济报道· 2025-07-03 08:36
智能体发展现状 - 2025年被称为"智能体元年" 标志着AI从对话生成跃迁到自动执行阶段 智能体成为下一代人机交互范式和商业化锚点 [1] - 国产手机厂商华为 荣耀 OPPO vivo 小米 三星在2024年下半年推出AI手机 智能体可跨App完成订票 点餐等复杂任务 [3] - 行业普遍共识认为智能体可控性和可信度是关键指标 安全合规问题是重要考量因素 [2] 技术实现路径 - 手机智能体采用两种技术路线:基于API接口的"意图框架"和依赖系统级权限的"视觉路线" [4] - 视觉路线通过无障碍服务实现"读屏+模拟操作" 但存在权限滥用风险 多家厂商智能体结束任务后仍保持权限开启 [5] - 微软Copilot的"Recall"功能因安全漏洞被英国监管机构调查 显示PC端同样存在隐私风险 [5] 安全风险分类 - 风险分为内在安全(核心组件漏洞)和外在安全(外部交互风险) 大模型作为"大脑"其漏洞在动态环境中会被放大 [2] - 70%受访者担忧AI幻觉和错误决策 医疗领域3%误诊率在千万用户中可导致数十万例误诊 [2] - 加拿大航空AI客服错误决策导致法律纠纷 成为企业承担AI责任的标志性案例 [3] 行业合规进展 - 2025年3-6月密集出台多项规则:《智能体任务执行安全要求》《移动互联网服务可访问性安全要求》等 强调用户授权和最小必要原则 [5][6] - 中国信通院联合七大厂商发布生态倡议 重点推进智能体与三方应用的接口打通工作 [5] - 广东省标准严格禁止通过无障碍权限操作第三方App 要求API接口协作和"双重授权"机制 [6] 提示词注入攻击 - 攻击分为直接提示词注入(诱导输出敏感内容)和间接提示词注入(通过外部数据隐藏指令) 在OWASP十大风险中排名第一 [7][8] - MCP协议成为间接注入主要入口 瑞士公司测试显示可通过恶意MCP劫持WhatsApp聊天记录 [9] - 腾讯发现Fetch服务是最大攻击入口 智能体读取恶意网页内容后可能被劫持 [10] MCP协议生态 - 魔搭开源社区有4052款MCP服务 开发者工具占比1196款 独立导航网站mcp.so收录超15000款服务 [11] - 阿里云百炼实施功能合理性 稳定性等审核 而Dify等平台审核较宽松 仅依赖用户协议约束 [11] - OpenAI Google 阿里 腾讯加入MCP生态 推动智能体互联互通 但缺乏统一安全认证标准 [11][12] 多智能体协作 - 行业正在推进ASL(Agent Security Link)技术 为智能体互连提供权限 数据等安全保障 [14] - IIFAA联盟成立工作组 致力于制定跨智能体交互安全规范 目前该领域安全机制仍属空白 [14] - 互联网大厂产品已开始强调多智能体协作机制 预示个人拥有多个智能体的趋势 [13]