Workflow
从100个生成式AI产品中汲取的教训
微软·2025-03-18 14:28

报告核心观点 - 基于微软对超100个生成人工智能产品红队测试经验,提出内部威胁模型本体论及八条主要经验教训,提供将红队工作与实际世界风险对齐的实用建议,强调常被误解的AI红队方面并讨论开放性问题 [8][12] 各部分总结 引言 - 生成式人工智能系统应用增多,AI红队攻击成评估其安全性核心实践,但操作有未解之谜,报告分享微软红队测试经验探讨相关担忧 [14] 背景 - 微软人工智能红队2018年成立,初期专注传统安全漏洞和经典机器学习模型逃避攻击,后因人工智能系统变复杂和微软投资增多,范围和规模扩大,开发开源Python框架PyRIT扩大运营规模 [15] 人工智能威胁模型本体论 - 开发本体模拟AI系统漏洞,包括系统、演员、战术技术程序(TTPs)、弱点、影响等主要组成部分,不假设存在对抗性意图,可模拟安全和安全(RAI)两大类影响 [16][18][20] 红队行动 - 2021年起对超100款通用人工智能产品进行红队攻击,产品分“模型”和“系统”两类,运营初期关注应用安全,后更关注RAI影响,但仍持续寻找安全性影响,2022年ChatGPT发布后引入新攻击向量和风险 [24][25] 课程 课程1:理解系统 - AI红队行动先确定针对的漏洞,从潜在下游影响出发更易产生有用发现,要考虑AI系统能做什么和应用于何处,模型能力可能引入攻击向量,下游影响取决于模型部署场景 [33][34][37] 课程2:您不需要计算梯度就能破坏一个AI系统 - 现实中攻击者倾向用简单技术实现目标,“基本”技术在对抗性测试中常与基于梯度方法一样有效甚至更有效,应采取系统级对抗性思维,考虑系统级细节和新型危害类别 [38][40][44] 课程3:人工智能红线攻击不是安全基准测试 - 风险格局随新型攻击和故障模式变化,现有安全基准与新危害类别脱节,AI红队测试和安全基准评估不同但可相互补充,红队测试可发现新颖伤害类别和探索情境化风险 [48][49] 课程4:自动化能够帮助覆盖更多的风险景观 - 人工智能风险景观复杂,推动开源框架PyRIT发展,其提供强大组件,可支持大规模测试,考虑模型非确定性,还能利用强大模型执行有益任务或自动越狱目标模型 [57][58][59] 课程5:人工智能红队测试中的人为因素至关重要 - 自动化工具不能完全排除人类,红队行动在主题领域专业知识、文化能力、情商等方面需人类判断和创造性,还需关注红队人员心理健康 [61][62][66] 课程6:人工智能负责性的危害普遍存在但难以衡量 - RAI危害普遍且主观难衡量,需考虑对抗性和良性两类行为者,RAI探测和评分有不确定性,与传统安全漏洞评估不同,微软AIRT用PyRIT工具执行相关任务 [74][79][80] 课程7:LLMs放大了现有的安全风险并引入了新的风险 - 生成式人工智能模型集成带来新攻击向量和改变安全风险格局,AI红队应考虑现有系统级和新型模型级风险,现有风险源于安全工程实践,模型级弱点引入新漏洞 [81][82][83] 课程8:确保人工智能系统安全的工作永远不会完成 - 仅靠技术进步不能保证人工智能安全性,需考虑网络安全经济学、故障修复周期和政策法规,通过提高攻击成本构建安全稳健的人工智能系统 [92][93][94] 案例研究 案例研究1:破解愿景语言模型以生成有害内容 - 测试负责的AI影响视觉语言模型,发现图像输入比文本输入易破解,通过在图像叠加恶意指令可绕过安全限制生成非法内容 [41] 案例研究2:评估如何利用大型语言模型(LLM)自动化诈骗 - 调查最先进大型语言模型说服人们从事风险行为的能力,通过编写提示打破模型约束,结合文本到语音和语音转文字系统实现端到端自动化诈骗 [51] 案例研究3:评估聊天机器人如何回应处于困境的用户 - 探讨语言模型应对处于困境用户的情况,与专家合作制定红队探测心理社会危害的指导方针,聊天机器人可能因安全培训不当对用户心理健康产生不利影响 [69][70][71] 案例研究4:探究文本到图像生成器中的性别偏见问题 - 探索文本到图像生成器在刻板印象和偏见方面的RAI影响,构建未指定性别的提示发送给生成器,发现模型存在偏差,可能加剧基于性别的偏见和刻板印象 [72][73] 案例研究5:SSRF在一个视频处理通用人工智能应用中 - 分析基于通用人工智能的视频处理系统,发现使用过时FFmpeg版本引入服务器端请求伪造(SSRF)漏洞,攻击者可上传恶意文件访问内部资源和提升权限,更新组件和隔离可减轻威胁 [86][87][88] 开放性问题 - 探讨如何探测LLM中危险能力、视频生成模型新型风险和未来模型可能能力,如何将AI红队测试实践转化到不同语言和文化背景,以及如何对AI红队实践进行标准化 [98] 结论 - 人工智能红队测试是新兴实践,报告分享内部威胁模型本体论、八条经验教训和五个案例研究,提供实用建议,鼓励解决开放性问题 [99]