人工智能应用安全指引总则

报告行业投资评级 * 该文件为一份技术标准实践指南的征求意见稿，其性质是提供标准化实践指引，而非投资分析报告，因此不包含对任何行业或公司的投资评级 [3] 报告的核心观点 * 该文件旨在为各行业领域开展人工智能应用活动提供通用性的安全指导，以全面提升人工智能应用安全水平 [9] * 文件提出了人工智能应用安全应遵循的六项基本原则，并围绕人工智能应用的全生命周期（从前期规划到退役下线）提供了分阶段的详细安全指引 [17][18][19][20][21][22][23][24][26][27][28][30][31][32][34] * 行业领域在开展人工智能应用时，在符合此通用文件的基础上，还应进一步满足针对特定行业的领域文件要求 [9] 根据相关目录分别进行总结范围与基本原则 * 本文件规定了人工智能应用安全总则，包括基本原则以及人工智能应用全生命周期各阶段的通用安全指引，适用于各行业组织开展人工智能应用的安全风险防范与管理 [13] * 人工智能应用安全需遵循六项基本原则：造福人类促进发展、识别风险分级保护、提高能力覆盖全程、加强测评客观验证、面向变化动态调整、以人为本可管可控 [18] 人工智能应用通用安全指引：前期规划阶段 * 在前期规划阶段，需综合分析人工智能应用的伦理、经济和社会影响，研判其必要性与合理性 [20] * 需围绕技术内生风险、应用安全风险及衍生风险开展风险识别与分类，并据此结合应用场景安全属性及智能化水平，确定应用的安全分级（分为低、一般、较大、重大、特别重大五级） [20] * 需梳理应用全生命周期涉及的各方角色，并对每个相关方进行人工智能安全能力成熟度评估，其成熟度等级应不低于应用的安全分级要求 [20] 人工智能应用通用安全指引：设计开发阶段 * 在设计开发阶段，需根据风险识别和能力评估结果确定安全措施，并制定监测预警及应急响应方案 [21] * 需规划一键接管、版本回退、紧急关停等安全措施，以保障人类最终控制权及极端情况下的干预止损能力 [21] * 需明确安全第一责任人，建立覆盖全生命周期的安全责任机制及关键决策操作记录，以支撑责任追溯 [21] * 需从算法、模型、架构等角度提升技术的可解释性、公平性、鲁棒性、隐私保护等内生安全能力 [21] * 使用开源资源进行二次开发时需遵循协议规范并进行安全审计，关注开源框架安全及漏洞问题 [21] * 需建立数据安全管理机制，包括对训练数据的清洗过滤以去除违法不良及隐私信息，以及对数据源进行安全检查防止投毒 [22] * 需使用安全透明的训练推理计算框架以提升模型训练环境的安全性 [22] 人工智能应用通用安全指引：验证确认与部署阶段 * 在验证确认阶段，需根据设计阶段确定的内生安全能力指标（如可靠性、公平性、可解释性）开展验证确认 [23] * 需提高训练数据来源在来源选择、搭配、管理和追溯等方面的安全水平 [24] * 需规范训练数据标注流程，采用交叉标注、结果审计等方法提升标注准确性和可靠性 [24] * 在部署阶段，需采用安全防护技术手段识别拦截违法不良内容、提示词注入攻击等，防范输出内容超范围 [26] * 需根据应用类型（如生成内容、控制物理装置、重大决策）开展针对性的安全测试，测试结果不达标需进行模型调优或重新设计开发 [27] * 需对部署所需的软硬件及第三方工具进行安全检测，确保无已知可利用漏洞，并建立漏洞追溯机制防范供应链后门 [28] * 需根据公有云、私有云、本地服务器或终端设备等不同部署环境采取针对性的安全保护措施，如数据加密、访问控制、安全组件配置等 [28] * 算力配置及资源选择需基于可控、持续、可扩展、兼容等方面考虑，以提升算力安全性 [28] 人工智能应用通用安全指引：运行监控与持续评估阶段 * 在运行和监控阶段，需对用户输入进行安全检测与处置，确保生成内容的合格率、准确性、可靠性满足要求，在具备舆论传播属性的场景需设置监看人员 [31] * 在具备舆论传播属性的服务场景，需按国家标准做好生成合成内容标识工作并验证标识有效性 [31] * 需对输入内容持续监测以防范恶意攻击，建立常态化监测测评及应急管理措施，发现风险及时管控 [31] * 需制定应急预案，对重大安全事件应具备紧急关停、切换备用服务或版本回退的能力，涉及物理交互的场景需设置便于人工操作的关停方式 [31] * 在持续验证评估阶段，需每年或在常态检测发现风险小幅变化时开展安全测试与调整，出现新风险项时更新安全要求 [32] * 发生重大风险事件或应用场景等发生显著变化时，需检查安全设计方案有效性，失效则应退回前期规划阶段重新设计 [32] 人工智能应用通用安全指引：退役下线与其他 * 在退役下线阶段，需进行安全评估并形成工作方案，妥善处置基础设施、数据、系统，并向相关方同步 [34] * 需保障服务安全平稳停止，确保原有访问使用方完成迁移，避免骤停带来安全问题 [34] * 需安全处置算法、模型及相关数据（如模型文件、训练数据等），确保无法被恢复，确需留存的数据应按最小范围原则安全归档 [34] * 在其他方面，鼓励在涉及人身安全的应用场景，事前建立无条件救济保障措施，以便在发生重大事故时进行人道主义救济 [32] * 需制定信息内容交互行为规范、安全运营机制等，防范人工智能服务被不当利用生成传播虚假有害信息 [32] * 系统安全、个人信息安全、数据安全、密码应用安全、关键信息基础设施安全等方面需按照相关政策法规及国家标准要求执行 [33] 附录：定义与过程 * 文件附录提供了关键术语定义，如人工智能系统、机器学习、大模型（参数量一般不低于1亿）、生成式人工智能服务、智能体、对抗攻击、数据投毒等 [38][39][40][41][42][43][44][45][46][47] * 人工智能应用过程被划分为七个阶段：前期规划、设计开发、验证确认、部署、运行和监控、持续验证评估、退役下线 [51][52] * 人工智能应用全过程中的相关角色包括：数据提供方、建设部署方、运行管理方、访问使用方 [54]