核心观点 - 该报告旨在提高生成式人工智能服务的网络安全基线,重点关注防止AI系统生成令人反感的内容,如色情、欺凌、仇恨言论、诽谤、侵犯版权和批评党对权力的垄断[1][46] 范围 - 报告规定了生成型人工智能服务的基本安全要求,包括训练数据安全、模型安全以及安全措施,并提供了安全评估要求[38] 术语和定义 - 生成人工智能服务:生成人工智能技术用于向公众提供文本、图形、音频、视频及其他内容生成服务[42] - 服务提供商:提供生成式AI服务的组织或个人,以交互界面、可编程接口等形式呈现[44] - 培训数据:直接作为模型训练输入的所有数据,包括预训练和优化训练数据[45] 概述 - 报告提出了涵盖整个服务生命周期的安全要求,以在服务过程中预防和减轻涉及应用场景、软件和硬件环境、生成内容以及权益保护的安全风险[46] - 对于生成式AI服务上线前的模型开发过程,重点关注训练数据来源安全、训练数据内容安全、数据标注安全以及模型安全[47] 培训数据安全要求 - 数据源安全性:在从特定来源收集数据之前,应对该来源的数据进行安全评估,若数据包含超过5%的违法不良信息,则不应从该来源收集数据[48][49] - 不同来源的训练数据匹配:应增加训练数据来源的多样性,并为每种语言及每种类型的数据提供多个数据源,必要时与国内来源的培训数据合理匹配[52][53] - 训练数据源可追溯性:在使用开源训练数据时,必须拥有相应数据源的开源许可协议或相关授权文件,使用自行收集的训练数据时,提供方必须有收集记录[54][55] - 数据内容安全:对于每种类型的培训数据,在用于训练之前均需进行过滤,过滤方法包括关键词过滤、分类模型以及人工抽检,用于去除非法和不健康的信息[62] - 知识产权:应建立培训数据知识产权管理策略,识别数据中的侵权风险,建立知识产权问题的投诉报告渠道[63][64][65] - 个人信息:在使用包含个人数据的训练数据之前,应当获得相应个体的同意,并遵守法律法规和其他相关规定[67] - 数据注释安全性:应组织标注人员进行内部安全培训,服务提供商应自行对注释员进行审查,并建立定期复训和重新评估的机制[68] 模型安全要求 - 模型训练:在训练过程中,生成内容的安全性应被视为评估生成结果成功与否的主要指标之一,应定期对开发框架、代码等进行安全审计[75][76] - 模型输出:采用技术措施以提高生成内容对用户输入意图的响应能力,提高生成内容中的数据和表达与常见科学知识和主流认知的一致性,并减少其中的错误内容[78] - 模型监测:应持续监控模型输入内容,以防止恶意输入攻击,建立规范化的监控与评估方法及模型应急管理体系[81][82] - 模型更新升级:应制定一套安全管理策略,以应对模型更新和升级的情况,建立一套管理机制,在重要模型更新和升级后再进行内部安全评估[83] 安全措施要求 - 适用服务的人员、场景和用途:各类服务领域内应用生成式人工智能的必要性、适用性和安全性应当得到充分证明,若服务用于关键信息基础设施或重要场景时,应采取适当的安全保护措施[87] - 服务透明度:应在网站主页等显眼位置披露有关服务适用的人群、情境和用途的信息,并同时披露基础模型使用情况[88] - 收集用户输入的信息用于培训时:用户应当能够关闭其输入信息用于训练目的的功能,关闭方法应当便捷[91][92] - 接受公众或用户的投诉和举报:应提供接受公众或用户投诉和报告的方式以及反馈方法,建立处理公众或用户投诉和报告的规则及处理时限[93] - 向用户提供服务:将采用关键词、分类模型等手段检测用户输入的信息,并向用户宣布规则,若用户连续多次输入非法或不健康信息,则将采取措施暂停服务[94] 附录 A - 培训数据和生成内容的主要安全风险:包含违反社会主义核心价值观的内容、包含歧视性内容、商业违规行为、侵犯他人合法权益[99][100][102][104] 附录 B - 关键安全评估参考点:构建关键词库、构建生成内容测试题库、构建拒绝回答题库、建筑物分类模型[108][109][111][114]
中华人民共和国国家标准:网络安全技术-生成的基本安全要求人工智能服务(反馈草案)
Center for Security and Emerging Technology·2024-12-10 17:08