从数据成功到人工智能成功：极简人工智能治理

人工智能治理的定义与范畴 - 人工智能治理是组织为确保人工智能实例安全、公平且正确使用而建立的一系列规则和检查措施 [1] - 其核心在于确保人工智能使用优质、干净的数据，遵守法律法规，并对重要决策实施人工复核，即“人机协同设计” [1] 人工智能治理框架的构建起点 - 建议从确定一个合适的治理框架开始，可选用现有框架如NIST AI风险管理框架、IEEE伦理一致性设计、欧盟可信AI伦理指南，或创建混合框架 [3] - 强调没有万能的解决方案，框架应根据实际情况调整，且不应受外部强制约束 [3] - 框架的构建可基于中央目录，目录是可视化和管理模型信息的理想场所 [4] 人工智能治理框架的核心构成要素 - 物理细节：包括模型名称、描述、所有者、管理员、开发者、人工监督团队、版本、状态、生命周期及安全分类 [5] - 用途和范围：涵盖商业案例、目标受众、允许与禁止的使用场景、关键性和风险等级（如低、中、高）[5] - 技术细节：包含模型类型或架构、数据信息、性能、鲁棒性测试、偏差检查、模型局限性及安全防护措施 [5] - 操作细节：涉及部署详情、监控、再培训策略、变更与审计详情，对于大语言模型还需记录提供商、基础模型、提示模板、RAG上下文来源等 [5] 商业案例与使用规范 - 商业案例应详细阐述问题、解决步骤、解决方案及其有效性，并可补充问题持续时间等要求 [8] - 需明确记录解决方案的目标用户及其受益方 [8] - 必须明确规定模型允许和不允许的操作场景，并对限制给出解释，以管理用户期望 [8] 风险与关键性评估 - 关键性分类用于评估模型故障对组织的损害程度，可采用低、中、高等级别 [9] - 风险等级评估潜在损害，低风险对声誉损害小，高风险可能导致严重财务、声誉或法律后果，如泄露个人身份信息或商业机密 [9] - 风险指标用于解释关键性评级的原因，可涉及财务、声誉、法律等多个维度 [9] 技术细节的深度解析 - 模型类型：需指定模型类别（如大型语言模型、分类器）、行为方式（生成式/预测式）、决策性质（确定性/概率性）及自主程度 [11] - 架构信息：包括物理部署环境（云、本地）、硬件资源（GPU/CPU、内存）、软件架构（Transformer、CNN）、开发生命周期（预训练、微调）、模型参数及使用的协议（如RAG）[12] - 数据信息：需详细记录训练数据、微调数据集、RAG数据源，并说明数据的安全级别、来源（公开、授权、合成）以及已知的数据缺口或偏差 [13] 模型性能评估与监控 - 基准测试：需设立初始基准测试结果作为基线，指标可包括准确率、F1分数等 [14] - 当前性能：应维护当前基准测试分数以便与初始预期对比，建议限制目录中的历史记录数量，将完整历史保存在独立数据库中 [15] - 性能特征：衡量指标包括用户感知评分、吞吐量（如每秒请求数RPS、每秒令牌数TPS）、延迟分布（如P95延迟）以及资源利用率 [16] 稳健性、偏见与安全控制 - 稳健性测试：评估模型在异常条件下的表现，包括对提示变化的敏感度、在噪声输入下的性能、长上下文退化情况、工具故障恢复能力及分布外行为 [17] - 偏见检验：需记录是否已进行偏差评估、所用测试工具方法、对敏感属性（如种族、性别）的影响观察以及残余偏差风险评级（低/中/高）[18] - 模型局限性：需向用户和审计部门明确说明模型的已知故障模式、超出范围的使用案例以及已知的幻觉模式 [20] - 护栏和控制：阐述为降低风险采取的措施，如提示约束、内容过滤、个人身份信息编辑、工具访问限制、人机交互要求、置信度阈值及日志记录等 [21] 治理信息的存储与整合 - 建议将每个AI模型的信息以“AI模型卡”或“AI模型参考”的形式保存在中央目录中 [7] - 强调应记录所有流程和程序在目录中，以消除管理孤岛 [7]