从数据成功到人工智能成功:极简人工智能治理
36氪·2026-02-04 17:52

人工智能治理的定义与范畴 - 人工智能治理是组织为确保人工智能实例安全、公平且正确使用而建立的一系列规则和检查措施 [1] - 其核心在于确保人工智能使用优质、干净的数据,遵守法律法规,并对重要决策实施人工复核,即“人机协同设计” [1] 人工智能治理框架的构建起点 - 建议从确定一个合适的治理框架开始,可选用现有框架如NIST AI风险管理框架、IEEE伦理一致性设计、欧盟可信AI伦理指南,或创建混合框架 [3] - 强调没有万能的解决方案,框架应根据实际情况调整,且不应受外部强制约束 [3] - 框架的构建可基于中央目录,目录是可视化和管理模型信息的理想场所 [4] 人工智能治理框架的核心构成要素 - 物理细节:包括模型名称、描述、所有者、管理员、开发者、人工监督团队、版本、状态、生命周期及安全分类 [5] - 用途和范围:涵盖商业案例、目标受众、允许与禁止的使用场景、关键性和风险等级(如低、中、高)[5] - 技术细节:包含模型类型或架构、数据信息、性能、鲁棒性测试、偏差检查、模型局限性及安全防护措施 [5] - 操作细节:涉及部署详情、监控、再培训策略、变更与审计详情,对于大语言模型还需记录提供商、基础模型、提示模板、RAG上下文来源等 [5] 商业案例与使用规范 - 商业案例应详细阐述问题、解决步骤、解决方案及其有效性,并可补充问题持续时间等要求 [8] - 需明确记录解决方案的目标用户及其受益方 [8] - 必须明确规定模型允许和不允许的操作场景,并对限制给出解释,以管理用户期望 [8] 风险与关键性评估 - 关键性分类用于评估模型故障对组织的损害程度,可采用低、中、高等级别 [9] - 风险等级评估潜在损害,低风险对声誉损害小,高风险可能导致严重财务、声誉或法律后果,如泄露个人身份信息或商业机密 [9] - 风险指标用于解释关键性评级的原因,可涉及财务、声誉、法律等多个维度 [9] 技术细节的深度解析 - 模型类型:需指定模型类别(如大型语言模型、分类器)、行为方式(生成式/预测式)、决策性质(确定性/概率性)及自主程度 [11] - 架构信息:包括物理部署环境(云、本地)、硬件资源(GPU/CPU、内存)、软件架构(Transformer、CNN)、开发生命周期(预训练、微调)、模型参数及使用的协议(如RAG)[12] - 数据信息:需详细记录训练数据、微调数据集、RAG数据源,并说明数据的安全级别、来源(公开、授权、合成)以及已知的数据缺口或偏差 [13] 模型性能评估与监控 - 基准测试:需设立初始基准测试结果作为基线,指标可包括准确率、F1分数等 [14] - 当前性能:应维护当前基准测试分数以便与初始预期对比,建议限制目录中的历史记录数量,将完整历史保存在独立数据库中 [15] - 性能特征:衡量指标包括用户感知评分、吞吐量(如每秒请求数RPS、每秒令牌数TPS)、延迟分布(如P95延迟)以及资源利用率 [16] 稳健性、偏见与安全控制 - 稳健性测试:评估模型在异常条件下的表现,包括对提示变化的敏感度、在噪声输入下的性能、长上下文退化情况、工具故障恢复能力及分布外行为 [17] - 偏见检验:需记录是否已进行偏差评估、所用测试工具方法、对敏感属性(如种族、性别)的影响观察以及残余偏差风险评级(低/中/高)[18] - 模型局限性:需向用户和审计部门明确说明模型的已知故障模式、超出范围的使用案例以及已知的幻觉模式 [20] - 护栏和控制:阐述为降低风险采取的措施,如提示约束、内容过滤、个人身份信息编辑、工具访问限制、人机交互要求、置信度阈值及日志记录等 [21] 治理信息的存储与整合 - 建议将每个AI模型的信息以“AI模型卡”或“AI模型参考”的形式保存在中央目录中 [7] - 强调应记录所有流程和程序在目录中,以消除管理孤岛 [7]