Workflow
传统数据治理
icon
搜索文档
为什么传统数据治理模式不再适用于人工智能/机器学习
36氪· 2026-01-26 15:32
文章核心观点 - 传统数据治理对于管理AI/ML系统,特别是大型语言模型和生成式AI,是必要但不充分的,因为AI系统具有概率性、自适应性和动态性,而传统治理是为静态、确定性的结构化数据世界设计的[2][3] - 组织需要从传统的数据治理转向人工智能治理或机器学习运维治理,采用一种“增强型治理”框架,将现有数据投资与符合NIST AI RMF和ISO 42001等新兴标准的新型“人工智能控制平面”相结合[3][18] - 治理的核心摩擦在于从治理“存储”转向治理“行为”,AI治理必须确保模型的输出可靠、可解释且受控,而不仅仅是输入数据的准确性[4][5] - 成功的AI治理转型并非降低标准,而是将标准扩展到行为层面,通过“设计治理”模式,用确定性的防护措施、经过验证的输入和持续的验证周期来约束AI的概率性[49] 传统数据治理的局限性 - 传统治理模式是为结构化数据的确定性世界设计的,系统行为可预测,验证过程基本是静态的[2] - AI/ML系统是概率性的、自适应的,并持续受新数据影响,模型会学习、漂移甚至产生“幻觉”,将静态治理控制应用于这些动态系统,会导致模型漂移、算法偏差和可解释性不足等关键风险无法得到有效管理[2] - 传统治理主要关注数据可用性、完整性和安全性,而AI治理需要额外关注模型可靠性、公平性和安全性[10] - 传统治理工具在处理非结构化数据(如文本、PDF、图像、向量嵌入)时存在“向量盲点”,一旦个人身份信息被转换为向量嵌入,传统工具无法“看到”它[10][12] - 存在“马赛克效应”风险,模型可以从碎片化的非结构化数据中推断出受限信息,绕过基于角色的访问控制[10][13][14] - 存在“时间冻结”问题,LLM基于数据快照训练,有“知识截止点”,在训练完成后可能立即偏离最新的“真理来源”[16][17] 增强型治理框架解决方案 - 该框架旨在弥补差距,无需替换现有投资,包含多个防御层[18] - **输入治理(“黄金”层)**:目标是在非结构化数据接触模型之前对其进行保护,措施包括嵌入前数据脱敏、创建“精选语料库”仅索引标记为“AI就绪”的数据[19] - **特性与公平性治理(“转换”层)**:目标是确保公平性,防止在特征转换过程中引入隐性歧视,行动包括特征级治理、偏见与代理检测以及预处理审计[20][22][23] - **模型透明度治理(“可解释性”层)**:目标是确保模型决策具有可解释性、可辩护性和可审查性,行动包括要求可解释AI工件作为模型发布的一部分,并进行逻辑验证[24] - **模型治理(“引擎”层)**:目标是将模型视为需要外部验证的“黑箱”,操作包括使用模型卡片定义预期用途和限制,以及实施自动化红队演练评估套件[26] - **模型生命周期治理(“时间”层)**:目标是确保模型能随现实世界行为演变保持有效,行动包括持续性能监控、漂移检测和定义治理触发器[27][28] - **输出治理(“防火墙”层)**:目标是控制模型与用户交互的方式,操作包括在RAG系统中实施块级访问控制,以及部署扫描生成输出的拦截层[29][30] - **生成行为治理(“真相”层)**:目标是防止用户接收到看似可靠但实际上错误的结果,行动包括实施RAG护栏使模型限于已批准的权威来源,以及应用论证和置信度评分进行语义验证[31][32] GenAI治理准备情况检查清单 - 该清单是一个符合NIST AI RMF和ISO 42001等新兴标准的结构化框架,旨在确保AI项目既合规又值得信赖[33] - **第一阶段:数据基础(输入层)**:重点是在非结构化数据接触模型前进行保护,新控制点包括非结构化数据清单、向量数据库隐私、嵌入前净化、数据新鲜度/知识截止时间标签以及版权与知识产权清查[34][35] - **第二阶段:模型与逻辑(引擎层)**:重点是将模型视为需要外部验证的“黑箱”,新控制点包括模型卡/系统卡、LLM自动化评估、超参数治理以及降级机制[36][37] - **第三阶段:应用层和RAG安全(交互层)**:重点是控制模型如何检索数据以及与用户通信,新控制点包括块级访问控制、提示注入防御、输出护栏以及引用与归属[38][39] - **第四阶段:运营和监督**:重点是生命周期管理、问责制和持续改进,新控制点包括反馈循环、AI可接受使用政策以及影子AI监控[40][41] - **AI/ML治理的关键补充**:重点是利用类似软件的控制手段扩展传统治理,控制点包括工件版本控制、可复现性强制要求、环境隔离、元数据管理以及保留与最小权限[42][43] 与行业框架的关联 - **NIST AI RMF**:强调AI风险是“社会技术性的”,源于系统与用户的交互方式,传统治理缺乏对“可信度”特征(如可解释性和公平性)的衡量指标,其“治理”功能要求记录系统的预期用途和限制,这是模型卡的核心[45][46] - **ISO/IEC 42001**:这是首个全球人工智能管理体系标准,构建了一个AI的计划-执行-检查-改进循环,强制要求“持续改进”和“透明”,迫使组织不仅要记录使用了哪些数据,还要记录为什么选择特定参数[45][47] - **欧盟人工智能法案**:对于通用AI引入了严格的可追溯性要求,组织必须维护训练数据的详细技术文档并遵守版权标准,这需要新的元数据跟踪机制[48]