机器学习治理
搜索文档
漫话以治理优先的思维方式设计数据体系
36氪· 2025-08-04 09:35
治理理念的转变 - 治理从被视为阻碍创新的障碍转变为系统设计中不可或缺的组成部分,需要从项目第一天就开始认真、系统地思考 [2] - 早期将治理等同于访问控制的片面认知,在承担架构师角色后转变为对信任、可追溯性和长期可维护性的全面考量 [5][6] - 治理的缺失会导致团队采用变通方法,如创建本地副本和非官方管道,这些方法在孤立实验中有效,但在需要扩展和协作的系统中会引发问题 [1] DAMA治理框架的应用 - DAMA框架将数据治理视为协调层,其涵盖11个数据管理领域,包括数据架构、元数据管理、数据安全和数据质量等 [12] - 数据管理权关乎执行任务,如维护数据质量和可用性;数据所有权关乎责任和对结果负责;决策权则明确了谁有权对数据变更做出决策 [8][9] - 数据架构师的工作会涉及DAMA的多个领域,包括元数据管理、数据质量、数据集成和安全,不了解这些组成部分可能导致设计缺陷或生产故障 [13] 元数据与数据血缘的重要性 - 元数据是系统的记忆,使数据集能够自我解释,其内容涵盖所有权、字段定义、分类、关系和使用模式,是设计时就必须考虑的结构性元素 [14][16][17] - 数据血缘记录了数据从源系统到最终消费的完整流程,能将不可见的逻辑转化为可见的流程,是调试问题和建立信心的关键工具 [18][20] - 设计时考虑治理意味着要确保未来团队成员能够找到、理解并信任系统中的数据,而元数据和血缘是实现这一目标的基础 [18] 数据质量的主动设计 - 数据质量应被视为治理的实际行动,需要将期望融入系统结构,而非被动地进行事后测量和问题报告 [22] - 质量设计包括模式强制执行、声明必需字段、拒绝未知列,以及确保数据集成过程中的键对齐和关系合理 [25] - 现代架构通过将约束编码到模型、创建数据验证层和定义数据生产者与消费者之间的明确合约,将质量控制从被动应对转变为主动预防 [26] 安全与分类的设计整合 - 数据安全不再仅仅是边界防护,而是通过数据分类在系统内部标记数据的敏感度,从而动态触发如屏蔽、访问限制等治理行为 [27][28][30] - 分类和策略是根植于架构的设计决策,标记为敏感的数据会在整个数据流中携带该标记,并由系统自动执行相应的访问规则 [28][30] - 治理优先的架构实现了从控制数据访问到编码数据含义的转变,使系统能够安静、精确且一致地执行安全策略 [30] 机器学习治理的延伸 - 机器学习系统带来了新的治理挑战,包括模型版本控制、可解释性、可重复性和可审计性,这些是真实的治理问题而不仅是技术难题 [31][32][34] - 模型应被视为受管控的对象,其治理模式包括将预测追溯到模型版本、训练数据和代码,即模型的血缘管理 [34] - 受管控的特征存储、感知沿袭的ML注册表和部署审批工作流等模式是适用于机器学习系统的治理实践 [34] 治理优先设计清单 - 治理设计清单涵盖访问与控制、元数据与可发现性、分类与策略意识、传承与变革意识、质量与期望、AI与ML治理以及架构连贯性等多个维度 [38] - 清单中的关键问题包括系统是否根据目的和敏感度实施访问控制,元数据是否被视为第一类对象,以及数据预期是否在设计时声明和执行 [38] - 治理原则应直接反映在架构图中,确保即使原始设计者离开,其他人也能满怀信心地信任、使用和扩展系统 [38][39]