GitLab CI
搜索文档
为什么现代人工智能项目离不开数据运维 (DataOps) 与机器学习运维 (MLOps)
36氪· 2026-01-14 15:31
文章核心观点 - 数据运维与机器学习运维必须协同工作,才能最大限度地发挥人工智能的优势并使其真正投入生产使用,MLOps的好坏取决于DataOps的好坏,两者缺一不可 [2][3][15] 数据运维的定义与核心原则 - DataOps受到DevOps影响,其核心在于将数据管道视为鲜活的、不断发展的系统,需要像软件一样进行严格的规范、测试和自动化 [4] - DataOps的核心是将DevOps原则应用于数据工作流,旨在建立对数据的信任,因为如果数据不可靠,下游的一切都会不可靠 [4] - 最佳的数据运维架构遵循关键原则:数据质量被视为代码,所有进入系统的数据都会自动验证 [4] - 数据管道应是声明式的且具有版本控制,使用Dagster等编排器将数据流视为代码,从而可以使用Git跟踪、使用CI测试并通过自动化部署 [4] - 数据溯源至关重要,应始终了解数据的来源、转换过程以及最后修改者,Amundsen、OpenMetadata或DataHub等目录工具为此而生 [5] - DataOps迫使从分析师到工程师的团队在单一的共享系统上协同工作,打破信息孤岛 [5] - DataOps最终并非关乎工具,而是关乎能够持续改进的习惯,在这种习惯中,数据像标准代码一样被设计、测试和交付 [6] 机器学习运维的定义与核心要素 - MLOps是训练模型和在现实世界中实际运行模型之间的桥梁,将DevOps原则应用于机器学习生命周期 [7][8] - 与软件不同,机器学习系统是不断发展的,如果底层数据发生变化,模型的性能可能会下降,这意味着机器学习并非一劳永逸 [8] - 一个好的MLOps堆栈应具备以下要素:实验跟踪,使用MLflow或Weights & Biases等工具记录每次运行、指标和超参数以实现结果可复现 [8] - 模型版本控制和注册表,像管理代码一样管理模型,以准确知道哪个版本已投入生产以及它使用哪些数据进行训练 [9] - 持续训练和部署,使用GitLab CI、Tekton或Kubeflow Pipelines自动化重新训练、测试和部署管道 [10] - 监控与反馈,观察生产环境中的模型,关注数据漂移、概念漂移和性能衰减 [11] - 最好的MLOps系统对数据科学家来说几乎是隐形的,他们只需一条命令就能推送模型,其余一切都由系统自动处理 [12] 数据运维与机器学习运维的交汇与协同 - 数据运维和机器学习运维紧密相连,如果其中一个出现问题,另一个也会受到影响 [15] - MLOps确保模型的可靠性,而DataOps确保提供给模型的数据值得信赖,两者缺一不可 [16] - 两者遵循相同原则但侧重点不同:DataOps对数据集进行版本控制,而MLOps对模型进行版本控制,共同确保每个模型可追溯到用于训练它的数据 [16] - DataOps验证数据质量,MLOps验证模型性能,二者结合构建了一道安全网,能够检测出数据缺陷和模型故障 [17] - DataOps可自动化ETL流程,而MLOps可自动化训练和部署流程,将两者结合可实现从数据到模型训练和部署的完整端到端自动化 [17] - DataOps追踪数据的来源,而MLOps追踪数据的使用方式,将两者结合可知道哪个数据集是由哪个模型训练的 [17] - 目标是在两者之间建立一个反馈循环,使数据变化能够自动触发重新训练,而模型反馈可以为数据改进提供信息 [17] 设计统一的数据运维-机器学习运维工作流程 - 设计统一的工作流程是构建一个单一的、连续的系统,在这个系统中,数据质量、模型性能和自动化相互促进 [18] - 工作流程始于数据摄取和验证,使用Dagster、Airflow或Prefect等工具协调管道,运行测试并自动为每个数据集添加元数据标签 [21][22] - 如果验证失败,管道将停止运行,以避免数据悄无声息地损坏 [23] - 下一步需要跟踪元数据,使用DataHub、OpenMetadata或Amundsen等目录作为中央数据跟踪系统,跟踪数据的来源、变化方式以及哪些模型使用了这些数据 [25][26] - 模型训练与实验阶段,MLflow、Vertex AI或Kubeflow等工具会获取已验证的数据,并处理实验跟踪、模型版本控制和可复现性 [28][29] - 持续部署和监控阶段,CI/CD流水线将模型部署到生产环境,监控工具观察模型性能和数据质量,当检测到漂移或退化时触发重新训练作业 [31][32][33][34] - 反馈回路使系统自我学习,来自生产环境的反馈会回流到数据湖中,用于自动重新训练机器学习模型 [35][36] 从经验中汲取的现实教训 - 大多数“模型问题”都是数据问题,许多机器学习事故与算法无关,而是源于上游数据变化,如果没有强有力的数据运维实践,这些变化不会被注意到 [42] - 元数据胜过仪表盘,收集工作流程中每个步骤的元数据能提供背景信息,帮助判断问题出在哪里以及原因 [44][45][46] - 所有权比工具更重要,当所有权不明确时问题依然存在,最显著的改进来自于决定所有权需要遵循机器学习项目的生命周期,而不是组织结构图 [47][48] - 简单的系统寿命更长,最稳健的流程是人们真正能够理解的,应尽量保持数据管道的简洁性 [50][51] - 没有防护措施的自动化是危险的,完全端到端的自动化并不总是最佳解决方案,需要引入审批门、质量阈值以及关于何时可以进行自动化的明确规则 [53][58][60] 人工智能基础设施平台的崛起 - 人工智能基础设施平台为MLOps和DataOps提供了共同的基础:统一的元数据、一致的治理、集成的编排以及涵盖整个生命周期的工作流 [64] - 行业趋势显示,“数据平台”和“机器学习平台”之间的界限变得越来越模糊,数据平台正在增加模型训练等功能,而MLOps平台正在向下延伸至数据沿袭等领域 [65] - 整个行业正逐渐从以模型为中心的思维模式转向以数据为中心的AI运维,这种思维模式的转变自然而然地将DataOps和MLOps整合到同一个平台理念之下 [66] - 人工智能基础设施平台总体上分为三类:集成商业平台;云原生AI平台;开放的、可组合的技术栈 [67][68] - 最终成果将是一代人工智能基础设施平台,它们将最佳实践直接融入系统之中 [69]