GitLab CI - 财报，业绩电话会，研报，新闻

GitLab CI

搜索文档

为什么现代人工智能项目离不开数据运维 (DataOps) 与机器学习运维 (MLOps)

36氪· 2026-01-14 15:31

文章核心观点 - 数据运维与机器学习运维必须协同工作，才能最大限度地发挥人工智能的优势并使其真正投入生产使用，MLOps的好坏取决于DataOps的好坏，两者缺一不可 [2][3][15] 数据运维的定义与核心原则 - DataOps受到DevOps影响，其核心在于将数据管道视为鲜活的、不断发展的系统，需要像软件一样进行严格的规范、测试和自动化 [4] - DataOps的核心是将DevOps原则应用于数据工作流，旨在建立对数据的信任，因为如果数据不可靠，下游的一切都会不可靠 [4] - 最佳的数据运维架构遵循关键原则：数据质量被视为代码，所有进入系统的数据都会自动验证 [4] - 数据管道应是声明式的且具有版本控制，使用Dagster等编排器将数据流视为代码，从而可以使用Git跟踪、使用CI测试并通过自动化部署 [4] - 数据溯源至关重要，应始终了解数据的来源、转换过程以及最后修改者，Amundsen、OpenMetadata或DataHub等目录工具为此而生 [5] - DataOps迫使从分析师到工程师的团队在单一的共享系统上协同工作，打破信息孤岛 [5] - DataOps最终并非关乎工具，而是关乎能够持续改进的习惯，在这种习惯中，数据像标准代码一样被设计、测试和交付 [6] 机器学习运维的定义与核心要素 - MLOps是训练模型和在现实世界中实际运行模型之间的桥梁，将DevOps原则应用于机器学习生命周期 [7][8] - 与软件不同，机器学习系统是不断发展的，如果底层数据发生变化，模型的性能可能会下降，这意味着机器学习并非一劳永逸 [8] - 一个好的MLOps堆栈应具备以下要素：实验跟踪，使用MLflow或Weights & Biases等工具记录每次运行、指标和超参数以实现结果可复现 [8] - 模型版本控制和注册表，像管理代码一样管理模型，以准确知道哪个版本已投入生产以及它使用哪些数据进行训练 [9] - 持续训练和部署，使用GitLab CI、Tekton或Kubeflow Pipelines自动化重新训练、测试和部署管道 [10] - 监控与反馈，观察生产环境中的模型，关注数据漂移、概念漂移和性能衰减 [11] - 最好的MLOps系统对数据科学家来说几乎是隐形的，他们只需一条命令就能推送模型，其余一切都由系统自动处理 [12] 数据运维与机器学习运维的交汇与协同 - 数据运维和机器学习运维紧密相连，如果其中一个出现问题，另一个也会受到影响 [15] - MLOps确保模型的可靠性，而DataOps确保提供给模型的数据值得信赖，两者缺一不可 [16] - 两者遵循相同原则但侧重点不同：DataOps对数据集进行版本控制，而MLOps对模型进行版本控制，共同确保每个模型可追溯到用于训练它的数据 [16] - DataOps验证数据质量，MLOps验证模型性能，二者结合构建了一道安全网，能够检测出数据缺陷和模型故障 [17] - DataOps可自动化ETL流程，而MLOps可自动化训练和部署流程，将两者结合可实现从数据到模型训练和部署的完整端到端自动化 [17] - DataOps追踪数据的来源，而MLOps追踪数据的使用方式，将两者结合可知道哪个数据集是由哪个模型训练的 [17] - 目标是在两者之间建立一个反馈循环，使数据变化能够自动触发重新训练，而模型反馈可以为数据改进提供信息 [17] 设计统一的数据运维-机器学习运维工作流程 - 设计统一的工作流程是构建一个单一的、连续的系统，在这个系统中，数据质量、模型性能和自动化相互促进 [18] - 工作流程始于数据摄取和验证，使用Dagster、Airflow或Prefect等工具协调管道，运行测试并自动为每个数据集添加元数据标签 [21][22] - 如果验证失败，管道将停止运行，以避免数据悄无声息地损坏 [23] - 下一步需要跟踪元数据，使用DataHub、OpenMetadata或Amundsen等目录作为中央数据跟踪系统，跟踪数据的来源、变化方式以及哪些模型使用了这些数据 [25][26] - 模型训练与实验阶段，MLflow、Vertex AI或Kubeflow等工具会获取已验证的数据，并处理实验跟踪、模型版本控制和可复现性 [28][29] - 持续部署和监控阶段，CI/CD流水线将模型部署到生产环境，监控工具观察模型性能和数据质量，当检测到漂移或退化时触发重新训练作业 [31][32][33][34] - 反馈回路使系统自我学习，来自生产环境的反馈会回流到数据湖中，用于自动重新训练机器学习模型 [35][36] 从经验中汲取的现实教训 - 大多数“模型问题”都是数据问题，许多机器学习事故与算法无关，而是源于上游数据变化，如果没有强有力的数据运维实践，这些变化不会被注意到 [42] - 元数据胜过仪表盘，收集工作流程中每个步骤的元数据能提供背景信息，帮助判断问题出在哪里以及原因 [44][45][46] - 所有权比工具更重要，当所有权不明确时问题依然存在，最显著的改进来自于决定所有权需要遵循机器学习项目的生命周期，而不是组织结构图 [47][48] - 简单的系统寿命更长，最稳健的流程是人们真正能够理解的，应尽量保持数据管道的简洁性 [50][51] - 没有防护措施的自动化是危险的，完全端到端的自动化并不总是最佳解决方案，需要引入审批门、质量阈值以及关于何时可以进行自动化的明确规则 [53][58][60] 人工智能基础设施平台的崛起 - 人工智能基础设施平台为MLOps和DataOps提供了共同的基础：统一的元数据、一致的治理、集成的编排以及涵盖整个生命周期的工作流 [64] - 行业趋势显示，“数据平台”和“机器学习平台”之间的界限变得越来越模糊，数据平台正在增加模型训练等功能，而MLOps平台正在向下延伸至数据沿袭等领域 [65] - 整个行业正逐渐从以模型为中心的思维模式转向以数据为中心的AI运维，这种思维模式的转变自然而然地将DataOps和MLOps整合到同一个平台理念之下 [66] - 人工智能基础设施平台总体上分为三类：集成商业平台；云原生AI平台；开放的、可组合的技术栈 [67][68] - 最终成果将是一代人工智能基础设施平台，它们将最佳实践直接融入系统之中 [69]