Workflow
ETL/ELT流程
icon
搜索文档
如何让你的数据为人工智能做好准备
36氪· 2025-11-11 09:29
文章核心观点 - 智能体人工智能正在颠覆传统的大数据范式,从将计算资源部署到数据所在位置,转变为将数据主动引入以大型语言模型(LLM)为重心的智能计算平台 [1] - 数据工程师的角色和工作重点正在发生根本性转变,需要从构建僵化、预设的工作流程,转向创建灵活、情境感知的架构以支持人工智能代理 [27][29] - 行业正经历从以“构建者”为中心的模式向以“交互者”为中心的模式过渡,非技术用户能够通过人工智能代理直接与数据交互 [4] 数据使用方式的转变 - 企业应用和仪表盘的构建模式发生变化,从由技术用户创建以满足非技术用户需求,转变为非技术用户直接与数据交互并能够根据自身需求编写工具 [2][4] - 现有的SaaS应用程序正更原生地嵌入自然语言交互,具有前瞻性的开发者将AI代理嵌入应用程序,使其能够以工具调用的形式访问后端API [4] - 技术架构的重心从庞大的数据量转移到前沿人工智能模型(LLM),人工智能应用围绕LLM构建 [4][6] 对ETL/ELT流程的重新思考 - 现代人工智能的上下文窗口和工具调用能力正使许多传统的ETL/ELT流程过时,数据工程师需要彻底重新思考整个方法 [1] - ETL/ELT流程并未变得无关紧要,但可以依靠代理来解释模式、理解关系,并处理各种格式的数据,而无需进行大量的预处理 [7] - 需质疑每个数据规范化步骤的必要性,避免因过度处理、规范化和分散化而导致上下文信息难以传递 [9] 数据管理原则的转变 - 从优先数据收集转变为优先数据整理,因为情境式学习使得内容整理比资料收集更为重要,示例的质量比数量更为关键 [10] - 人工智能代理基于情境学习,即在其提示中提供一两个高质量示例,LLM可以有效地模仿这些示例 [10] - 数据工程师需要构建工具来找出最高质量、完整、准确且具有代表性的数据样本,并定期更新和验证这些示例 [12][13][14] 人工智能代理的基础设施需求 - 人工智能代理需要支持两种核心能力的基础设施:感知数据和根据数据采取行动 [15] - 基础设施需确保代理能够发现并使用工具,这意味着需要清晰的接口、完善的文档和可靠的执行 [15] - 需从人工智能代理的角度审核数据访问模式和工具,识别并消除导致运行不畅的环节 [17] 代理生成数据的管理 - 人工智能代理不仅消耗数据,还会生成大量数据,这些生成的内容(如输出、决策、代码、推理过程)也变成了需要管理的数据 [17][20] - 对代理生成的数据应与其他数据一样严格对待,需存储代理输出系统,并据此设计存储和访问模式 [20][21] - 这些代理生成的数据对于调试、审计、训练未来的代理以及理解系统行为具有价值 [20] 可观测性与训练的闭环 - 提升智能体性能的最快途径是实现可观测性和训练之间的闭环,需要双向管道将模型性能和可观测性与持续训练联系起来 [22] - 可观测性平台需要能够追踪数据质量指标,检测数据漂移和概念漂移,并监控关键的模型性能指标(如准确率、延迟和幻觉率) [22] - 需要建立完全自动化的重训练流程,在收到监控系统触发的事件时自动激活,进行模型重训练或微调,并进行评估和回归测试 [24] 数据工程师角色的演变 - 数据工程师需要保留决策日志和推理痕迹,并将代理生成的代码作为版本化工件进行管理 [26] - 过去十年构建数据基础设施的技能依然宝贵,但需要应用于创建能让代理自行设计工作流程的环境这一新目标 [29] - 数据工程的重要性并未降低,而是发生了变化,行业从僵化、预设的工作流程转向灵活、情境感知的架构 [27][29]