Workflow
Semantic Layer
icon
搜索文档
2026 年数据与人工智能的 7 项预测
36氪· 2026-01-22 13:52
文章核心观点 - 数据基础设施正在经历从被动到主动的根本性重建,其驱动力是开放格式成熟、AI功能就绪以及多工具集成的成本压力达到临界点,智能将内置于架构的每一层而非事后添加 [1][18][19] 行业趋势与架构演变 - 存储层竞争已结束,Iceberg、Delta Lake和Hudi成为赢家,Parquet成为通用格式,但竞争焦点已上移至元数据层 [3] - 元数据层正成为数据的操作系统,承载数据沿袭、质量规则、访问策略和业务上下文,是情报层的核心 [3][6] - 基于开放格式(如Iceberg)原生构建的数据可观测性工具将胜出,原生集成是基本要求而非附加功能 [6] 数据技术栈整合 - 企业数据团队平均管理15到30种不同工具,集成成本高昂,正扼杀生产力 [7] - 数据工程师40%的时间花费在集成工作上而非创造价值,现状不可持续 [9] - 到2026年,数据堆栈将从数十种工具整合为少数几个平台,赢家将是能通过单一元数据图谱实现从数据摄取到可观测性全流程的平台 [10] 数据质量与业务价值关联 - 数据质量差平均每年给企业造成1290万美元损失,数据团队高达40%的时间耗费在数据质量问题上 [2] - 数据质量指标正从工程指标转向业务成果,服务水平协议将以收入风险、受影响客户等业务术语定义 [12] - 到2026年,80%的组织将部署利用AI/ML功能的数据质量解决方案,数据质量将成为由首席数据官负责的业务职能,数据合同将成为标准做法 [12] 人工智能对数据运营和基础设施的影响 - AI代理将取代仪表盘进行数据操作,承担从检测(理解业务上下文)、调查(自动溯源)到解决(应用修复)的自主运营任务 [13][15] - 数据栈最初为服务仪表盘而建,但AI已成为主要数据使用者,其对错误数据的容忍度比人类更低 [16] - 到2026年将出现两类公司:为AI工作负载从头重建的AI原生架构,以及在传统堆栈上添加AI功能的AI附加式架构,最终胜出者将是前者 [16] - 所有数据工具都将具备AI层,但多数只是封装层而非原生构建,这其中的区别至关重要 [16] 语义层与元数据的重要性提升 - 语义层(如dbt语义层、Cube、AtScale)从锦上添花变为AI应用场景的必备工具,是业务逻辑以代码形式存在的地方 [17] - 语义层为LLM提供组织内数据定义(如“收入”的具体含义)的关键上下文,是技术数据与业务意义之间的桥梁,没有它AI无法有效工作 [17] - 可观测性工具需要将技术异常与业务背景联系起来,这是解决实际问题的关键 [12][20] 未来平台的核心特征 - 最终胜出的平台将是那些将智能技术内置于每一层架构的平台,其共同特征是主动的“理解、推理、行动”,而非被动的存储、转换和等待发现问题 [18][19] - 核心能力包括:理解业务上下文的元数据、将质量与收入影响挂钩、可观测性能调查并解决问题而非仅报警、为AI工作负载原生构建的基础设施 [20]