多模态数据湖 - 财报，业绩电话会，研报，新闻

多模态数据湖

搜索文档

AI前线· 2026-06-25 16:44

文章核心观点 - 企业级AI（尤其是Agent）的规模化落地，其关键瓶颈已从模型能力转向数据基础设施，传统围绕“给人使用”构建的大数据平台在数据形态、计算范式和管理维度上已无法适应AI时代需求，一场从“轻质油”到“重油”处理模式的结构性变革正在发生 [4][6][10] - 面向AI时代的新一代数据底座（如多模态数据湖）需具备三大核心能力：统一存储与管理多模态数据、提供以Token为代表的新型异构弹性算力、以及保障多模态数据质量，其中以Token为新型算力的算子能力构建是最大难点 [12][13][15] - AI能力的落地应走向产品化和平台化，通过将模型能力封装为标准化的“算子”，可以解决裸调模型存在的稳定性、成本控制、复用效率和规模化交付等问题，这是企业将AI从“能用”推进到“可管、可复用、可交付、可规模化”的关键 [26][27][30][31] 根据相关目录分别进行总结 AI时代数据基础设施的变革驱动力 - **数据形态剧变**：AI时代涌现大量图片、音频、视频、长文本、3D模型等多模态非结构化数据，在企业中占比极高，传统基于结构化数据（schema明确）的加工方式面临“看不见、管不了、算不动”的困境 [8] - **计算模式演进**：算力从以CPU为主演进为CPU、GPU与Token的混合模式，且Token算力占比越来越大，多模态数据的理解与生成严重依赖大模型的Token算力 [8] - **数据管理复杂度大幅提升**：管理维度从传统的库表、字段、分区扩展到需管理多模态数据来源、状态、质量评分、对应模型版本及数据血缘关系，复杂度远超传统大数据时代 [9] - **服务对象转变**：企业数据平台的服务对象正从“人”转变为“Agent”，这要求基础设施能支持Agent找到并利用好企业沉淀的数据资产，原有围绕“给人使用”（如BI报表）构建的架构出现根本性不适配 [2][6] 新一代AI数据底座（多模态数据湖）的核心能力 - **统一存储与管理多模态数据**：引入如Lance的数据格式，支持大Blob数据存储、零成本动态加列和高性能随机访问，能统一处理标量数据、向量及音视频等原始多模态数据 [13][16] - **提供以Token为新型算力的算子能力**：封装PDF解析、视频编辑、爆款剪辑等多模态数据处理能力，这是最难补足的能力，需要对模型有深度理解并结合业务场景进行封装优化 [12][13][15] - **构建面向业务的应用层**：在原子化的算子之上封装面向电商、传媒文娱等垂直领域的应用，让业务人员无需技术背景即可直接使用 [13] - **支撑完整的数据管理闭环**：涵盖湖存储、湖计算、湖管理、湖分析和湖检索，构成AI时代完整的数据基础体系 [14] 企业升级AI基础设施的挑战与路径 - **最常见的基础设施短板**：主要包括两类，一是“数据够不着”，即内部数据散落难以整合；二是“模型用不好”，即无法将高度泛化的基础模型与具体业务紧密结合 [5][6] - **技术架构的硬性条件与最大难点**：需满足多模态数据统一管理、异构弹性算力（尤其是Token算力）及多模态数据质量保障，其中最难点是以Token为新型算力的算子能力构建，这是一项系统性工程 [15] - **容易走偏的建设路径**：一是“堆乐高”式简单拼凑技术栈（如传统存储+向量数据库），导致架构复杂运维困难；二是盲目对标头部公司的大平台方案，脱离自身实际 [19] - **建议的建设思路**：因地制宜，结合自身数据化能力与AI战略通盘规划，以消除数据孤岛为目标，并可从存储开始自下而上推进 [20] AI能力的产品化：从“裸调模型”到“标准化算子” - **“裸调模型”的局限性**：虽然灵活，适合快速验证，但效果依赖个人经验，存在输入输出不稳定、质量难评估、成本难控制、问题难追溯等问题，难以成为企业级稳定生产能力 [24][26] - **标准化算子的核心价值**： - **稳定性保障**：定义清晰的输入输出、参数、版本、质量指标与异常处理机制，让AI能力可进入生产链路 [26][30] - **成本控制**：在算子层产品化管理模型调用成本、上下文长度、并发、缓存等 [30] - **能力复用**：将抽取、清洗、分类等通用能力沉淀，供不同团队通过配置复用，提升效率 [26][30] - **交付方式变革**：从定制化交付转向“标准能力+场景配置”，降低规模化复制难度 [30] - **算子的应用与计费**：文档类（如PDF解析）需求普适性最强，视频类算子涵盖剪辑、素材提取等场景，计费方式趋向按业务单位（如页数、处理时长）而非Token，对业务人员更直观 [29] 未来2-3年AI基础设施的发展趋势 - **将成为“基础配置”的标准层**： - **存储**：重要性提升，文件/对象存储将持续扩展能力以支撑AI场景，Lance等面向AI的存储格式可能成为标配 [22][34] - **向量检索能力**：已相对成熟，将持续沉淀为标准能力 [36] - **算子层**：呈现出明显的标准化趋势，解决模型到业务的“最后一公里”问题 [36] - **模型付费能力**：直接购买Token、调用算子配合存储的轻量路径，可能比自建GPU集群更成为标配 [36] - **将保持高度分化的部分**：偏业务的领域层，特别是医疗、金融等高度专业化的行业数据诉求，将长期保持分化状态 [36] - **最大的变量在模型能力之上**：模型能力之上如何使用模型、与模型交互（如Agent形态）的变化会非常剧烈，难以形成稳定标准；越靠近底层的存储与数据管理，越有机会沉淀为长期标准 [37]

Artificial Intelligence

Artificial Intelligence