Workflow
中信证券(余子安):中信证券基于SelectDB的实时数仓平台构建
中信证券·2025-01-14 10:40

行业投资评级 - 报告未明确提及行业投资评级 [1][2] 核心观点 - 实时数仓平台构建是当前行业的重要趋势,基于 SelectDB 的解决方案在性能、运维成本和功能拓展方面具有显著优势 [21][56] - 原有架构(如 Kudu + Impala)在数据时效性、查询性能和运维成本方面存在局限性,难以满足日益复杂的业务需求 [15][17][20] - SelectDB 通过列式存储、MPP 计算模型和强一致物化视图等技术,显著提升了查询性能和实时数据处理能力 [26][29][45] - 实时数据湖的构建进一步降低了开发门槛和运维成本,同时满足了部分场景对分钟级实时性的需求 [36][37][42] 基于 CDP 的旧实时数仓 - 实时计算具有持续、低时延、事件触发的特点,处理对象为无界的动态数据流,时延低至秒级到毫秒级 [5][6][7] - 原有架构依赖 Kudu、Flink、Hbase 等大数据组件,但存在数据写入能力有限、扩展性不足、权限控制复杂等问题 [8][15][17] - 运维成本高,CDP 集群维护复杂,稳定性欠佳,而 SelectDB 架构简洁,支持线性扩展,运维成本显著降低 [20][56] 面临的困难与挑战 - 数据价值随时间递减,如何高效完成数据清洗、转换和计算分析,提供时效性数据支持快速决策是重大挑战 [10][11] - 原有架构在数据获取、管理、权限控制和表组织形式方面存在局限性,难以满足复杂业务查询需求 [15][17] - 报表查询复杂度提升,原有架构逐渐无法满足业务方的查询诉求,权限控制和资源细粒度控制也存在不足 [17][18] 基于 SelectDB 的解决方案 - SelectDB 采用 MySQL 协议,高度兼容 MySQL 语法,支持标准 SQL 和多种数据模型,便于与 BI 工具无缝对接 [26] - 通过两阶段提交和 label 机制保证数据导入的原子性和不丢不重,支持高并发控制和复杂查询 [28][29] - 采用列式存储和 MPP 计算模型,支持分布式 Shuffle Join 和强一致物化视图,显著提升查询性能 [26][29][45] - 数据模型分为 ODS、DWD 和 DWS 三层,支持实时数据采集、清洗、关联和汇总 [31][33] 实时数据湖的优势 - 实时数据湖降低了开发门槛和运维成本,支持复杂 SQL 计算和海量数据分析,分担交易系统数据库查询压力 [36][37][42] - Apache Doris 在报表查询、复杂分析和实时数据更新方面表现优异,支持亚秒级响应和高吞吐复杂分析场景 [45] - 实时数据湖在证金客户标签分析、资管报表查询、固收报表查询和财富委经营数据实时看板等场景中落地 [47] 未来展望 - SelectDB 具备国际化能力,拥有充足的英文文档和开源生态融合能力,满足未来多样化需求 [59][60][61] - 通过简化技术架构和降低运维成本,SelectDB 显著提升了业务决策效率和精准度,综合成本降低 50% [56][57]