MatrixDB - 财报，业绩电话会，研报，新闻

MatrixDB

搜索文档

理想TOP2· 2025-04-24 21:22

海量数据分析的挑战 - 汽车制造业数据分析主要围绕车辆数据，包括车机埋点数据、车辆信号数据和视频图像数据，每天数据量达万亿级别[8][10][11][16] - 海量数据分析面临稳定性、性能和效率三大问题：缺乏规范导致问题发现难、SQL拦截难、业务隔离难；Hive查询时快时慢、Spark+StarRocks技术栈查询慢；资源使用周期明显导致利用率低[12][14][15][21] - 目标基于StarRocks构建稳定、高效、易用的查询分析服务，通过规范使用、多级隔离、限流降级提升稳定性，优化查询性能和资源利用率提高效率，统一查询服务降低使用门槛[17][19][22] 发展历程与现状 - StarRocks引擎迭代经历三阶段：从多种引擎共存到统一为StarRocks解决资源成本高问题；第二阶段重点解决稳定性问题并提升产品化能力；第三阶段探索云原生和存算分离架构[23][25] - 当前集群规模达10+集群、1w+ CPU cores，每天处理超过1000w query和100亿级别写入[26] 存算一体实践 - 稳定性保障体系包括事前风险识别、事中快速止损和事后持续治理，通过规范SOP、多级隔离、限流降级等措施[29][31][32][33][34][35][38] - 性能优化通过自研DQS服务替代原有技术栈实现10倍提升，并针对慢SQL五类场景制定优化方案[42][45][46][47][49] - 存算一体架构存在扩容成本高、弹性伸缩能力弱问题，车辆自助分析平台场景为扩存储需扩容20台机器造成资源浪费[50][52][55] 存算分离实践 - 采用Multi-Warehouse实现三级隔离：内外表集群隔离、业务隔离和读写隔离（探索中）[56][58][61][64][68] - 存算分离架构结合资源削峰措施使机器资源节省30%，冷数据存储于百度云对象存储BOS[65][71] - StarRocks on K8s实现弹性伸缩，与Spark资源互补部署使利用率提升50%[72][75] 未来规划 - 实现单一集群共享元数据并按场景隔离FE实例，按场景切分warehouse实现多维度隔离[78][79] - 推进资源弹性和按量付费，将ad-hoc等场景部署于K8s实现弹性伸缩，内表场景设置弹性warehouse[79]