Workflow
MatrixDB
icon
搜索文档
理想汽车海量数据分析实践
理想TOP2· 2025-04-24 21:22
海量数据分析的挑战 - 汽车制造业数据分析主要围绕车辆数据,包括车机埋点数据、车辆信号数据和视频图像数据,每天数据量达万亿级别[8][10][11][16] - 海量数据分析面临稳定性、性能和效率三大问题:缺乏规范导致问题发现难、SQL拦截难、业务隔离难;Hive查询时快时慢、Spark+StarRocks技术栈查询慢;资源使用周期明显导致利用率低[12][14][15][21] - 目标基于StarRocks构建稳定、高效、易用的查询分析服务,通过规范使用、多级隔离、限流降级提升稳定性,优化查询性能和资源利用率提高效率,统一查询服务降低使用门槛[17][19][22] 发展历程与现状 - StarRocks引擎迭代经历三阶段:从多种引擎共存到统一为StarRocks解决资源成本高问题;第二阶段重点解决稳定性问题并提升产品化能力;第三阶段探索云原生和存算分离架构[23][25] - 当前集群规模达10+集群、1w+ CPU cores,每天处理超过1000w query和100亿级别写入[26] 存算一体实践 - 稳定性保障体系包括事前风险识别、事中快速止损和事后持续治理,通过规范SOP、多级隔离、限流降级等措施[29][31][32][33][34][35][38] - 性能优化通过自研DQS服务替代原有技术栈实现10倍提升,并针对慢SQL五类场景制定优化方案[42][45][46][47][49] - 存算一体架构存在扩容成本高、弹性伸缩能力弱问题,车辆自助分析平台场景为扩存储需扩容20台机器造成资源浪费[50][52][55] 存算分离实践 - 采用Multi-Warehouse实现三级隔离:内外表集群隔离、业务隔离和读写隔离(探索中)[56][58][61][64][68] - 存算分离架构结合资源削峰措施使机器资源节省30%,冷数据存储于百度云对象存储BOS[65][71] - StarRocks on K8s实现弹性伸缩,与Spark资源互补部署使利用率提升50%[72][75] 未来规划 - 实现单一集群共享元数据并按场景隔离FE实例,按场景切分warehouse实现多维度隔离[78][79] - 推进资源弹性和按量付费,将ad-hoc等场景部署于K8s实现弹性伸缩,内表场景设置弹性warehouse[79]