Workflow
AllData大数据产品
icon
搜索文档
离线开发平台-HTTP数据同步到Doris数仓能力演示
搜狐财经· 2025-08-26 19:44
AllData大数据产品架构 - 公司提供可定义数据中台产品 以数据平台为底座 数据中台为桥梁 机器学习平台为中层框架 大模型应用为上游产品 提供全链路数字化解决方案 [1] 离线开发平台技术基础 - 离线开发平台基于开源项目DolphinScheduler建设 这是一个分布式任务调度平台 支持复杂工作流编排和任务监控告警 适用于离线数据处理场景 [2] - 平台提供可视化操作界面 用户通过拖拽配置即可创建复杂工作流 无需编写大量代码 降低使用门槛并提高工作效率 [3] - 支持多种任务类型包括Shell SQL Python等 满足不同数据处理场景需求 [4] - 具备灵活的任务依赖关系设置功能 确保任务按预定顺序执行 有效处理复杂数据处理流程 [5] - 提供计算资源统一管理和分配能力 根据任务需求合理调度资源 提高资源利用率并避免浪费 [6] 平台功能特性 - 实时监控任务执行状态 包括任务进度 运行时长和资源使用情况 [7] - 任务异常时及时发出告警通知 方便运维人员快速响应 保障数据处理稳定性和可靠性 [8] - 支持多租户模式 不同租户可在同一平台上独立进行任务开发管理 实现资源隔离和权限控制 满足企业内不同部门团队使用需求 [9] - 平台具有分布式易扩展架构 可视化DAG工作流编排 多租户与权限管理 丰富任务类型 高可靠性容错机制 灵活调度策略 任务状态监控日志 数据源集成能力 版本控制状态管理和生态兼容性等特点 [12] 部署要求与环境配置 - 支持Linux或macOS系统 推荐使用Ubuntu CentOS或macOS 要求系统已安装基础依赖工具如git curl wget等 [13] - 需要安装JDK 1.8或更高版本 推荐使用JDK 11 并配置JAVA_HOME环境变量 [14] - 要求Maven 3.6或更高版本 需配置MAVEN_HOME环境变量 [14] - 支持MySQL或PostgreSQL数据库 需要创建数据库用户并授予权限 [14] - 可选安装Node.js用于前端构建 安装Python用于部分脚本执行 [15] 编译与部署流程 - 后端代码编译进入项目根目录执行mvn命令 [15] - 前端代码编译可选 编译后静态文件生成到ui_ds/ui_ds目录 [16] - 部署时需要解压二进制包到指定目录 [17] - 需配置数据库文件conf/application.yaml [18] - 需配置ZooKeeper文件conf/zookeeper.properties [19] - 数据库初始化自动执行dolphinscheduler-dao/src/main/resources/sql目录下SQL文件 [20] - 服务启动需要先启动Zookeeper再启动DolphinScheduler服务 [21] - 启动后需验证服务是否成功启动 [22] 平台功能模块 - 平台包含数据集成管理 数据模型管理 元数据管理 数据标准管理 数据比对管理 数据安全管理 数据质量管理 数据服务管理 BI报表管理等功能模块 [24] - 包含系统管理 BI可视化平台 数据平台 指标体系平台 K8S数据平台 实时开发平台 实时开发IDE 离线开发平台等组件 [24] - 项目管理功能显示存在多个离线开发项目包括abc离线开发项目 测试离线可视化开发项目 空军情报数据资源池构建 公安部门中心数据中心 江西媒体中心离线平台 北京冶炼中心数据开发等项目 [26] 数据接口集成 - 可从数据共享平台数据服务平台获取Http接口 示例接口http://43.138.156.44:5173/api/data/api/services/v2/test/v1?pageNum=1&pageSize=20 [29] - 可选使用API共享平台或数据服务平台配置接口 [30] - 接口返回数据包含ACCOUNT_ID ACCOUNT_DESCRIPTION ACCOUNT_PARENT ACCOUNT_TYPE ACCOUNT_ROLLUP CUSTOM_MEMBERS等字段 [31] - 数据服务平台管理多个API接口包括测试用例 数据服务测试 数据中台数据服务 数据中台API 数据中台测试验证 数据中台ke 数据服务测试计 测试正确接口 数据中台测试 moat数据肌 测试用例测试接 数据中台数据服务 测试用例测试接等13个接口 [32] 数据同步实施 - 提供Http数据同步到Doris实时数仓的完整案例 [34] - 支持可视化集成Seatunnel任务 [36] - 需要配置Http同步到Doris的Yaml文件 [38] - 详细配置Http数据同步到Doris实时数仓 [40] - 启动Http到Doris任务同步工作流 [44] - 上线Http到Doris同步任务工作流 [46] - 支持定时抽取Http数据到Doris数据仓库 [48] - 任务执行成功后同步数据成功 [49] - 可通过任务日志查看同步操作记录 [52] 数据源管理 - 数据源平台可查看数据 支持Doris等数据库 [55] - 数据源管理包含多个数据库节点包括_internal_schema ads datasophon_ok db1 doris_mysql_db account account_sink chinagis1 customer_transactions device ods_account test test02 test1 testtable testtable2 view functions procedures triggers dwd dws mysql_db ods oracle_db等 [56] 故障排查指南 - 常见问题包括编译失败 数据库连接失败 ZooKeeper连接失败和服务启动失败 [59] - 编译失败需确保Maven版本3.6+ 网络环境良好 可尝试清理本地Maven仓库解决依赖冲突 [60] - 数据库连接失败需检查数据库配置 服务状态 用户权限 防火墙设置和端口3306放行 [61] - ZooKeeper连接失败需检查服务状态 配置正确性和端口2181放行 [61] - 服务启动失败需检查日志文件logs/dolphinscheduler-*.log 系统资源充足性和端口占用情况包括默认端口12345 25333 50050等 [61]