Workflow
Data Engineering
icon
搜索文档
一文读懂数据工程的基础知识
36氪· 2025-07-10 10:10
数据工程定义 - 数据工程是设计、构建和维护系统的过程,该系统可以收集、存储、分析数据并基于数据做出决策,旨在让其他数据用户能够访问高质量数据 [2] - 数据工程是数据驱动型公司的基石,贯穿从数据收集到决策的所有步骤,堪称现代公司的血液 [1] 数据源类型 - 结构化数据源:遵循预定义模式,组织在行列表格中,适合高一致性数据,包括关系数据库(PostgreSQL/MySQL)、CRM系统(Salesforce)、ERP系统(SAP) [7][8][9] - 半结构化数据源:使用标签组织但无固定模式,包括JSON文件、XML文件、HTML文档和电子邮件 [10][12][13][14][15] - 非结构化数据源:缺乏预定义模型,包括文本文档、社交媒体帖子、视频和图像 [16][18][19][20][21] 数据提取方法 - 批处理:按预定间隔(如每日)处理数据,适用于信用卡账单、工资单等场景,工具包括Informatica/Talend [24] - 实时流处理:持续收集处理数据,适用于股票市场/零售库存,工具包括Apache Kafka/Amazon Kinesis [25][26] 数据存储系统 - 数据库:关系型(MySQL)适合事务处理,NoSQL(MongoDB/Redis)处理半结构化数据 [29] - 数据湖(Amazon S3/Databricks):存储原始多类型数据,适合AI/大数据分析 [30] - 数据仓库:优化结构化数据查询,用于商业智能,如Snowflake/Redshift [30][33] 数据处理技术 - 预处理包括数据清理(去重/填充缺失值)、规范化(数值缩放)、编码(分类转数值) [38][39] - ETL流程:提取源数据→转换格式→加载至存储系统,是数据集成的核心 [41] - 数据管道:自动化实时数据传输,工具如Apache NiFi/Airbyte [42][44] 数据集成方法 - 数据联合:创建虚拟数据库统一访问多源数据,无需物理整合 [46] - API集成:通过应用程序接口实现系统间数据调用 [47][48] - 聚合策略:包括分组(按属性分类)、汇总(计算总和/平均值)、层级汇总(日→周→月) [51][52][54] 数据质量保障 - 验证技术:模式验证、格式检查、范围检查、重复检测等,预防数据问题 [61][62] - 质量监控:定期审计+自动化工具(Great Expectations/Deequ)持续维护数据质量 [66][68] 数据建模与分析 - 建模分概念(实体关系图)→逻辑(定义键/约束)→物理(实际数据库实现)三阶段 [71] - 可视化工具:Tableau/Power BI展示数据趋势,Python库(pandas/Matplotlib)支持分析 [73][74] 系统优化趋势 - 可扩展性技术:分布式计算(Apache Spark)、云平台(AWS/Azure)、数据分区/缓存 [79] - 大数据工具:分布式存储(Google Cloud Storage)、处理框架(Hadoop/Flink)、实时分析(Kafka) [80][82][84] 行业技术趋势 - AI/ML正融入数据管道,实现自动化模式识别和预测分析 [84] - 云计算(AWS/Azure)和无服务器架构降低基础设施成本,提升处理效率 [85] - 未来数据工程师需兼具传统工程技能与AI/ML知识,需求将持续增长 [86]
Innodata(INOD) - 2025 Q1 - Earnings Call Presentation
2025-07-03 16:45
业绩总结 - 2025年第一季度收入为5830万美元,同比增长120%[44] - 调整后的毛利率为43%[44] - 调整后的息税折旧摊销前利润(EBITDA)占收入的比例为22%[44] - 2025年第一季度净收入为780万美元,相较于2024年第一季度的100万美元显著增长[59] - 调整后毛利从2024年第一季度的1100万美元增长至2025年第一季度的2520万美元,增长幅度为130%[51] - 调整后EBITDA从2024年第一季度的380万美元增长至2025年第一季度的1270万美元,增长幅度为236%[51] - 2025财年的收入指引预计增长40%或更多[55] - 2025财年的收入预期为2.386亿美元[56] 用户数据 - 2025年第一季度的服务收入与软件即服务(SaaS)收入比例约为91%和9%[44] - 最大客户在2025年第一季度占总收入的约61%[53] 市场展望 - 预计到2029年,生成AI IT服务的总可寻址市场(TAM)将达到2000亿美元[14] - 生成AI市场的复合年增长率(CAGR)预计为45%[33] 合同与合作 - 公司在2024年与五家“七大巨头”签订合同,推动了显著增长[12] - 公司在2025年第一季度签署了8个大型科技公司的LLM数据工程合同[19] 财务状况 - 现金及现金等价物为5660万美元[45] - 公司在2025年3月的现金和短期投资总额为1705万美元,且没有外部债务[58]
Prediction: 2 Stocks That'll Be Worth More Than Archer Aviation 3 Years From Now
The Motley Fool· 2025-06-24 16:25
Archer Aviation (ACHR) - 公司专注于电动垂直起降飞行器(eVTOL)研发 目前尚无实际收入但已与多家航空公司达成合作 目标在全球大都市建立空中出租车网络 [1] - Midnight eVTOL售价500万美元 投资回收期长于优步等竞争对手 单位经济效益存疑 [2] - 产品仅能容纳4名乘客 载客效率与传统拼车服务相当 但可为机场通勤节省时间 当前市值达55亿美元 [3] Innodata (INOD) - 公司主营AI数据标注和数据处理业务 为大型语言模型提供高质量训练数据 深度受益AI行业发展 [6] - 一季度营收同比增长120%至5830万美元 调整后EBITDA从380万美元增至1270万美元 增长主要来自新客户导入 [7] - 当前市值16亿美元 需增长200%才能达到55亿美元 但已获得多家科技巨头客户 全年增长指引40%可能被大幅超越 [8] Green Brick Partners (GRBK) - 一季度营收增长11%至4.976亿美元 毛利率31.2% 净利润7500万美元(利润率15%) 在低迷房市中表现突出 [9] - 采用自主土地开发模式(非轻资产) 聚焦达拉斯和亚特兰大等高增长市场 负债资本比较低抗风险能力强 [10] - 过去五年股价上涨400% 市盈率仅7倍 若市值翻倍将达55亿美元 住房需求改善预期下增长潜力显著 [11][12]