Data Engineering

搜索文档
Krutrim 携手 Cloudera,推动印度 AI 驱动型创新
Globenewswire· 2025-08-08 07:28
合作概述 - Cloudera与印度自主主权云平台Krutrim达成战略合作,为Ola在Krutrim Cloud上的大规模分析及数据湖工作负载提供算力支持[1] - 合作将助力Krutrim释放数据与AI潜能,推动业务转型、优化客户体验,并构建先进的数据工程、AI训练与推理能力[1] - Cloudera的解决方案将面向Krutrim的其他企业客户开放[1] Krutrim的云基础设施 - Krutrim正在打造垂直整合的云基础设施,涵盖计算、存储、数据管理及面向印度市场的AI驱动型终端应用[1] - 其AI计算栈涵盖文本、语音与视频等基础模型,并针对印度多元的语言与文化环境进行本地化定制[1] 技术能力与客户价值 - Krutrim依托Cloudera的数据平台与咨询服务,开发出实时处理多源大规模数据集的解决方案,为Ola提供更快速、更精准的智能洞察[2] - 该平台具备出色的可扩展性与安全性,可为印度各地的企业、初创公司及研究人员提供AI驱动的数据湖解决方案[2] - Krutrim致力于打造一体化整合基础设施、数据与AI的印度本土云平台,以满足印度市场的独特需求[2] 公司愿景与行业地位 - Cloudera是唯一一家能够将AI无缝应用于任何数据环境的公司,深受大型企业信赖[3] - Cloudera依托成熟的开源技术,融合公有云、本地数据中心与边缘环境,打造统一的云端体验[3] - 全球各行业顶级品牌依赖Cloudera重塑决策方式,提升盈利能力并防范威胁[3]
一文读懂数据工程的基础知识
36氪· 2025-07-10 10:10
数据工程定义 - 数据工程是设计、构建和维护系统的过程,该系统可以收集、存储、分析数据并基于数据做出决策,旨在让其他数据用户能够访问高质量数据 [2] - 数据工程是数据驱动型公司的基石,贯穿从数据收集到决策的所有步骤,堪称现代公司的血液 [1] 数据源类型 - 结构化数据源:遵循预定义模式,组织在行列表格中,适合高一致性数据,包括关系数据库(PostgreSQL/MySQL)、CRM系统(Salesforce)、ERP系统(SAP) [7][8][9] - 半结构化数据源:使用标签组织但无固定模式,包括JSON文件、XML文件、HTML文档和电子邮件 [10][12][13][14][15] - 非结构化数据源:缺乏预定义模型,包括文本文档、社交媒体帖子、视频和图像 [16][18][19][20][21] 数据提取方法 - 批处理:按预定间隔(如每日)处理数据,适用于信用卡账单、工资单等场景,工具包括Informatica/Talend [24] - 实时流处理:持续收集处理数据,适用于股票市场/零售库存,工具包括Apache Kafka/Amazon Kinesis [25][26] 数据存储系统 - 数据库:关系型(MySQL)适合事务处理,NoSQL(MongoDB/Redis)处理半结构化数据 [29] - 数据湖(Amazon S3/Databricks):存储原始多类型数据,适合AI/大数据分析 [30] - 数据仓库:优化结构化数据查询,用于商业智能,如Snowflake/Redshift [30][33] 数据处理技术 - 预处理包括数据清理(去重/填充缺失值)、规范化(数值缩放)、编码(分类转数值) [38][39] - ETL流程:提取源数据→转换格式→加载至存储系统,是数据集成的核心 [41] - 数据管道:自动化实时数据传输,工具如Apache NiFi/Airbyte [42][44] 数据集成方法 - 数据联合:创建虚拟数据库统一访问多源数据,无需物理整合 [46] - API集成:通过应用程序接口实现系统间数据调用 [47][48] - 聚合策略:包括分组(按属性分类)、汇总(计算总和/平均值)、层级汇总(日→周→月) [51][52][54] 数据质量保障 - 验证技术:模式验证、格式检查、范围检查、重复检测等,预防数据问题 [61][62] - 质量监控:定期审计+自动化工具(Great Expectations/Deequ)持续维护数据质量 [66][68] 数据建模与分析 - 建模分概念(实体关系图)→逻辑(定义键/约束)→物理(实际数据库实现)三阶段 [71] - 可视化工具:Tableau/Power BI展示数据趋势,Python库(pandas/Matplotlib)支持分析 [73][74] 系统优化趋势 - 可扩展性技术:分布式计算(Apache Spark)、云平台(AWS/Azure)、数据分区/缓存 [79] - 大数据工具:分布式存储(Google Cloud Storage)、处理框架(Hadoop/Flink)、实时分析(Kafka) [80][82][84] 行业技术趋势 - AI/ML正融入数据管道,实现自动化模式识别和预测分析 [84] - 云计算(AWS/Azure)和无服务器架构降低基础设施成本,提升处理效率 [85] - 未来数据工程师需兼具传统工程技能与AI/ML知识,需求将持续增长 [86]
大摩:Snowflake(SNOW.US)五大增长飞轮加速 AI+数据工程撬动3000亿美元市场
智通财经网· 2025-06-26 17:06
核心观点 - 摩根士丹利首次覆盖Snowflake并给予增持评级 目标价262美元 认为人工智能将为其核心业务开辟长期增长路径 2030年前有望实现20%以上复合年增长率 [1] - 新任CEO上任后公司在销售 市场推广和产品工程等各方面执行效率提升 产品收入增长率稳定在20%以上 同时在四大领域加速产品创新 [1] - 公司已制定战略利用3000亿美元市场机遇 让客户能轻松在安全平台上应用人工智能 预计将实现持续20%以上增长并伴随运营利润率扩大 [2] 业务增长驱动因素 核心数据仓库业务 - 2024年数据仓库十大供应商中仅有两家市场份额增长 公司是其中之一 该趋势将持续至2025年及以后 [3] - 云数据仓库采用率和公司份额均提升 合作伙伴对云迁移持积极态度 当前估算保守 未来几年数据仓库年收入或仅增长4%-8% [3] 数据工程业务 - 数据工程产品组合第四季度收入运行率突破2亿美元 Python包下载数据显示采用率加速 [4] - 预计数据工程收入将从2025财年2.04亿美元增长至2026财年3.67亿美元 同比增长80% [4] 人工智能业务 - 人工智能竞争力改善 去年下半年出现拐点 已有大客户开展百万级别规模人工智能工作负载 [4] - 预计明年实现约1亿美元人工智能运行率目标 2027财年及以后该业务将做出显著贡献 [4] 客户增长 - 2022年第一季度至2025年第一季度客户群以23%复合年增长率增长 2025年第一季度加速至22% [5] - 新客户通常在6-9个月后启动 随后12-15个月内销售大幅增长 预计2027财年开始显著贡献收入 [5] 合作伙伴生态 - 新任首席收入官改善与主要云服务提供商关系 全球五大系统集成商中有三家承诺打造10亿美元业务线 [6] - 与安永等大型合作伙伴互动更紧密友好 合作伙伴生态系统建设有望直接推动产品收入加速增长 [6] 市场表现与估值 - 公司股价近一年上涨37% 同期大盘软件股(不含Palantir)上涨9% [2] - 摩根士丹利认为未来一个季度将有多个催化剂推动预期上调周期 [2]
Snowflake (SNOW) Conference Transcript
2025-05-29 00:00
纪要涉及的公司 Snowflake (SNOW) 纪要提到的核心观点和论据 1. **业务表现** - **消费和预订强劲**:Q4和Q1业务表现出色,消费和预订全面增长,零售和科技是优势领域,EMEA地区业务步入正轨,Azure业务增长良好,金融服务领域有两笔超1亿美元的大交易 [3][4][5] - **客户结构优化**:客户群体向大型企业倾斜,增长曲线更平稳,抗宏观风险能力增强 [6] - **自由现金流符合预期**:Q1自由现金流利润率为20%,受Q4未完成预订的持续影响,后续自由现金流将呈现季节性,下半年占比更高 [7] 2. **产品与市场** - **产品多元化发展**:产品分为数据工程、分析、AIML、应用和协作四个类别,Cortex套件产品用户增长迅速,数据工程是除分析外最大的收入贡献者,Snowpark和动态表等功能表现出色 [21][22][23] - **AI业务潜力大**:多数业务仍是传统数据业务,但AI业务发展前景广阔,Cortex系列产品具有吸引力,目前用户数量增长显著,未来有望带来更多收入 [22][26][27] - **市场竞争与合作**:与微软Azure合作紧密,Azure业务增长迅速;与Salesforce是合作伙伴,客户倾向于将数据存入Snowflake;与Databricks竞争加剧,但在大客户中仍能共存,Snowflake具有高性能和易用性的优势 [43][44][45][48][49] 3. **公司战略与管理** - **持续改进与发展**:Sreedhar注重市场和产品的持续改进,带来了更细致的问责制和组织结构优化,有望推动公司发展到新高度 [17][18][19] - **追求高效增长与盈利**:优先考虑增长,同时致力于实现高效增长和运营利润率扩张,将通过优化研发人员结构、提高内部AI应用效率等方式提升利润率 [33][34][37][38] - **谨慎对待收购**:对收购持谨慎态度,要求收购对象具备强大团队、差异化技术、能加速产品路线图且价格合理 [51] 其他重要但是可能被忽略的内容 1. **会议安排**:下周会议周二上午有主题演讲,下午1 - 3点活动将有Sreedhar、Christian和CRO Mike Gannon发言,因CFO过渡,财务部分内容较少 [57][58][59] 2. **云迁移驱动因素**:云迁移受客户数据中心续约周期影响较大,客户倾向于在续约时进行迁移,以避免长期双重付费 [53][54][55]
Snowflake(SNOW) - 2026 Q1 - Earnings Call Transcript
2025-05-22 06:02
财务数据和关键指标变化 - 第一季度产品收入达9.97亿美元,同比增长26%,剔除闰日影响后同比增长28%,且季度环比增长率稳定无减速 [10][25] - 剩余履约义务总额达67亿美元,同比增长34% [10] - 净收入留存率为124% [11] - 第一季度非GAAP产品毛利率为75.7%,非GAAP运营利润率为9%,同比提高442个基点 [27] - 非GAAP调整后自由现金流利润率为20% [28] - 第一季度花费4.91亿美元回购320万股,平均加权股价为每股152.63美元,授权至2027年3月的回购额度还剩15亿美元 [28] - 本季度末现金、现金等价物、定期和长期投资共计49亿美元 [29] - 预计第二季度产品收入在10.35 - 10.4亿美元之间,同比增长25%,非GAAP运营利润率为8% [29] - 2026财年,公司将收入指引提高至43.25亿美元,同比增长25%,预计非GAAP产品毛利率约为75%,非GAAP运营利润率为8%,非GAAP调整后自由现金流利润率为25% [29][30] 各条业务线数据和关键指标变化 - 第一季度Snowpark和动态表业务表现超预期,技术和零售行业表现强劲 [25] - 第一季度新增451个净新客户,同比增长19% [27] 各个市场数据和关键指标变化 无 公司战略和发展方向和行业竞争 - 公司使命是通过数据和AI赋能企业,其AI数据云帮助客户从数据中获取更多价值、加快创新并消除业务运营中的摩擦,致力于成为客户数据之旅的端到端技术提供商 [9][11] - 公司在为非结构化和结构化数据提供可扩展、灵活的连接平台方面取得重要进展,Snowflake连接器使客户能与关键平台实现无缝连接和数据集成 [12] - 公司持续创新,本季度推出超125项产品功能,客户对开放数据格式尤其是Apache Iceberg的采用率较高 [15] - 公司在AI领域发展迅速,超5200个账户每周使用其AI和机器学习功能,Vertex AI成为企业AI战略的基础支柱,还推出Cortex Agents等产品,并将前沿模型集成到Cortex中 [17][18] - 公司在6月的Snowflake Summit活动上将展示新功能,以支持客户数据之旅的各个阶段 [21] - 在新首席营收官领导下,公司加强了市场推广业务的专注度和严谨性,同时扩大了可寻址市场,推出Snowflake Public Sector Inc.,获得国防部临时授权,还推出汽车解决方案 [21][22] - 公司与微软扩大合作,在微软Azure区域托管OpenAI模型,为客户提供更多选择和灵活性 [18] - 公司认为与超大规模企业虽存在竞争,但更多时候能有效合作,且合作呈上升趋势,尤其与Azure的合作 [82][84] 管理层对经营环境和未来前景的评论 - 公司年初开局强劲,核心业务、产品交付和市场推广引擎均表现出色,未来仍有巨大机遇 [8] - 公司对消费情况整体感觉良好,基于观察到的客户行为进行预测和制定指引 [34][36] - 公司客户群体已演变为世界上一些最大、更成熟且注重成本的公司,目前未看到宏观因素对业务的影响,客户对公司有信心 [61][62] - 公司对联邦政府业务机会持乐观态度,相关部门对公司能力的认识不断提高,有望在未来季度有更多进展 [72][73] - 随着公司逐渐成熟,净收入留存率和收入增长率将趋于一致 [79] - 公司在把握AI机遇方面取得显著进展,销售团队对AI的热情和推动AI用例规模化的能力有了显著提升 [88] - 公司认为Gen two是最新、最强大的计算环境,在价格性能方面有显著提升,是向前迈出的重要一步 [118] - 公司在新客户获取方面的努力取得成效,对新增新客户数量感到满意,并将继续关注这一领域 [122][123] - 公司认为Snowflake处于企业AI革命的中心,产品收入增长和2026财年的强劲展望表明公司有能力大规模执行,未来将保持创新和增长势头,实现长期高增长和利润率扩张 [138][139] 其他重要信息 - 公司将在6月3日于旧金山举办投资者日活动 [30] - 首席财务官岗位正在面试候选人,未来有确切细节时会公布 [31] 总结问答环节所有的提问和回答 问题1: 第一季度消费情况以及5月的消费趋势如何 - 公司不评论季度内的消费情况,但表示第一季度消费在假期后非常强劲,整体对消费情况感觉良好,且第二季度指引基于目前观察到的客户行为 [34][36] 问题2: Cortex的货币化趋势以及客户在使用Cortex方面的投入和消费情况如何 - 客户投资Snowflake是为了让数据和流程具备AI能力,公司采取谨慎方式让客户使用AI,不单独销售AI,而是基于客户现有支出,专注于能带来当下价值的用例,客户意识到Snowflake的数据战略对其AI发展至关重要 [38][40][41] 问题3: Snowpark和动态表表现超预期,是产品成熟度还是市场推广方面的原因 - 这两方面原因都有,公司需要有能创造价值的好产品,如Snowpark、动态表、Iceberg和Snowflake连接器等,同时也需要有针对性的市场推广团队,识别高价值用例,建立旗舰客户并推动销售 [45][46][47] 问题4: Snowpark的采用情况以及未来发展趋势如何 - 公司承认客户有复杂的数据生态系统,Snowflake连接器可连接不同数据源,Snowpark可进行数据转换,Cortex搜索可创建索引并连接到聊天机器人,公司将继续与专业玩家合作,同时也会推动数据整合的用例 [50][51] 问题5: 本季度股票回购很有机会,后续股票回购计划如何 - 公司将按季度评估股票回购情况,目前无具体计划,但预计到2027年将使用完剩余的回购额度 [56] 问题6: 与2022 - 2023年相比,当前宏观环境对公司的影响有何不同 - 疫情后公司客户群体发生变化,现在的客户更成熟、更注重成本,目前未看到宏观因素对业务的影响,新客户增加和剩余履约义务的增加表明客户对公司有信心,同时公司销售团队也注重帮助客户优化支出 [61][62][63] 问题7: 公司是否有来自大型AI原生公司的额外收入贡献 - 公司有一些AI公司客户,但它们的收入均占比不到1% [64] 问题8: 公司在销售和营销方面招聘人数较多,是因为Cortex或Snowpark等业务机会吗 - 第一季度是公司销售和营销招聘的高峰期,目的是让新员工参与年初的销售启动和培训活动,这体现了公司对业务的信心,同时公司也会关注员工的生产力 [67][69] 问题9: 联邦政府业务机会如何,是否会有机构从传统数据仓库转向Snowflake - 这是公司与政府部门积极讨论的话题,政府对公司能力的认识不断提高,关注数据基础设施的高效运行和跨部门数据共享,公司对此持乐观态度,未来季度可能会有更多进展 [72][73] 问题10: 公司净收入留存率为何没有因新产品推出和客户增长而提高,新首席营收官能否提升该指标 - 一些新客户的增长未体现在净收入留存率指标中,且有一个大客户去年增长较多,今年增长放缓,随着公司成熟,净收入留存率和收入增长率将趋于一致 [79] 问题11: 面对超大规模企业的竞争,Snowflake的优势和发展方向是什么 - 超大规模企业很强大,但Snowflake是优秀的数据平台,与AWS、Azure等有深度合作,如从Snowflake可读取OneLake的表,Cortex分析师和Cortex代理可作为组件在Office Copilot中使用,公司会寻找与客户合作的机会,实现共赢 [82][83][84] 问题12: 公司支持AI发展的市场推广策略成熟度如何 - 公司通过组建“AI忍者”团队,让销售团队对AI充满热情,并具备推动AI用例规模化的能力,目前正将专业知识推广到更多销售团队,同时在数据工程等领域也采用类似方法,整体市场推广策略效果良好 [88][89][90] 问题13: Snowpark在媒体数据科学用例中的应用情况以及笔记本的影响如何 - 公司笔记本使用情况良好,数千客户积极使用,在训练机器学习模型方面能力不断提升,在一些用例中市场份额增加,Snowpark也常用于非结构化数据处理 [94][95][96] 问题14: 公司第二季度及全年业绩指引的信心来源是什么 - 指引基于对客户行为的观察,公司过去五个季度一直关注新工作负载投入生产情况,迁移工作进展顺利,SnowConvert工具的使用量增加,这些都为指引提供了信心 [97] 问题15: 随着Cortex AI的采用,是否看到更多查询优化,对查询使用量有何影响 - Cortex分析师可帮助用户自动生成SQL查询,公司还提供了类似Copilot的功能,虽无具体数据表明查询量增加的百分比,但公司认为能帮助客户更快编写和调试查询及代码,同时公司致力于帮助客户始终保持优化状态 [101][102][103] 问题16: 第一方基础模型对公司战略的重要性如何,是否转向与第三方基础模型合作 - 训练大型基础模型成本高昂,公司目前不积极参与前沿基础模型训练,研究团队专注于后训练和推理优化等领域,同时与Meta、Anthropic、OpenAI等众多模型提供商合作,公司拥有世界一流的开源嵌入模型 [105][106][107] 问题17: 第一季度运营利润率强劲,但财年运营利润率和自由现金流利润率目标未变,原因是什么 - 第二季度公司有大型用户活动,这会对运营利润率产生影响,该因素已在预测中考虑,公司将按季度修订全年预测,同时公司在扩大运营利润率方面很谨慎,目前处于既能实现强劲收入增长又能保持高效运营的良好状态 [109][110][111] 问题18: 公司业务是否受到AI顺风因素的推动,客户在AI方面的投资和建设情况如何 - 越来越多客户意识到要做好AI,数据需放在Snowflake,公司的产品能解锁数据价值,用于基于代理的工作流程,同时公司自身也在产品和内部运营中使用AI,这些趋势推动公司发展 [115][116] 问题19: Gen two的性能提升是否会带来新的用例,如何看待其在平台上的潜力 - Gen two是公司最新、最强大的计算环境,结合了最新硬件和软件优化,在价格性能方面有显著提升,能缩短获取洞察和价值的时间,是向前迈出的重要一步 [118] 问题20: 新增新客户数量强劲的原因是什么,1亿美元以上交易来自哪些行业 - 新增新客户数量是公司去年组建专注于新客户获取团队的成果,目前看到了积极效果,1亿美元以上的两笔交易均来自金融服务行业 [122] 问题21: 销售团队薪酬计划的变化对本季度强劲的预订量有何影响 - 薪酬计划的变化有一定帮助,但本季度强劲的预订量主要来自两笔已知的大交易,销售人员对有预订量指标感到满意,但消费收入仍是主要驱动因素,该变化的长期效果还需时间观察 [127][128] 问题22: 资本支出大幅增加的原因是什么,是否为一次性项目 - 资本支出增加主要与公司在圣马特奥的新总部和贝尔维尤的办公室建设有关,预计未来几年不会有重大的办公室建设支出 [129][130] 问题23: 技术客户在本季度表现强劲,大型AI原生客户的消费情况如何 - 大型AI原生客户的消费情况良好,但它们的收入均占比不到1% [133] 问题24: 如何看待Databricks收购Neon,以及公司在UniStore和无服务器Postgres数据库市场的战略和定位 - 公司五年前开始研发Unistore,对目前在事务存储方面的投资感到满意,将继续在该领域投资,Postgres标准被广泛采用,但公司认为Unistore是对现有业务的自然补充 [135]