数据湖
搜索文档
易华录拟终止两项募投项目,剩余3.55亿元募集资金将补流
巨潮资讯· 2026-01-21 11:45
公司募投项目变更 - 公司于1月20日公告,终止“超级存储研发项目”和“人工智能训练资源库及全域视频感知服务平台项目”,并将两项项目剩余募集资金永久补充流动资金,用于日常生产经营及业务发展 [2] - 公司曾于2023年通过向特定对象发行股票募集资金,扣除发行费用后实际募集资金净额为15.6958亿元,原计划投向四个项目 [2] - 截至2025年12月31日,公司募集资金整体使用比例为49.27%,累计投入7.7343亿元,剩余未投入募集资金金额为7.9644亿元 [3] 终止项目具体情况 - “超级存储研发项目”原拟投入募集资金1.3845亿元,截至2025年底累计投入3491.40万元,投资进度为25.22%,剩余募集资金1.0354亿元 [3] - “人工智能训练资源库及全域视频感知服务平台项目”原拟投入募集资金3.0858亿元,截至2025年底累计投入6099.83万元,投资进度为19.77%,剩余募集资金2.4758亿元 [3] - 补充流动资金项目已全额投入完毕 [3] - 两项终止项目剩余募集资金共计3.5486亿元将永久补充流动资金,但其中7957.35万元存在司法冻结,具体到账时间不确定 [4] 项目终止原因分析 - 终止“超级存储研发项目”原因包括:受宏观经济环境影响,传统IT客户需求不及预期,投资回报前景不明朗;存储介质技术迭代加速,短期内难以形成成熟可靠方案;公司战略已调整,主营业务从数据湖转向数据要素及智慧交通,不再推进蓝光存储“公有云”等相关建设 [3] - 终止“人工智能训练资源库及全域视频感知服务平台项目”原因包括:生成式AI技术快速发展及宏观环境变化,客户对AI相关服务的需求发生结构性变化;公司战略调整后,该项目收益依托的数据湖业务推广已非重点,若按原计划投入,投入产出比偏低,难以实现预期经济效益 [4] 项目已取得进展 - “超级存储研发项目”已按计划完成相关产品研发迭代,产品能力基本满足市场需求 [3] - “人工智能训练资源库及全域视频感知服务平台项目”已完成数据标注平台、AI算法训练平台等主体功能开发,以及多种视频算法的研发和训练,初步具备承接交通行业业务的能力 [4] 公司战略方向 - 公司主营业务已从数据湖业务转向数据要素及智慧交通领域 [3] - 公司不再推进蓝光存储“公有云”等相关建设 [3] - 数据湖业务推广已非公司当前发展重点 [4]
如何规划企业数据湖以成功实现数据价值
36氪· 2025-12-15 14:16
数据湖的定义与核心价值 - 数据湖是一种集中式存储系统,允许企业以任意规模存储所有结构化、半结构化和非结构化数据的原始数据,并保持其原始格式,直到需要进行分析时才进行提取 [6] - 与采用“写入时模式”的传统数据仓库不同,数据湖采用“读取时模式”,数据仅在需要时才进行结构化,为各种分析和人工智能用例提供了灵活性 [6] - 数据湖是现代分析、人工智能和机器学习流程的基石,能够实现实时洞察、自助式商业智能和预测建模 [2][6] - 企业每天产生的数据量超过2.5万亿字节,数据量和复杂性呈爆炸式增长,传统数据库已无法满足企业对信息速度、规模和多样性的需求 [2] 构建数据湖的业务与技术驱动因素 - 业务驱动因素包括:数据量和数据种类不断增长,需要可扩展的存储;企业希望立即获得洞察以进行实时决策;跨部门团队需要轻松访问可信数据以实现数据民主化和自助式BI [8][9][10] - 技术优势包括:基于云的解决方案(如AWS S3、Azure Data Lake Storage)可实现近乎无限的可扩展性和灵活性;通过存储和计算分离实现成本效益;数据湖作为数据湖屋框架的骨干,将数据湖的灵活性与数据仓库的性能相结合 [10] 数据湖的五层核心架构 - **第一层:摄取层**:负责将来自数据库、应用程序、物联网设备等来源的批量或流式数据引入数据湖,常用工具包括Apache NiFi、AWS Glue和Azure Data Factory [12] - **第二层:存储层**:将数据保存在可扩展且经济高效的云存储库中,如Amazon S3,采用扁平化架构使数据易于访问,并将存储与计算分离以独立扩展 [13][14] - **第三层:处理层**:通过清洗、验证和丰富等步骤,将原始数据转换为可用的格式,常用工具如Apache Spark、Databricks,数据通常被组织成青铜区(原始)、白银区(清洗后)和黄金区(业务就绪) [15] - **第四层:治理层**:确保数据在其整个生命周期内保持可信、安全和合规,涉及数据目录、访问控制、血缘追踪和数据质量规则,工具如Unity Catalog、AWS Glue Catalog [16] - **第五层:消费层**:为用户提供从数据中提取价值的工具,包括商业智能平台(如Power BI)、数据科学笔记本和SQL查询引擎(如Amazon Athena),实现组织内数据访问的民主化 [17] 数据湖实施的关键步骤 - **第一步:明确目标**:列出优先用例(如客户流失分析、物联网监控)并将其转化为关键绩效指标,梳理数据源、用户和未来12-24个月的预期数据增长 [23] - **第二步:选择云平台**:根据技能和集成需求选择主要云平台,如AWS(S3, Glue, Athena)、Azure(ADLS Gen2, Synapse, Purview)或GCP(Cloud Storage, BigQuery, Dataflow) [24][25][26] - **第三步:设计数据架构**:采用分层(Medallion)设计,包括Raw/Bronze(原始数据)、精炼/Silver(清理后数据)和精选/Gold(业务就绪数据)层,并定义命名约定、分区和文件格式 [27][28][29] - **第四步:构建ETL/ELT流水线**:从各种来源提取数据,使用变更数据捕获,验证模式并设置质量检查,使用调度程序实现自动化运行 [30] - **第五步:实施治理与安全**:指定数据所有者,将数据集注册到目录,跟踪数据沿袭,强制执行IAM角色、行/列级安全以及数据加密 [31] - **第六步:启用分析和机器学习**:将整理后的数据暴露给BI工具,搭建用于特征工程和模型训练的笔记本和机器学习管道,并设置MLOps [32] - **第七步:监控、扩展、优化**:创建仪表盘监控管道运行状况和成本,优化分区和压缩,利用生命周期策略对冷数据进行分层存储,并合理配置计算资源 [33] 数据湖实施的最佳实践 - 从小处着手,先从明确的、高价值的应用场景(如客户分析、物联网监控)入手,在规模化之前验证架构和投资回报率 [36] - 强制执行命名规则和元数据标准,以提高可搜索性,支持数据目录等管理工具 [37] - 尽早启用数据质量检查和血缘跟踪,以确保准确性、透明度,并简化审计过程中的调试工作 [38] - 实施基于角色的访问控制,对静态和传输中的数据进行加密,遵循最小权限原则 [39] - 集成数据目录工具(如AWS Glue数据目录、Azure Purview)以提高可发现性、血缘可见性和合规性管理 [40] - 通过分区和分层优化存储,按日期、地区等对大型数据集进行分区以加快查询速度,使用压缩和分层存储来降低成本并提高性能 [41] - 持续记录和测试流程,维护数据流程的文档,并定期测试数据摄取和转换管道以及早发现问题 [42] 数据湖实施的常见陷阱及避免方法 - **缺乏治理导致“数据沼泽”**:应从一开始指定数据管理员、强制执行数据保留策略并使用编目工具,以保持数据的组织性 [45] - **缺乏元数据管理导致发现困难**:应实施自动化元数据提取和标记,以确保数据集可搜索且文档齐全 [46] - **忽略成本优化导致不必要的云支出**:应实施生命周期管理,自动对冷数据进行分层存储,并使用原生云成本仪表板监控支出 [47] - **早期设计过于复杂延缓价值实现**:建议从简单、模块化的流程入手,随着系统成熟度的提高再逐步扩展,可使用标准化的Medallion架构 [48] - **忽略安全控制措施增加合规风险**:应启用静态/传输中数据加密,应用最小权限原则,并与身份提供商集成以实现强身份验证 [49] - **变更管理不善影响可靠性**:应建立版本控制、变更审批工作流程和自动化测试以维持稳定性 [50] 数据湖的实际应用案例 - **壳牌能源**:在微软Azure上构建数据湖,整合全球网络中的物联网、运营和能源管理数据,将数据准备时间缩短了60%,加快了洞察速度并改进了预测性维护 [55] - **康卡斯特**:利用Databricks Lakehouse整合客户互动、计费和服务数据,支持大规模预测模型以识别服务降级风险并提高客户留存率,实现了近乎实时的分析 [56] - **汇丰银行**:采用基于云的数据湖升级其风险管理和合规框架,整合风险、交易和监管数据,从而能够进行用于压力测试和反洗钱工作的高级分析,提高了监管报告的准确性和透明度 [57]
易华录:公司对数据湖项目公司进行全面分析研判
证券日报网· 2025-11-06 22:13
公司数据湖项目管理策略 - 对数据湖项目公司进行全面分析研判并实施分类分级管理 [1] - 对治理良好、经营潜力较大的数据湖推进控股并表管理 [1] - 对经营不良的数据湖推行关停并转并有序实施股权退出 [1] - 对央地合作良好且地方政府股东仍有力支持的数据湖延续参股管理模式 [1]
一文读懂如何选择数据架构
36氪· 2025-09-19 10:51
数据工程架构核心观点 - 数据工程是管理和指导数据从收集到转换、存储和访问全过程的关键学科 在制定战略决策、优化运营和获得竞争优势方面至关重要[1] - 成功的数据架构基础必须从设计过程一开始就奠定 不仅关乎技术架构构建 还在于使其与组织目标和数据管理策略保持一致[2] - 数据管理策略如数据仓库、数据湖、数据湖仓和数据网格在数据类型、访问模型、性能要求、组织结构和治理策略方面提供不同解决方案[1] 需求分析 - 项目初期最重要的第一步是需求分析 如果需求定义不明确将导致资源和时间浪费[3] - 需求分析目的是了解业务需求、确定利益相关者期望、明确范围并选择正确的技术基础设施[7] - 在示例项目中 数据来自两个主要源系统(ERP和CRM)以CSV格式提供 需要在整个ETL过程中进行仔细规划和强大数据控制[4] - 数据必须集成到用户友好且易于理解的结构中 数据模型应简洁、合乎逻辑并支持分析 不需要跟踪历史数据[5] - 系统最终生成的数据模型需要提供清晰易懂的文档 确保技术团队和业务用户都能更轻松适应系统[5] 数据架构选项比较 - 数据仓库专注于结构化数据 适用于报告和商业智能 具有高性能报告、数据安全性和一致性优势 但仅适用于结构化数据且成本较高[11][12][15][16] - 数据湖可存储结构化、半结构化和非结构化数据 提供高度灵活性 适用于机器学习和高级分析 但可能导致复杂的数据管理和数据沼泽问题[11][21][23][24] - 数据湖仓结合数据湖灵活性和数据仓库结构化数据管理功能 能处理各种数据类型同时提供高效分析查询性能 但设置和管理复杂[11][27][30][32] - 数据网格采用分布式架构 每个部门创建自己的数据产品并与其他部门共享 适用于大型复杂组织 但缺乏集中数据管理可能影响数据一致性和完整性[11][37][39][40] 数据架构平台选择 - 数据仓库平台包括Google BigQuery、Amazon Redshift、Snowflake、Microsoft Azure Synapse Analytics、Teradata和IBM Db2 Warehouse[18][19][20] - 数据湖平台包括Amazon S3、Azure数据湖存储、Google Cloud Storage、Apache Hadoop HDFS和MinIO[26] - 数据湖仓平台包括Databricks + Delta Lake、Apache Iceberg、Apache Hudi、Azure Synapse Analytics、Snowflake和Google BigLake[34][35] - 数据网格平台包括AWS Lake Formation + Glue + S3、Databricks Unity Catalog、Starburst/Trino、Snowflake、Kafka/Event Streaming和DataHub/Amundsen/OpenMetadata[41][42] 数据仓库设计方法 - Inmon方法采用集中式数据仓库设计 所有数据存储在一个中心位置并经过规范化处理 提供数据高度准确性和一致性但开发过程缓慢[46][47][53] - Kimball方法采用用户友好且灵活的设计 数据组织成更小更具体的部分称为数据集市 使用星型模式和雪花模式 提供便捷访问和快速查询但可能产生数据冗余[47][51][54] - Data Vault方法提供灵活性和模块化 数据以原始形式存储然后通过添加业务规则进行处理 允许与各种数据源快速集成但可能带来管理困难[55][58] - Medallion架构将数据处理分为三层:青铜层(原始数据)、白银层(清理数据)和黄金层(符合业务规则的数据) 提供简洁性、可追溯性、灵活性和性能[56][57][60][61] 可视化数据仓库架构 - 数据仓库架构可视化关键元素包括数据源、ETL流程、数据仓库、层级结构和商业智能工具[67] - 数据源可以有多种格式如数据库、CSV文件、APIs和Web服务 在图中用方框表示并通过箭头连接[67][70] - ETL流程包括提取(数据收集)、转换(数据转换)和加载(数据加载)步骤 在图中用顺序箭头表示[67] - 如果采用Medallion架构 应在图中清晰标明不同层级(青铜、白银、黄金) 每层描述数据处理程度和预期用途[67] - 商业智能工具和报告平台用于向最终用户呈现数据 是分析和解释数据的最后一步[67]
Databricks大会力挺“数据层”投资韧性 瑞银唱多Snowflake(SNOW.US)维持“买入”评级
智通财经网· 2025-06-13 16:37
Databricks与Snowflake竞争态势 - Databricks年中/下半年预计营收运行率将达到37亿美元 同比增长约50% 数据仓库营收运行率将超过10亿美元 表现强劲但符合预期 未引发对Snowflake市场份额流失的担忧 [2] - Databricks的AI套件年度经常性收入(ARR)为3亿美元 高于Snowflake [2] - Databricks首席执行官对Snowflake态度较过去更为中立 客户反馈显示两家公司发展步伐大致相同 两年前未见此现象 [2][3] 行业趋势与客户反馈 - Postgres数据库需求非常火爆 对MongoDB构成潜在压力 [2] - 企业AI代理部署仍处早期阶段 炒作成分居多 数据质量差导致AI效果不佳 [2][3] - 欧洲、中东和非洲(EMEA)市场需求疲软 表现低迷 [2] - 数据湖或冰山技术采用反馈比预期更积极 [3] 估值与投资观点 - Snowflake若增长率趋向30%且数据投资周期持续 13倍/51倍的CY26E营收/自由现金流倍数被视为合理 [3] - 维持265美元目标价 基于CY26E 17倍/66倍倍数 认为相对高增长同行群体存在合理溢价 [3] - 行业整体基调支持数据层投资依然强劲 可能成为Databricks和Snowflake的共同推动力 [1][2]
新旧势力再较量,数据库不需要投机 | 企服国际观察
钛媒体APP· 2025-05-08 17:50
生成式AI驱动数据库市场竞争 - 生成式AI技术变革正促使数据库厂商展开激烈竞争,传统厂商因云原生分布式数据库冲击而市场地位动摇 [3] - 企业客户需求推动厂商调整数据战略,更贴近AI实际应用场景,如安克创新采用Databricks云湖仓产品实现200TB数据统一治理 [3][4] - 行业竞争焦点集中在云湖仓技术,涉及表引擎、分析引擎、实时计算引擎等组件,以及大模型自研和AI数据库层面 [4] 数据仓库与数据湖的技术演进 - 数据仓库(Data Warehouse)起源于20世纪60年代,1990年代在Bill Inmon和Ralph Kimball推动下快速发展,核心优势为结构化数据处理和商业智能支持 [6] - 21世纪初大数据兴起暴露传统数仓缺陷,如非结构化数据处理能力不足,谷歌"三驾马车"(GFS/MapReduce/BigTable)奠定大数据技术基石 [7][9] - 数据湖(Data Lake)概念2010年由James Dixon提出,以Hadoop生态解决海量数据存储问题,但存在计算能力不足和实施成本高的局限 [9][10] - 湖仓一体(DLH)概念由Databricks在2020年提出,整合数仓与数据湖优势,成为AI大模型时代关键基础设施 [11][14] 湖仓一体市场格局与主要厂商 - 湖仓市场形成四股势力:传统厂商(Teradata/Cloudera)、云厂商(Google BigQuery/Amazon Redshift)、新贵Snowflake和开源系Databricks [12] - Databricks技术路径以数据湖支持数仓特性,基于Spark/Delta Lake/MLflow构建完整方案,Snowflake则优化结构化数据存储分析 [13][18] - 全球大数据分析市场规模预计2028年达5497.3亿美元,湖仓一体成为最热门领域之一 [13] - 中国市场阿里云、华为云等云厂商及星环科技等创业公司均在布局湖仓技术 [17] Databricks与Snowflake的竞争动态 - Databricks通过收购Tabular(Iceberg商业公司)和MosaicML(13亿美元)强化AI能力,推出132B参数大模型DBRX [19][20][21] - Snowflake发布4800亿参数MoE架构大模型Arctic应对竞争,并与Cloudera/Anthropic等达成合作 [22] - Databricks收入运行率预计2025年超30亿美元,与Snowflake(35亿美元产品营收)差距缩小 [21] - 双方技术路线差异显著:Databricks定位AI基础设施公司,Snowflake侧重数仓易用性和可扩展性 [18][22] 行业技术发展趋势 - 谷歌BigQuery通过嵌入治理功能实现湖仓统一,客户规模达Snowflake/Databricks五倍 [23] - AI RAG技术成为新竞争焦点,Snowflake/Databricks曾竞购VoyageAI但被MongoDB截胡 [25] - 新兴企业如Glean推出数据库搜索产品,Databricks拟收购无服务器公司Neon [26] - 行业共识转向解决实际业务问题而非技术噱头,客户需求聚焦数据见解与决策支持 [27]