AI数据湖
搜索文档
华为袁远:中国是数据大国,但数据语料建设仍面临关键挑战
观察者网· 2025-12-18 21:34
行业现状与挑战 - 中国是全球数据大国,但数据留存率仅2.8%,面临海量数据存不下、存储成本高和能耗大的技术难题 [1][4] - 行业高质量数据稀缺,以医疗模型为例,中国模型训练数据量仅为西方领先国家的10%左右 [1][4] - 大量城市与企业数据仍储存在“孤岛”上,数据共享率不足25% [1][4] - 全球年度数据泄露量已达惊人的471.6亿条,数据泄露成为当前数据跨境流动的核心命题 [1][4] 发展趋势与市场动态 - 用于AI的数据量同比增长41% [3] - 数据资源共享日益活跃,更多行业和技术企业选择进入数据市场,通过扩充数据资产的规模、精度与多样性来取得竞争优势 [3] - 高质量数据集建设提速,截至目前中国已建成超过500PB高质量数据集 [3] - AI的快速发展推动传统IT架构从“以算力为中心”向“以数据为中心”转变 [3] 公司战略与实践(城市层面) - 建议发挥城市枢纽作用,打造先进存力中心,推动公共数据和行业数据的汇聚、治理和可信流通 [4] - 实践案例:已助力一些城市汇聚50PB公共数据,服务超60家本地企业 [4] - 实践案例:帮助部分城市构建高质量汽车行业数据集,支持智能网联汽车发展 [4] - 实践案例:通过“聚数、治数、供数、用数”,打造了环京津数据要素产业园,带动地方经济增长 [4] 公司战略与实践(行业层面) - 建议建设数据共享协作平台,推动数据从分散利用到智能融合,让高质量行业知识库赋能生态 [5] - 实践案例:帮助某国家级育种实验室构建全国一体化育种数据基础设施,管理百PB跨域数据 [5] - 通过统一数据标准和一站式数据工具链,将数据标注和模型微调效率提升4倍,打造智慧育种智能体 [5] 公司战略与实践(企业层面) - 建议助力企业建设AI数据湖底座,加强全域数据共享、高效管理与敏捷使用 [5] - 以自动驾驶为例,通过AI数据湖整合路测、仿真、高精地图等多样数据 [5] - AI数据湖提供百万车辆数据高速接入、EB级数据高效管理、全球站点数据跨域流动等关键能力,支持多种智能体协同 [5] 未来技术投入与方向 - 公司将加大投入,迭代并引领AI数据湖发展方向,助力解决收数、存数、治数、用数问题 [6] - 具体方向一:继续完善并开源开放端到端的AI工具集,丰富中国AI工具生态 [6] - 具体方向二:依托全局数据管理技术,深入研究可信数据跨域流通过程中的合规治理、安全流转与跨境审计 [6] - 具体方向三:推动数据存储技术发展,降低向量、标量等新型数据存储范式的储存成本 [6]
华为周跃峰:建设先进数据基础设施,从数据大国迈向数据强国
环球网资讯· 2025-08-24 13:48
核心观点 - 华为在2025中国算力大会上展示联接、计算、存储、数字能源等领域最新解决方案 推动个人、家庭、行业场景智能化 [1] - 中国年数据产量突破40ZB但留存率仅2.8% 需通过城市、行业、企业三层面建设先进数据基础设施实现从数据大国向数据强国转型 [3][4][5] - 华为提出AI数据中心RAS建设理念 通过安全可靠、弹性敏捷、绿色低碳的智算底座支撑算力需求爆发式增长 [6] 数据基础设施现状与挑战 - 中国年数据产量突破40ZB但全国数据留存率仅2.8% 海量数据在源头被丢弃 [3] - 行业高质量数据稀缺 医疗模型训练数据量仅为西方领先国家的10%左右 [3] - 企业间数据共享率不足25% 大量数据存储在孤岛上 [3] 城市层面建设方案 - 打造先进存力中心 通过全域数据汇聚-数据高效治理-数据可信流通全流程管理 [3] - 建立数据可信托管中心、治理中心、开发中心和流通中心 实现数据资源到资产闭环 [3] - 贵州作为东数西算枢纽 依托存力中心汇聚全省重点行业数据打造算力枢纽 [3] 行业层面建设方案 - 构建高质量行业语料库 推动各行业加大数据资源汇聚和保存 [4] - 鼓励龙头企业牵头建设行业级数据共享协作平台 [4] - 国家级育种机构通过数据湖存储突破数据离散、质量参差、跨主体共享三大瓶颈 [4] 企业层面建设方案 - 建设企业AI数据湖 实现从单体智能到多智能体协同 [5] - 自动驾驶领域通过AI数据湖汇聚路测、仿真、高精地图等数据支撑多智能体协同 [5] - 企业数据底座需从烟囱式建设转向AI数据湖以提升应用精度和知识实时性 [5] 技术创新方向 - 发展AI存储、全闪存等技术提供高速可靠数据存取能力 [5] - 支持数据统一视图和可信流通实现全域数据可视可管可用 [5] - 部署AI工具链构建低代码开发与应用快速上线能力 [5] 产业生态建设 - 华为通过算力产业发展方阵先进存力AI推理工作组等产学研力量丰富数据基础设施技术生态 [5] - 华为展台展示算力、存力、运力、绿电供给协同发展 为千行万业打造数智底座 [6] 数据中心解决方案 - 创新提出AI数据中心RAS建设理念 包含安全可靠(Reliable)、弹性敏捷(Agile)、绿色低碳(Sustainable)三大特性 [6] - 智算中心需应对安全性、建设速度、适配IT演进及资源消耗等挑战 [6]
华为助力医疗行业数智化转型
快讯· 2025-05-13 15:05
公司技术成果 - 公司在CHIMA2025展示医疗行业数智化转型成果 重点推出DCS AI解决方案[1] - 解决方案包含ModelEngine工具链 DCS XPU池化和AI数据湖三大核心技术[1] - 技术应用显著缩短合作医院业务上线周期 提升医疗服务质量和患者体验[1] 行业转型推动 - 公司强调AI技术将提升医疗服务效率并优化医疗资源配置[1] - 通过解决AI应用面临的模型训练效率 推理效率及数据准备周期等挑战推动行业发展[1] - 持续构建AI生态体系以促进医疗行业数智化发展进程[1]