Workflow
2024年AIReady的数据基础设施参考架构白皮书
华为·2025-01-06 16:00

报告行业投资评级 未提及 报告的核心观点 AI发展与数据基础设施紧密相关,数据基础设施成为大模型发展基础和AI时代国家重要竞争力,打造“AI - Ready”的数据基础设施是产业战略选择,其应具备开放互联、智能敏捷、安全合规、可持续绿色等特征,同时针对AI大模型数据基础设施实践中的挑战提出了相应建议,并阐述了其在智算中心、云和互联网、边缘训推等场景的参考架构及特征 [13][15][16] 根据相关目录分别进行总结 AI大模型加速行业智能化转型 - 人工智能经历三次发展高潮,当前处于第三个阶段,Transformer大模型推动深度学习发展,成为AI新范式 [21] - OpenAI推出ChatGPT和Sora,Sora使AI大模型向多模态发展,对数据基础设施提出高挑战 [22] - AI大模型应用场景丰富,加速向各行业渗透,实现多场景覆盖等,推动行业从专用领域向通用领域发展 [21][23] - 各行业积极探索大模型应用场景,在提升运营与开发效率、金融产品营销能力、风险处置能力、使能新业态等方面显现价值 [25][26] - AI大模型发展面临企业数据管理、行业需求差异、计算资源限制、模型可解释性等挑战,企业需构建AI - Ready数据基础设施 [33][34][35] AI大模型数据基础设施实践中的挑战与建议 - 数据资产管理挑战:数据类型多、标准化难,企业技术能力有限,存在数据质量不高、孤岛严重等问题,建议构建“AI数据湖”和统一数据管理平台 [38][39][40] - 集群可用度挑战:算力浪费严重、建设和能耗成本高,集群可用度普遍不足50%,建议走出堆砌GPU算力误区,构建强一致高性能集群存储系统等 [42][45][48] - 数据一致性挑战:体现在AI训练各环节,影响Checkpoint保存与恢复效率等,建议构建强一致高性能集群存储系统,提升运维管理效率 [42][44][50] - 数据安全挑战:勒索软件变种增多、AI系统漏洞增加、数据资产化引发勒索形式多样、数据投毒危害大,建议加强AI系统韧性,守护高价值数据资产等 [52][53] AI - Ready的数据基础设施的特征与参考架构 - 定义与特征:专为AI应用和服务设计,具备大规模数据归集和预处理、高性能和强一致、超强韧性、内生数据安全等特征 [58][62][65] - 三大应用场景及参考架构 - 智算中心场景:承载重要训练数据,对存储容量和性能要求高,面临数据膨胀、数据孤岛、集群同步等挑战,建议采用AI数据湖解决方案,具备统一命名空间、EB级扩展及智能分级、数控分离架构等特征,管理运维平台应具备全栈管理能力 [66][68][73] - 云和互联网场景:云与互联网企业是AI前沿探索建设者,数据基础设施面临支撑集群大规模训练、实现高稳定性、低成本快速扩展等挑战,应具备全局负载均衡、端到端NVMe连接等关键技术和高带宽性能等特征 [82][83][87] - 边缘训推场景:企业应用AI改造收敛到RAG,数据基础设施需为各过程提供资源,具备海量硬盘状态检测、高度冗余保护、开放架构、高密设计等关键技术 [89][90]