GPU直连SSD
搜索文档
计算机行业跟踪周报:构建数据库的“CUDA”,英伟达存储变革下软件重构-20251207
东吴证券· 2025-12-07 16:46
报告行业投资评级 - 增持(维持)[1] 报告的核心观点 - 随着AI推理时代的到来,传统的以CPU为中心的存储与计算架构已成为瓶颈,行业正经历从“以CPU为中心”到“以GPU为中心”的根本性变革[4][9] - 为满足AI推理“小块高频”的极致I/O需求,硬件上出现GPU直连SSD的新架构,软件上则需要重构以GPU为核心的数据库(GPU-Native数据库),这将为数据库产业带来新的机遇[4][18][25] 根据相关目录分别进行总结 1. AI推理时代来临,GPU直连SSD存储新架构出现 - AI推理与训练对存储的需求差异巨大:训练需要大数据块(10MB-1GB)、少并发、总容量相对较低(1-10TB);而推理需要小数据块(低至8B、64B、512B)、高并发(数千条)、大存储容量(高达1PB或数百TB)[4][9][10] - AI工作负载分化推动存储评估指标从传统的“每TB成本”(TB/TCO)转向“每IOPS成本”(IOPS/TCO),推理和预测式AI的性能瓶颈在于处理海量、高并发、小I/O请求的能力(IOPS)[9][10] - 传统以CPU为中心的架构无法满足AI推理的高并发需求,成为瓶颈,需要提升GPU地位,使其成为数据访问的控制中心,实现从CPU“推送”数据到GPU“拉取”数据的转变[4][11][14] - 解决方案是通过GPU直连SSD硬件(如通过NVMe-of、RDMA、GPUDirect Storage等技术)和SCADA软件架构,让GPU绕过CPU直接、高效地从SSD读写数据,彻底旁路CPU在数据流中的角色[4][14][16] 2. 存储架构变化带来数据库架构的变化 - 架构层面发生根本变化:从“以CPU为中心”转向“以GPU为中心”,GPU成为主计算单元,CPU角色退化为任务调度器、事务协调器和元数据管理器[4][18] - 数据库核心组件需要升级改造:1) 存储引擎革新,新的缓存管理器需直接管理GPU显存和直连SSD间的数据流动;2) 数据布局优化,为匹配GPU的SIMD架构,可能采用纯列式或混合存储格式并原生支持Apache Arrow等零拷贝格式;3) 查询执行引擎重构,核心算子需深度重写为GPU内核并能直接从SSD流式消费数据,实现计算与I/O的完全重叠[4][19][21] - 查询优化器面临挑战,成本模型需纳入GPU计算核心占用率、HBM与SSD间带宽、PCIe传输延迟等新因素,并优先考虑数据本地性优化[21] - GPU直连SSD技术将使得数据库从一个在通用操作系统上运行的应用程序,演变为一个直接调度和管理GPU、SSD的“数据中心级操作系统内核”[4][21] 3. 产业进展逐步加快 - 硬件方面:1) 2025年8月,闪迪与SK海力士签署谅解备忘录,共同制定高带宽闪存(HBF)技术规范,目标在2026下半年发布HBF样品,首批搭载HBF的AI推理系统预计于2027年初面世[4][21][22];2) 2025年9月,铠侠宣布将与英伟达合作,开发可直接连接到GPU并进行数据交换的SSD,目标性能需达到2亿IOPS,并计划支持PCIe 7.0标准[4][22] - 软件方面:1) Hammerspace通过优化元数据读取和GPU服务器直连存储驱动器中的数据放置策略,加速了其数据编排平台软件的性能[4][23];2) Cloudian HyperStore通过RDMA over S3技术,实现对象存储与GPU内存的直接数据传输,使基于S3接口的向量数据库性能提升8倍[4][24] 4. 投资建议 - 投资逻辑基于AI推理爆发驱动GPU地位提升及硬件架构变革(GPU直连SSD),进而引发软件生态(尤其是数据库)的重大重构需求,数据库产业有望迎来新机遇[4][25] - 报告提及的相关标的包括:【星环科技】、达梦数据、海量数据、MongoDB、Snowflake等[4][26]