Workflow
Lattice
icon
搜索文档
PEAK:AIO and Los Alamos National Laboratory Launch Lattice - Breaking Open the Metadata Bottleneck in Parallel File Systems
Globenewswire· 2026-06-03 21:03
行业背景与痛点 - AI与高性能计算工作负载(如大模型训练、大规模推理和智能体应用)需要持续可靠地对海量数据集进行超高速并行访问,这正在重塑存储市场 [2] - GPU计算能力已大幅提升,但为其提供数据的存储层,尤其是协调存储的元数据架构发展滞后,导致23,000个生产集群的平均GPU利用率仅为5%,主要瓶颈在于供给数据的软件无法跟上 [2] - 并行存储系统中的元数据瓶颈已成为制约AI工作负载性能的关键限制因素 [2] 技术产品发布 - PEAK:AIO与洛斯阿拉莫斯国家实验室长期合作,推出了业界首个开源pNFS元数据服务器Lattice,旨在消除大规模AI和高性能计算基础设施中最持久的限制之一 [1] - Lattice是一个基于Linux、运行在用户空间的pNFS元数据服务器,专为扩展性、模块化和分布式协调而设计 [3] - 该产品将元数据控制平面分离为四个独立层:协议状态平面、Lattice核心、MD目录授权和数据服务器控制平面,这种架构首次实现了元数据服务的真正弹性 [3] - 元数据服务可根据需求在商用硬件上动态启动,规模可从单个服务器扩展到超过1,000个元数据服务器 [3] - Lattice作为开源项目在Linux基金会下发布,旨在围绕可扩展的AI和HPC存储基础设施加速社区创新 [4] 性能表现与优势 - 合作期间的性能测试显示,吞吐量从70 GB/s提升至400 GB/s [5] - 在LANL现有的生产硬件上,标准Linux NFS配置的吞吐量在3 GB/s到7 GB/s之间,而pNFS Lattice架构在相同的服务器上实现了40 GB/s的吞吐量 [5] - 与一所顶级技术大学进行的额外测试表明,在元数据密集型工作负载上,相比传统方法性能提升超过300% [5] - 在MDtest等标准元数据基准测试中,早期测试显示其性能比标准Linux KNFSD提升高达10倍 [6] - 结合其弹性、临时的元数据扩展模型(可根据需求增长动态添加元数据服务),Lattice超越了传统高性能数据设计的限制 [6] 设计理念与创新 - Lattice的核心创新在于将传统上锁定在单一元数据服务器内的功能分解为四个独立的层,这种分离以传统存储架构从未设计支持的方式实现了智能扩展 [7] - 元数据和数据服务现在可以成为分布式、弹性的参与者,能够围绕工作负载进行扩展、故障转移和适应,而不是固定的设备或静态的MDS对 [7] - 该设计为pNFS和并行文件系统设计带来了根本性的进步,使元数据能够突破制约横向扩展存储数十年的限制 [7] - 行业观点认为,AI基础设施市场正接近一个拐点,仅扩展计算能力已无法带来有意义的效率提升,元数据必须变得弹性、分布式和开放 [6] 商业模式与社区 - PEAK:AIO将同时提供PEAK:AIO pNFS,这是Lattice的商业支持超集,为需要企业级SLA和完整功能集但不想直接管理开源堆栈的组织提供选择,此模式类似于Lustre与其商业发行版的关系,同时保持完全基于开放标准的基础 [6] - 由于Lattice运行在用户空间且是开源的,降低了社区参与的门槛,鼓励由AI、HPC和其他社区需求驱动的更多创新 [5] 发布与影响 - Lattice将在加利福尼亚州圣克拉拉举行的2026年大规模存储系统与技术国际会议上正式发布 [4] - PEAK:AIO是一家总部位于英国曼彻斯特的软件定义AI存储公司,其平台可在任何行业标准硬件上提供从单服务器到艾字节级别的高性能AI存储,客户包括洛斯阿拉莫斯国家实验室、NHS AIDE、牛津机器人研究所、卡内基梅隆大学等知名机构 [8]