CXL

搜索文档
榨干GPU性能,中兴Mariana(马里亚纳)突破显存壁垒
量子位· 2025-08-26 13:46
行业背景与挑战 - 大语言模型在行业应用中面临推理效率与显存成本的尖锐矛盾 尤其KV Cache技术成为显存消耗的主要瓶颈 每增加一个token都需要更多显存存储键值向量 制约模型规模扩张和并发能力提升 [1] 现有技术方案局限性 - Nvidia Dynamo项目采用多级缓存算法 将热数据存于显存、温数据在主机内存、冷数据在SSD或远端存储 但存在数据迁移流程复杂和延迟开销问题 [2] - 微软LMCache存储系统兼容vLLM等推理框架 但分布式存储支持度低且空间上限受限 [3] - 阿里巴巴方案将KV Cache扩展到Tair数据库 虽易于扩展存储空间 但读写性能难以满足低延迟需求 [3] 技术创新方案 - CXL高速互联技术凭借高带宽、低延迟和硬件级缓存一致性特性 为破解内存瓶颈提供新方向 但目前业界针对CXL存储加速LLM推理的研究仍较少 [5] - 中兴通讯与华东师范大学联合推出Mariana分布式共享KV存储技术 通过三项核心创新实现比现有方案高1.7倍吞吐量 尾延迟降低23% [6] - 细粒度并发控制方案将锁粒度从节点级降至条目级 通过RDMA_CAS竞争空闲槽位闩锁 显著减少写密集型和高偏斜工作负载下的争用 [8] - 定制化叶子节点数据布局采用分离式存储 Key连续存放可一次性加载至SIMD寄存器 Value与校验和另存内存块 大幅提升查找速度 [10] - 自适应缓存策略通过Count-Min Sketch算法快速感知热点数据 维护按热度排序链表 降低热点数据加载延迟 [11] 性能验证与应用 - Mariana支持将数据分布在远端CPU DRAM及PMem/SSD组成的共享内存池 理论存储空间无上限 [13] - 在vLLM框架测试中 GPU显存仅能存放50% KV数据时 Mariana多级存储方案显著提升大模型推理预加载阶段性能 [15][17] - 该技术通过硬件加速和智能缓存减少KV Cache查找的计算与网络开销 提升读吞吐量 其数据路径针对低延迟优化 延迟远低于需经远端CPU协议栈的解决方案 [19] 技术演进前景 - Mariana设计理念与底层硬件解耦 核心算法可直接从RDMA网络迁移至CXL硬件生态 仅需替换远程访问API即可利用CXL低延迟和一致性优势 [18] - 该技术重新定义大模型推理存储逻辑 使分布式存储在高吞吐与低延迟间找到平衡点 为百亿/千亿参数模型在普通硬件上高效运行奠定基础 [18]
海力士,加速发展CXL
半导体芯闻· 2025-04-23 18:02
SK海力士CXL DRAM产品进展 - 公司已完成基于CXL 2 0的DRAM解决方案CMM-DDR5 96GB产品的客户认证 该技术通过PCIe接口连接CPU GPU和内存 支持大容量超高速计算并具备内存池化功能 [1] - 新产品相比现有DDR5模块容量提升50% 带宽扩大30% 数据处理速度达36GB/秒 可显著降低数据中心总体拥有成本 [1] - 公司正在推进128GB产品的客户认证 该产品采用10nm级第五代(1b)工艺的32Gb DDR5 DRAM 具有优异的功率性能比 [1] CXL生态系统建设 - 公司开发了专用软件HMSDK 通过优化DRAM模块与CMM-DDR5间的交叉阵列扩展带宽 并实现数据智能分配以提升系统性能 [2] - HMSDK已于2023年9月集成至Linux系统 有效提升了采用CXL技术的系统性能 [2] 产品规划 - 公司将加速完成产品认证 建立完善的产品组合以确保及时供货 [2]
海力士,加速发展CXL
半导体芯闻· 2025-04-23 18:02
SK海力士CXL DRAM产品进展 - 公司已完成基于CXL 2.0的DRAM解决方案CMM-DDR5 96GB产品的客户认证 [2] - 该产品采用PCIe接口,具有池化功能,可实现快速数据传输和高效内存利用率 [2] - 与现有DDR5模块相比,容量增加50%,带宽扩大30%,每秒可处理36GB数据 [2] - 产品有助于大幅降低客户建设和运营数据中心的总体拥有成本 [2] - 公司正在与其他客户认证128GB产品,该产品采用10nm级第五代(1b)精细工艺的32Gb DDR5 DRAM [2] SK海力士技术研发与生态系统建设 - 公司开发了专用软件HMSDK,并针对CMM-DDR5产品进行了优化 [2] - HMSDK可通过DRAM模块和CMM-DDR5之间的高效交叉阵列扩展带宽 [2] - 软件能根据数据使用频率将数据重新定位到适当的内存设备,提高系统性能 [2] - HMSDK已于去年9月安装在Linux操作系统上,提升了应用CXL的系统性能 [2] 产品规划与市场策略 - 公司计划尽快完成128GB产品认证 [2] - 将建立能够在适当时机向客户提供产品的产品组合 [2] - 除开发CXL DRAM外,公司还致力于扩展CXL生态系统 [2]