文章核心观点 - MRDIMM与CXL技术通过“近端高带宽+远端大容量”的分层协同模式 以更低总体拥有成本增加AI服务器内存供给与弹性扩展 特别适用于高并发、超长上下文的AI推理负载 [1] AI服务器内存架构的核心难题 - 当前AI服务器内存架构面临三大难题:HBM成本高且容量受限 不同应用负载的内存需求差异明显需避免配置不当 CPU插槽的内存可扩展容量存在瓶颈 [1] MRDIMM技术的性能与优势 - MRDIMM Gen2最高支持12800MT/s速率 在AI负载下相对DDR5 RDIMM带宽可提升2.3倍 显著降低KVCache读写时延以支撑高吞吐推理 [2] - MRDIMM单条支持64/96/128GB容量 支持更长上下文与更多并行会话 其高带宽与大容量适配CPU侧KVCache卸载 [2] - Intel Xeon 6 "Granite Rapids"搭载12通道内存控制器 可充分释放MRDIMM带宽潜力 有效缓解GPU显存压力并利于多会话调度 [2] CXL技术的性能与优势 - CXL 3.1在CPU/GPU/加速器间实现内存池化 可将部分KVCache从GPU显存弹性卸载到CXL设备 在不增加GPU成本前提下将有效容量扩大至TB级 [3] - CXL访问时延可逼近CPU DRAM 使置于CXL的KVCache在高负载下能维持接近实时的解码性能 [3] - 在字节跳动LLM服务栈中 将KVCache卸载至CXL可使batch size提高30% GPU需求降低87% prefill阶段GPU利用率提升7.5倍 [3] - CXL支持冷热数据分层管理 以DeepSeek-1.73B量化模型为例 单路CPU加CXL扩展方案较双路CPU方案在吞吐基本持平时处理器数量更少 形成明显总体拥有成本优势 [3]
广发证券:MRDIMM和CXL增加AI服务器内存 建议关注产业链核心受益标的