公司产品发布 - Penguin Solutions Inc (纳斯达克: PENG) 宣布推出业界首款可用于生产的KV缓存服务器——MemoryAI KV缓存服务器,该服务器采用CXL内存技术以解决AI推理中的关键“内存墙”挑战 [1][2] - 该创新解决方案提供高达11TB的基于CXL的内存,旨在优化企业级推理(包括智能体AI)的性能 [1][2] - 该服务器集成了3 TB的DDR5主内存和最多八个1 TB的CXL附加卡,从而增加了内存容量 [3] 产品技术原理与性能 - AI推理需求通常由30%的计算驱动和70%的内存驱动,这加大了对更大内存容量的需求并导致性能瓶颈及GPU闲置 [3] - 通过显著扩展GPU可用内存,该服务器能帮助组织缓解GPU内存带宽限制,减少冗余的重计算操作,并优化集群的推理性能 [4] - CXL支持的KV缓存技术可提供更快的首次令牌生成时间、更低的每个输出令牌时间以及更高的端到端令牌总吞吐量 [4] - 该服务器创建的基于CXL的KV缓存作为新的集群内存层级,其速度比基于NVMe的方法快10倍 [9] 产品优势与效益 - 该解决方案带来的结果是更低的延迟、更高的吞吐量、更高的GPU集群效率、持续满足严格的服务水平协议以及更快的首次令牌生成时间 [2] - 支持更大的上下文规模和并发性,对于需要大上下文窗口和极低延迟的企业级任务至关重要,例如实时金融新闻解析、基于海量10-K文件的检索增强生成以及法规遵从性分析 [5] - 该服务器提供了成本和能效优势,通过增加大内存池来最大化GPU的有效使用,并通过合理配置GPU和内存来优化集群,且其运行功耗低于同等的GPU服务器 [9] - 该解决方案与NVIDIA的KV缓存内存卸载软件架构Dynamo兼容 [9] 公司背景与市场活动 - Penguin Solutions是一家AI工厂平台公司,拥有2900名员工,2025年营收为13.7亿美元 [11][16] - 客户已开始部署此解决方案以优化集群性能,并满足生产AI工作负载对延迟的苛刻SLA要求 [6] - 公司将在2026年3月16日至19日于加州圣何塞举行的NVIDIA GTC AI会议和博览会上展示该产品 [6]
Penguin Solutions Introduces Industry's First Production-Ready CXL-Based KV Cache Server