破局显存焦虑：新华三推出大模型推理场景加速方案

行业背景与挑战 - 2026年核心存储供应链的结构性短缺已成行业刚性现实，供需缺口持续扩大且很可能延续至2027年 [2] - 生成式AI正从技术尝鲜全面走向规模化落地，应用场景从训练为主转向训推并重和轻量推理 [2] - PD分离、KV Cache等技术的规模化应用在提升推理效率的同时，对高带宽、大容量的GPU内存提出了极致严苛的要求，显存资源紧张带来的行业焦虑正在持续蔓延 [2] - 存储部件供应短缺与价格跳升带来双重压力，单纯依靠硬件堆叠会大幅推高每token成本，且受供应链产能制约难以为继 [2] - 通过软硬件协同优化提升GPU等关键部件的使用效率，成为破解内存供应链短缺焦虑、降低总体拥有成本的核心路径 [2] 解决方案：新华三与Pliops的联合创新 - 紫光股份旗下新华三联合国际技术伙伴Pliops协同创新，打造出效能兼备的大模型推理场景加速方案 [3] - Pliops的自研定制化ASIC芯片提供硬件级加速，将KV Cache从GPU内存卸载到指定存储节点，构建专为AI设计的“下一代内存层”，减轻GPU显存压力 [3] - 新华三凭借强大的硬件集成与全栈优化能力，驱动前沿科技与自研AI服务器的创新耦合，形成大模型推理加速的最佳实践 [3] - 方案支持单机形态部署以提高单台AI服务器推理性能，也支持通过外置存储节点同时对接多台AI服务器以提高集群推理性能 [4] 方案性能测试结果 - 新华三基于自研高性能AI服务器进行基准测试，运行DeepSeek-V3-671B模型，分别构建10K和30K的文本输入以模拟实际应用场景 [7] - 采用KV Cache卸载加速方案后，在相同TPOT限制下，并发用户数提升200% [7] - 采用KV Cache卸载加速方案后，TTFT（首Token生成的延迟）降低70%，TPOT（每个Token生成的平均延迟）降低30% [7] 方案应用场景 - 交互式应用（如聊天机器人、智能客服）：通过快速加载存储历史KV Cache，能够大幅缩短响应延迟，提升用户体验 [8] - 长上下文处理（如长文档问答、代码生成）：方案提供的PB级KV Cache扩展能力，使得处理数千甚至数万Tokens上下文的任务更为从容，避免因GPU内存不足导致的性能下降 [8] - 高并发推理服务：通过高效的KV Cache管理，能够支持更多并发会话，显著提高系统的整体吞吐量，在相同的GPU资源下服务更多用户 [8] 未来展望 - 面向未来，公司将持续在AI Infra领域深耕，提供更多针对不同场景、基于不同加速层级和加速介质等技术路线的推理加速方案 [9] - 目标在于帮助企业和开发者更轻松地应对大模型落地应用的复杂性和规模挑战，推动AI技术在更多领域的应用和创新 [9]