广发证券:AI记忆上游基础设施价值量、重要性提升 建议关注产业链核心受益标的
智通财经网·2026-02-03 14:05

文章核心观点 - AI记忆正从“费用项”转变为“资产项”,成为支撑AI应用连续性与个性化能力的底层技术,有望推动AI Agent等应用加速落地,相关上游基础设施的价值和重要性将持续提升 [1] 英伟达推出ICMS平台 - 英伟达推出AI推理上下文存储平台ICMS,旨在为AI Agent与多轮推理场景提供“长期上下文记忆层”,以承载不断累积的KVCache,并以低延迟将历史KVCache回填到多GPU节点的多回合推理会话中 [1] - ICMS平台的KV访问模式呈现低TTFT约束下的高并发、高吞吐随机读取特性 [1] - 随着用户多轮会话与Agent持续运行,KVCache不断累积,系统对可长期留存并按需回填的分层KVCache形成刚性需求,推动上下文存储从HBM外溢至DRAM、SSD等分层介质 [1] ICMS平台的技术与经济性优势 - 在扩展性与经济性方面,SSD单位成本显著低于GPU内存,且可按TB、PB容量扩展,是长期上下文的天然承载介质 [2] - 可行性方面,引入PB级存储层后,ICMS的访问延迟仅较池化DRAM略高 [2] 1. 实证测试显示,在用户池持续扩张的decode阶段,当用户数增长导致KVCache外溢到更低层级存储时,与ICMS兼容的WEKA AMG解决方案凭借更高容量、更强的网络与并发随机访问能力,能更快完成上下文预取与回填,从而在大用户池阶段保持更高且更稳定的token吞吐 [2] - 与HBM+DRAM及HBM+DRAM+POSIX文件系统方案相比,WEKA AMG方案的token吞吐提升最高可达4倍,验证了ICMS在承接长期上下文并维持吞吐稳定性方面的有效性 [2] ICMS平台催生的存储市场空间 - 根据广发证券参考vastdata的测算,若10万个在线用户或Agent使用Llama 3.1 405B模型,单个token的存储空间需求为504KB/token [3] - 若每个上下文窗口为64000 tokens,则对应存储需求约为30GB [3] - 为获得更好用户体验,假设留存倍数为15倍,在上述条件下,支持10万用户的总上下文存储需求约为45PB [3] - 该测算表明,在具备强对话历史能力的大上下文模型上稳定支持10万用户/Agent,所需上下文存储规模可达PB级,为存储市场打开了新的空间 [3]