文章核心观点 - 看好Agent AI时代对存力需求的爆发式增长,认为存储产业将迎来高景气周期,行业供不应求的局面预计将至少持续到2027年底 [1] - 核心推荐存储模组公司、存储原厂及贴近原厂的设计公司 [1] Agent AI时代存力需求激增与瓶颈 - AI从“简单对话”向“智能体(Agent)”演进,驱动上下文需求从8K激增至1M tokens,以Llama-3-70B模型为例,单用户FP16精度下的KV Cache显存占用从5GB飙升至640GB以上 [1] - 最长上下文窗口约每年增长30倍(自2023年中起计),有效使用长度提升更快,部分基准显示过去9个月内提升超250倍 [1] - 单卡HBM容量在3年内提升约34倍(以英伟达H100的80GB增至GB300/Rubin的288GB为例),叠加量化技术,总有效容量提升约1216倍,但仍远低于显存需求的指数级增幅 [1] 解决存力瓶颈的主要技术路径 - 量化:是最直接、最广泛采用的内存压缩手段,例如谷歌TurboQuant和采用FP8混合精度训练的DeepSeekV3模型 [2] - 分层存储:例如英伟达Rubin平台引入推理上下文记忆存储(ICMS)平台,通过以太网连接的闪存层级优化KV Cache,使吞吐量(TPS)提高了5倍,能效比传统存储提高5倍 [2] - 模型架构优化:GQA/MQA已成为主流模型标配,KV Heads远少于Query Heads以降低KV Cache占用;DeepSeek-V2首次提出的MLA注意力机制是专门解决KV cache内存瓶颈的架构级创新 [3] 存储行业趋势与前景 - 预计存储价格将持续上涨,2026年第二季度存储价格涨幅环比第一季度涨幅接近,行业供不应求至少到2027年底 [1] - 根据“杰文斯悖论”,算法效率提升会降低单Token生成成本,进而刺激更高并发与更长上下文需求,导致总存力需求不减反增 [4] - 英伟达提出的“Token工厂经济学”强化了存储在AI基础设施中的战略地位,带宽与容量等存力指标成为系统升级核心,存储产业的盈利天花板将被长期打开 [4] - 看好HBM及CUBE产业链,以及存储紧缺下从主流至利基存储的全面缺货涨价趋势 [1]
中信证券:存算上下文长度激增 显存优化不改存力爆发需求