KV Cache - 财报，业绩电话会，研报，新闻

KV Cache

搜索文档

中国能源网· 2025-11-27 11:04

行业周期分析 - 半导体周期按时间维度分为长周期（8-10年，需求周期）、中周期（4-6年，产能周期）和短周期（3-5个季度，库存周期），三种周期相互嵌套 [1] - 存储器是半导体中仅次于逻辑的第二大细分市场，其历史表现与整个半导体周期走势一致，但波动性大于整个行业 [1] - 每轮存储大周期（如08年、16年）的开启均由新兴技术推动产品升级和创新，催生新产品总量、渗透率和存储器价值量提升，AI驱动需求提升标志着新一轮存储大周期的起点 [1] AI驱动的存储需求增长 - 大模型引入思维链提示使LLM能分解复杂问题，提升推理能力与问题解决技能，推理时长增加提升Token消耗量，预计2025年几乎所有主流大模型都已内化思维链机制 [2] - 从文本向音视频的切换，存储单位从KB增长至TB乃至EB，多模态模型渗透率提升有望进一步推高存储需求 [2] - 大语言模型推理成本以指数级别下降，单美元可生成的token数量持续增长，成本降低有望带动应用爆发并拉动存储需求增长 [2] - KV Cache是Transformer架构中提升推理效率的关键性能优化机制，其显存占用随Token数量线性增长，优化效果与文本长度正相关，成为提升大模型推理效率的关键一环 [2] 存储原厂资本开支与产能状况 - 2025年DRAM资本支出预计为537亿美元，2026年预计增长至613亿美元，同比增长约14% [1][3] - 2025年NAND Flash资本支出预计为211亿美元，2026年预计小幅增长至222亿美元，同比增长约5% [1][3] - DRAM和NAND Flash原厂重心从单纯扩产转向制程技术升级、高层数堆栈、混合键合以及HBM等高附加价值产品 [3] - 行业无尘室空间已接近瓶颈，各大DRAM厂商中仅三星与SK hynix仍具备有限扩线空间，即使资本开支上修，2026年产能增量亦有限 [3] - 在NAND Flash领域，Kioxia/SanDisk相对扩产更为积极，其他原厂则继续专注HBM及DRAM [3]

国泰海通｜电子：打破内存墙限制，AI SSD迎来广阔成长空间

国泰海通证券研究· 2025-10-28 20:00

文章核心观点 - AI大模型发展面临"内存墙"难题，基于SSD的存储卸载技术成为解决方案新路径 [1] - AI推理应用推升高速处理海量数据需求，激发HDD替代效应，大容量Nearline SSD迎来发展机遇 [1][4] - 行业给予"增持"评级 [1] KV Cache技术挑战 - 键值缓存技术通过存储历史Key/Value向量优化计算效率，但会占用GPU显存 [2] - 生成文本越长缓存数据量越大，可能导致HBM和DRAM超载 [2] - 模型规模化扩张和长序列需求激增使KV Cache容量增长超出HBM承载能力 [2] 存储卸载技术方案 - 业界探索KV Cache分级缓存管理技术，支持将缓存从GPU内存卸载到CPU、SSD及网络存储 [3] - 英伟达Dynamo框架提供G1-G4四级KV Cache卸载方案 [3] - 三星将KV Cache卸载至NVMe SSD方案使首token延迟最高降低66%，token间延迟最高降低42% [3] - 方案支持多用户多轮对话场景下的KV Cache重用，I/O吞吐量随对话轮次增加而上升 [3] 存储市场趋势 - AI推理应用推升实时存取、高速处理海量数据需求 [4] - HDD市场面临巨大供应缺口，促使NAND Flash业者加速技术转进 [4] - 供应商积极投入122TB、245TB等超大容量Nearline SSD的生产 [4]

手撕大模型，KVCache 原理及代码解析

自动驾驶之心· 2025-10-20 14:30

KV Cache技术概述 - KV Cache是大型语言模型推理过程中的关键技术，通过缓存中间计算结果显著提升模型运行效率[1] - 该技术专门针对Transformer自回归推理场景，在文本生成等任务中发挥重要作用[1] KV Cache的工作原理 - 核心思想是缓存历史计算中的键（Key）和值（Value）矩阵，避免重复计算[4] - 生成新token时只需计算新的Q矩阵并与历史KV矩阵进行注意力计算[4][7] - 将时间复杂度从O(n²)降低到O(n)，极大提升长序列生成效率[4][7] - 首次生成时计算并缓存所有输入token的K和V矩阵，后续生成只需计算新token的查询矩阵[7] KV Cache的技术实现细节 - 为每个注意力头维护独立缓存，结构为[batch_size, num_heads, seq_len, head_dim][11] - 缓存会随着生成过程动态增长，直到达到模型最大序列长度限制[11] - 采用滑动窗口机制处理超长序列，如Llama 2只保留最近N个token的KV缓存以控制内存占用[12] - 需要权衡最大缓存长度、批量大小和精度选择等参数[15] 内存与性能权衡 - KV Cache提升速度但需要额外内存存储缓存数据[11] - 以GPT-3 175B模型为例，每个token的KV缓存约占用20KB内存[12] - 生成1000个token时单个样本需要约20MB内存，批量处理时内存消耗线性增加[12] 代码实现机制 - 通过维护cache_k和cache_v变量实现历史KV值的存储和更新[14] - 使用缓存时会将新计算的K、V与历史缓存进行拼接[14] - 提供reset_cache方法用于新序列生成时重置缓存状态[14] 优化策略 - 分页KV Cache借鉴内存分页机制，将连续缓存分割成固定大小块提高内存利用率[22] - 动态缓存管理根据输入序列长度动态调整缓存大小[22] - 量化缓存使用INT8或INT4等低精度格式存储，大幅减少内存占用[22] - 选择性缓存对不重要层或注意力头不进行缓存，平衡速度和内存[22]

Large Language Model (LLM)

Transformer

Self-attention

Artificial Intelligence

KV Cache

Large Language Model (LLM)

Transformer

Self-attention

Artificial Intelligence

KV Cache

长上下文不再难：KV Cache 全生命周期优化实战

AI前线· 2025-08-17 13:33

长文本大语言模型的应用与挑战 - 长上下文大语言模型已成为主流，支持千万级token的上下文窗口，显著提升下游任务效果，尤其在Agent类应用中表现突出[5] - 长上下文能力可应用于会议纪要、技术文档、企业知识注入、代码自动纠错、PR生成等场景，能处理完整代码库或极长视频信息[5] - 当前面临两大挑战：1)计算复杂度导致预填充阶段延迟极高，处理100万token输入在A100上需超30分钟 2)KV Cache存储开销大，单个请求可达数十GB显存占用[6] KV缓存优化技术 - 主流优化方法包括MInference(减少预填充延迟)、RetrievalAttention(缓解显存压力)、Prefix Cache复用(跨请求优化)[11] - 优化流程划分为四个阶段：KV Cache生成(采用高效计算策略)、存储前处理(压缩量化)、语义检索(语义级召回)、解码加载优化(稀疏加载)[21][22] - Prefix Caching已广泛应用，通过哈希函数判断缓存命中，最新方法引入语义级匹配机制提高命中率[17][18] 动态稀疏注意力机制 - 注意力机制具有高度动态稀疏性，128K上下文窗口下仅需召回4K KV Cache(稀疏率96.4%)即可恢复95% Attention Recall[39] - 稀疏性呈现局部性特征，包括竖线模式、斜线模式、块状局部模式等空间结构[41][43] - MInference 1.0利用动态稀疏性实现10倍加速，将60张A100的需求降至8张，1M token推理延迟从30分钟降至3分钟[45][46] 多模态场景优化 - 多模态输入下注意力呈现网格状模式，通过排列变换可适配GPU Tensor Core计算特性[54] - 混合输入场景存在三类模态边界，通过局部聚合不同模态可提升计算效率[60] - MMInference采用两级Attention处理模态间和模态内模式，通过置换实现GPU友好计算[62] 性能评估与行业应用 - SCBench基准包含12个子任务，覆盖13种主流长上下文建模方法和四类KV Cache优化策略[27][28] - 在视频理解任务中，优化方法在Llama-3-8B-262K模型上实现8.3倍加速[76] - RetrievalAttention方法使RTX 4090可支持128K token推理，达到每秒5 token的速度[98] - 技术已被应用于vLLM、SGLang等推理框架及Qwen-Turbo-1M等线上场景[104]

Dynamic Sparse Attention

Dynamic Sparse Attention

华为发布AI推理新技术中国银联大模型效率提高125倍

21世纪经济报道· 2025-08-14 07:10

技术发布 - 华为发布AI推理创新技术UCM 专门优化大模型推理过程的缓存管理技术旨在提升推理速度效率和成本效益 [1] - UCM是以KV Cache为中心的推理加速套件融合多类型缓存加速算法工具分级管理推理过程中产生的KV Cache记忆数据扩大推理上下文窗口实现高吞吐低时延体验 [1] - 技术通过推理框架算力存储三层协同包含推理引擎插件功能库和高性能存取适配器三大组件 [3] 性能提升 - UCM依托层级化自适应的全局前缀缓存技术使首Token时延最大降低90% [3] - 在中国银联试点应用中大模型推理速度提升125倍仅需10秒即可精准识别客户高频问题 [4] - 国外主流模型单用户输出速度达200Tokens/s（时延5ms）而国内普遍小于60Tokens/s（时延50~100ms） [3] 行业应用 - 华为联手中国银联在金融典型场景开展UCM技术试点应用联合发布智慧金融AI推理加速方案 [1] - 金融行业因数字化属性强对速度效率安全可靠性要求高成为验证技术的标杆场景 [4] - 中国银联将依托国家人工智能应用中试基地联合华为等生态伙伴共建"AI+金融"示范应用推动技术成果规模化应用 [4] 技术优势 - UCM将专业存储能力引入分级缓存管理在软硬件协同与卸载方面做了大量工作如直通加速 KV检索索引与底层文件系统元数据融合 [6] - 具备KV Cache生命周期管理的完整机制包括预热分级淘汰等功能 [6] - 算法加速库超越业界普遍的Prefix Cache层面商用稀疏全流程算法和后缀检索算法提供更丰富可靠的技术手段 [6] 生态发展 - UCM通过开放统一的南北向接口适配多类型推理引擎框架算力及存储系统将于今年9月正式开源 [7] - 华为希望促进框架厂商存储厂商和算力厂商共同加速框架机制成熟解决AI行业落地过程中的效率与成本问题 [7] - 公司强调从单点算力模组转向网络存储端到端的系统性优化以有效加速AI落地 [7]

长上下文不再难：KV Cache 全生命周期优化实战

AI前线· 2025-08-07 18:08

长文本大语言模型的应用与挑战 - 支持长上下文的大语言模型已成为主流，如Gemini支持千万级token上下文窗口，显著提升下游任务效果[5] - 长上下文能力使模型可处理完整代码库(如Python项目repo)或超长视频信息(如《指环王》三部曲)[5] - 计算复杂度导致延迟瓶颈：A100 GPU上处理100万token输入需超30分钟，服务化需数十张GPU[6] - KV Cache存储压力：单个请求存储开销可达数十GB，制约多请求并发处理能力[6] KV缓存优化技术 - MInference减少预填充阶段延迟达10倍，RetrievalAttention在RTX 4090上支持128K上下文推理[11] - Prefix Cache复用技术可跨请求共享KV Cache，主流框架采用哈希函数提升缓存命中率[17] - 语义级匹配机制识别相似请求，配合局部重算提升缓存利用率[18] - 四阶段优化框架：生成阶段采用动态稀疏化，存储阶段应用8bit量化，检索阶段引入语义哈希，加载阶段优化数据布局[21][22] 动态稀疏注意力机制 - 注意力机制存在96.4%稀疏性，仅需3% KV Cache即可恢复95% Attention Recall[40] - MInference 1.0通过离线模式搜索和在线动态估计实现10倍加速，A100需求从60张降至8张[47] - 多模态场景下注意力呈现网格状结构，通过排列变换适配GPU计算特性[55][61] - MMInference处理混合模态输入时，通过两级注意力机制和边界优化提升效率[63] 基准测试与性能评估 - SCBench包含12个子任务，覆盖13种长上下文建模方法，平均输入长度227K token[27][28] - 在Llava-Video-7B测试中，优化方法保持57.6平均分同时减少52.7%计算量[74] - RetrievalAttention在RTX 4090实现每秒5 token推理速度，1M token处理延迟仅0.172秒[99][100] - 多轮解码需O(n)内存存储能力，token级压缩会导致性能随轮次衰减[31] 行业应用与未来方向 - 技术已应用于vLLM、SGLang等推理框架及Qwen-Turbo-1M线上场景[105] - 动态稀疏性可延伸至预训练和强化学习阶段，实现训练-推理协同优化[107] - 视频生成场景(如快手)利用类似技术处理数百K量级上下文窗口[88] - 社区涌现Top-K策略、参数化估计等新方法提升稀疏模式准确性[82][84]