KV Cache - 财报，业绩电话会，研报，新闻

KV Cache

搜索文档

高通新发AI推理芯片，瞄准3000亿美元市场，科创芯片ETF博时(588990)盘中回调超4%，备受资金关注

搜狐财经· 2025-10-31 14:01

指数与ETF表现 - 截至2025年10月31日13:41，上证科创板芯片指数下跌3.70% [3] - 指数成分股涨跌互现，峰岹科技领涨1.98%，艾为电子上涨1.90%，乐鑫科技上涨1.36%；澜起科技领跌9.30%，燕东微下跌7.61%，盛美上海下跌7.06% [3] - 科创芯片ETF博时(588990)下跌3.77%，最新报价2.48元 [3] - 截至2025年10月30日，科创芯片ETF博时近1周累计上涨4.80%，涨幅在可比基金中排名第2位（共8只） [3] - 科创芯片ETF博时盘中换手率为9.18%，成交额为6318.26万元 [4] - 截至10月30日，科创芯片ETF博时近1月日均成交额为1.33亿元 [4] - 科创芯片ETF博时近2周规模增长3192.25万元，新增规模在可比基金中排名第3位（共8只） [4] - 科创芯片ETF博时最新资金净流出519.72万元，但近16个交易日内合计资金净流入5312.03万元 [4] 行业动态与市场情绪 - Meta公布季度业绩后股价收跌11.33%，创三年来最大跌幅，微软下跌2.92，投资者对两家公司在人工智能领域持续增长的支出预期感到担忧 [3] - 对科技巨头AI支出的担忧情绪蔓延至芯片板块，导致芯片股整体承压 [3] - 高通发布AI200及AI250两款数据中心AI推理芯片，瞄准2026年爆发的3000亿美元市场，正式入局AI芯片领域，成为英伟达的竞争对手 [3] 机构观点与行业趋势 - 随着AI推理应用落地，KV Cache正从HBM卸载至DRAM和SSD，带动DDR5、eSSD等存储需求上升 [4] - 海力士指引2026年DRAM位元需求增长超20%，NAND Flash需求增速将提升至高十位数百分比 [4] - 存储行业正由供给驱动的涨价周期转向AI需求拉动的产业大周期，价格有望在2026年上半年延续上扬趋势 [4] - 国内晶圆厂全球市占率有望从目前的10%提升至30%，存在约3倍扩产空间 [4] - 半导体设备国产化率若从目前的20%提升到60%至100%，则有3至5倍的增长空间 [4] - 今年国内晶圆厂投资节奏相对平稳，但头部存储厂商新项目有望启动，先进逻辑厂商亦在加大扩产力度，半导体设备行业或迎来新一轮增长 [4] 指数构成 - 上证科创板芯片指数从科创板上市公司中选取业务涉及半导体材料和设备、芯片设计、芯片制造、芯片封装和测试相关的证券作为指数样本 [5] - 截至2025年9月30日，指数前十大权重股为海光信息、澜起科技、中芯国际、寒武纪、中微公司、芯原股份、华虹公司、沪硅产业、华海清科、晶晨股份，合计权重为59.69% [5]

榨干GPU性能，中兴Mariana（马里亚纳）突破显存壁垒

量子位· 2025-08-26 13:46

行业背景与挑战 - 大语言模型在行业应用中面临推理效率与显存成本的尖锐矛盾尤其KV Cache技术成为显存消耗的主要瓶颈每增加一个token都需要更多显存存储键值向量制约模型规模扩张和并发能力提升 [1] 现有技术方案局限性 - Nvidia Dynamo项目采用多级缓存算法将热数据存于显存、温数据在主机内存、冷数据在SSD或远端存储但存在数据迁移流程复杂和延迟开销问题 [2] - 微软LMCache存储系统兼容vLLM等推理框架但分布式存储支持度低且空间上限受限 [3] - 阿里巴巴方案将KV Cache扩展到Tair数据库虽易于扩展存储空间但读写性能难以满足低延迟需求 [3] 技术创新方案 - CXL高速互联技术凭借高带宽、低延迟和硬件级缓存一致性特性为破解内存瓶颈提供新方向但目前业界针对CXL存储加速LLM推理的研究仍较少 [5] - 中兴通讯与华东师范大学联合推出Mariana分布式共享KV存储技术通过三项核心创新实现比现有方案高1.7倍吞吐量尾延迟降低23% [6] - 细粒度并发控制方案将锁粒度从节点级降至条目级通过RDMA_CAS竞争空闲槽位闩锁显著减少写密集型和高偏斜工作负载下的争用 [8] - 定制化叶子节点数据布局采用分离式存储 Key连续存放可一次性加载至SIMD寄存器 Value与校验和另存内存块大幅提升查找速度 [10] - 自适应缓存策略通过Count-Min Sketch算法快速感知热点数据维护按热度排序链表降低热点数据加载延迟 [11] 性能验证与应用 - Mariana支持将数据分布在远端CPU DRAM及PMem/SSD组成的共享内存池理论存储空间无上限 [13] - 在vLLM框架测试中 GPU显存仅能存放50% KV数据时 Mariana多级存储方案显著提升大模型推理预加载阶段性能 [15][17] - 该技术通过硬件加速和智能缓存减少KV Cache查找的计算与网络开销提升读吞吐量其数据路径针对低延迟优化延迟远低于需经远端CPU协议栈的解决方案 [19] 技术演进前景 - Mariana设计理念与底层硬件解耦核心算法可直接从RDMA网络迁移至CXL硬件生态仅需替换远程访问API即可利用CXL低延迟和一致性优势 [18] - 该技术重新定义大模型推理存储逻辑使分布式存储在高吞吐与低延迟间找到平衡点为百亿/千亿参数模型在普通硬件上高效运行奠定基础 [18]

华为AI推理新技术犀利！中国银联大模型效率提高了125倍

21世纪经济报道· 2025-08-12 22:11

技术发布 - 华为发布AI推理创新技术UCM 专门优化大模型推理过程的缓存管理技术旨在提升推理速度效率和成本效益 [1] - UCM是以KV Cache为中心的推理加速套件融合多类型缓存加速算法工具分级管理推理过程中产生的KV Cache记忆数据扩大推理上下文窗口 [1] - 技术通过推理框架算力存储三层协同实现高吞吐低时延的推理体验降低每Token推理成本 [1][5] 技术原理 - KV Cache是一种优化Transformer模型推理速度的技术通过缓存历史token的Key和Value矩阵避免重复计算提升推理速度并降低计算成本 [3] - KV Cache采用用内存换计算的工程优化手段作为模型推理过程中的记忆本临时保存计算中间结果 [3] - UCM包含三大组件：推理引擎插件Connector 支持多级KV Cache管理及加速算法的功能库Accelerator 高性能KV Cache存取适配器Adapter [5] 性能提升 - 依托UCM层级化自适应的全局前缀缓存技术系统可直接调用KV缓存数据使首Token时延最大降低90% [5] - 在中国银联客户之声业务场景试点中大模型推理速度提升125倍仅需10秒即可精准识别客户高频问题 [5] - 国外主流模型单用户输出速度达200 Tokens/s（时延5ms）而国内普遍小于60 Tokens/s（时延50-100ms） [4] 行业应用 - 华为联手中国银联在金融典型场景开展UCM技术试点应用联合发布智慧金融AI推理加速方案 [1] - 金融行业因数字化属性强且对速度效率安全要求高成为验证技术的标杆场景 [5] - 中国银联将依托国家人工智能应用中试基地联合华为等生态伙伴共建AI+金融示范应用推动技术成果规模化应用 [6] 技术优势 - UCM将专业存储能力引入分级缓存管理在软硬件协同与卸载方面做了大量工作包括直通加速 KV检索索引与底层文件系统元数据融合 [8] - UCM具备KV Cache生命周期管理的完整机制包括预热分级淘汰等功能 [8] - 相比业界仅停留在Prefix Cache层面 UCM将稀疏全流程算法后缀检索算法等投入商用提供更丰富可靠的算法库 [8] 生态建设 - UCM通过开放统一的南北向接口可适配多类型推理引擎框架算力及存储系统 [9] - 计划于今年9月正式开源后续逐步贡献给业界主流推理引擎社区 [9] - 华为在AI布局上持续进行产业链各环节升级实现从单点算力模组转向系统性优化的趋势 [9]