UCM(UnifiedCacheManager)推理记忆数据管理技术
搜索文档
“存力中国行”探讨AI推理挑战 华为开源UCM技术为破局关键
新京报· 2025-11-06 12:50
行业活动与焦点 - 中国信息通信研究院组织召开"存力中国行"北京站活动,吸引中国移动、华为、硅基流动等近20家产业代表参与[1] - AI产业发展重心正从"追求模型能力极限"转向"追求推理体验最优化"[1] - 活动焦点为先进存力如何为AI推理"降本增效"[1] AI推理面临的挑战 - AI推理面临KVCache存储需求升级、多模态数据协同、存算协同带宽不足、负载潮汐性及成本控制等挑战[1] - 行业痛点被概括为"管不好"的数据、"喂不饱"的算力和"降不下"的成本[1] 关键技术方案 - 华为开源的UCM推理记忆数据管理技术被视为破局关键方案之一[1] - 该技术以KVCache多级缓存和推理记忆管理为中心,通过推理框架、算力、存储的三层协同,融合多类型缓存加速算法工具[1] - 技术可分级管理推理过程中产生的KVCache记忆数据,有效破解长序列推理效率与成本瓶颈[1] 技术性能与开源影响 - UCM技术开源内容包含稀疏注意力、前缀缓存、预填充卸载、异构PD解耦四大关键能力[2] - 该技术可使首轮Token时延最高降低90%,系统吞吐最大提升22倍,并达到10倍级上下文窗口扩展[2] - 业界认为UCM开源能让开发者和企业以更低成本、更便捷方式获取领先的AI推理加速能力,推动技术走向规模化、普惠化落地[2] - 基础框架与工具链已在ModelEngine社区开放,开发者可通过社区获取源代码与技术文档[2]