华为AI推理新技术犀利!中国银联大模型效率提高了125倍
21世纪经济报道·2025-08-12 22:11
8月12日,华为发布了AI推理创新技术UCM(推理记忆数据管理器,Unified Cache Manager)。 那么为什么要推出UCM?因为推理过程中仍存在不少痛点。 简单来说,这是专门面向大模型推理过程的"缓存管理技术",目的是为了优化推理速度、效率和成本。 具体来看,UCM是一款以KV Cache为中心的推理加速套件,其融合了多类型缓存加速算法工具,分级 管理推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口,以实现高吞吐、低时延的推理体 验,降低每Token推理成本。 现场,华为公司副总裁、数据存储产品线总裁周跃峰表示,UCM推理记忆数据管理器旨在推动AI推理 体验升级,提升推理性价比,加速AI商业正循环。同时,华为联手中国银联率先在金融典型场景开展 UCM技术试点应用,并联合发布智慧金融AI推理加速方案应用成果。 UCM是什么 对于上述颇多术语的介绍,我们来拆解一下。 首先,什么是KV Cache? 据了解,KV Cache是一种用于优化Transformer等模型推理速度的技术,它的核心思想就是把历史 token 的Key和Value(矩阵)缓存下来,下次生成时直接用,避免重新算,从而提 ...