华为发布AI推理创新技术UCM：实现高吞吐、低时延推理体验，降低每Token推理成本

行业趋势 - 行业正经历从AI训练向AI推理的结构性转变，并因此快速增长 [1] - AI推理体验已成为AI应用的关键，其重要性愈发凸显 [1] - 推理体验的核心指标包括回答时延、答案准确度及复杂上下文推理能力 [1] - 国外主流模型的单用户输出速度已进入每秒200个Token区间（时延5毫秒） [1] - 国内模型的输出速度普遍小于每秒60个Token（时延50至100毫秒），存在显著差距 [1] - 解决推理效率与用户体验的难题迫在眉睫 [1] 公司技术与产品 - 华为联合中国银联共同发布AI推理创新技术UCM（推理记忆数据管理器） [1] - 该技术旨在实现高吞吐、低时延的推理体验 [1] - UCM是一款以键值缓存为中心的推理加速套件 [1] - 该技术融合了多类型缓存加速算法工具 [1] - 其核心功能是分级管理推理过程中产生的键值缓存记忆数据 [1] - 该技术可扩大推理上下文窗口 [1] - 该技术有助于降低每个Token的推理成本 [1]