AI推理创新技术UCM（推理记忆数据管理器） - 财报，业绩电话会，研报，新闻

AI推理创新技术UCM（推理记忆数据管理器）

搜索文档

半导体芯闻· 2025-08-12 17:48

AI推理技术创新 - 华为联合中国银联发布AI推理创新技术UCM（推理记忆数据管理器），旨在实现高吞吐、低时延的推理体验 [2] - UCM技术以KV Cache为中心，融合多类型缓存加速算法工具，分级管理推理记忆数据，扩大推理上下文窗口，降低每Token推理成本 [3] AI推理行业趋势 - AI正从训练向推理结构性转变，推理体验成为AI应用的关键，包括时延、准确度和复杂上下文推理能力 [2] - 国外主流模型单用户输出速度达200 Tokens/s（时延5ms），而国内普遍小于60 Tokens/s（时延50-100ms），提升推理效率迫在眉睫 [2] 其他行业动态 - 半导体行业投资规模达10万亿 [4] - 芯片巨头市值出现大幅下跌 [4] - 黄仁勋评价HBM为技术奇迹，Jim Keller认为RISC-V将胜出 [4]

AI推理

芯片

AI推理创新技术UCM（推理记忆数据管理器）

AI推理

芯片

AI推理创新技术UCM（推理记忆数据管理器）

华为发布AI推理创新技术UCM：实现高吞吐、低时延推理体验，降低每Token推理成本

新浪科技· 2025-08-12 15:22

行业趋势 - 行业正经历从AI训练向AI推理的结构性转变，并因此快速增长 [1] - AI推理体验已成为AI应用的关键，其重要性愈发凸显 [1] - 推理体验的核心指标包括回答时延、答案准确度及复杂上下文推理能力 [1] - 国外主流模型的单用户输出速度已进入每秒200个Token区间（时延5毫秒） [1] - 国内模型的输出速度普遍小于每秒60个Token（时延50至100毫秒），存在显著差距 [1] - 解决推理效率与用户体验的难题迫在眉睫 [1] 公司技术与产品 - 华为联合中国银联共同发布AI推理创新技术UCM（推理记忆数据管理器） [1] - 该技术旨在实现高吞吐、低时延的推理体验 [1] - UCM是一款以键值缓存为中心的推理加速套件 [1] - 该技术融合了多类型缓存加速算法工具 [1] - 其核心功能是分级管理推理过程中产生的键值缓存记忆数据 [1] - 该技术可扩大推理上下文窗口 [1] - 该技术有助于降低每个Token的推理成本 [1]

AI推理

人工智能

AI推理创新技术UCM（推理记忆数据管理器）

AI推理

人工智能

AI推理创新技术UCM（推理记忆数据管理器）

华为将发布AI推理创新技术UCM 实现高吞吐、低时延体验

上海证券报· 2025-08-12 13:24

据介绍，推理体验直接关系到用户与AI交互时的感受，包括回答问题的时延、答案的准确度以及复杂上下文的推理能力等方面。当前，随着AI产业已从"追求模型能力的极限"转向"追求推理体验的最优化"，推理体验直接关联用户满意度、商业可行性等，成为衡量模型价值的黄金标尺。（文章来源：上海证券报） 8月12日，在2025金融AI推理应用落地与发展论坛上，华为将发布AI推理创新技术UCM（推理记忆数据管理器）。作为一款以KV Cache为中心的推理加速套件，其融合了多类型缓存加速算法工具，分级管理推理过程中产生的KV Cache记忆数据，扩大了推理上下文窗口，以实现高吞吐、低时延的推理体验，降低每Token的推理成本。 ...

AI推理体验优化

人工智能

AI推理创新技术UCM（推理记忆数据管理器）

AI推理体验优化

人工智能

AI推理创新技术UCM（推理记忆数据管理器）