华为发布AI黑科技UCM,下个月开源
证券时报网·2025-08-12 17:23
AI时代下,推理技术关系用户与AI交互的体验,包括回答问题的时延、答案的准确度以及复杂上下文 的推理能力等,在此背景下,华为最新推出AI推理黑科技UCM(推理记忆数据管理器),可大幅降低推理 时延与成本,并大幅提升推理效率。 8月12日,华为举行发布会,正式发布AI推理创新技术UCM。 据了解,目前,国外主流模型的单用户输出速度已进入200Tokens/s区间(时延5ms),而我国普遍小于 60Tokens/s(时延50—100ms),如何解决推理效率与用户体验的难题迫在眉睫。 "高延迟、高成本是当下AI推理领域发展的主要挑战。"华为数字金融军团CEO曹冲在会上表示。 华为方面介绍,作为一款以KVCache为中心的推理加速套件,UCM融合了多类型缓存加速算法工具, 分级管理推理过程中产生的KVCache记忆数据,可扩大推理上下文窗口,以实现高吞吐、低时延的推理 体验,降低每Token推理成本。 在具体技术实现路径以及方面,华为相关负责人表示,UCM通过层级化自适应的全局前缀缓存技术, 可实现任意物理位置、任意输入组合上的KV前缀缓存重用,在多轮对话、RAG知识检索等场景中直接 调用KV缓存数据,避免重复计算, ...