Workflow
华为发布AI推理新技术 中国银联大模型效率提高125倍
21世纪经济报道·2025-08-14 07:10

技术发布 - 华为发布AI推理创新技术UCM 专门优化大模型推理过程的缓存管理技术 旨在提升推理速度 效率和成本效益 [1] - UCM是以KV Cache为中心的推理加速套件 融合多类型缓存加速算法工具 分级管理推理过程中产生的KV Cache记忆数据 扩大推理上下文窗口 实现高吞吐 低时延体验 [1] - 技术通过推理框架 算力 存储三层协同 包含推理引擎插件 功能库和高性能存取适配器三大组件 [3] 性能提升 - UCM依托层级化自适应的全局前缀缓存技术 使首Token时延最大降低90% [3] - 在中国银联试点应用中 大模型推理速度提升125倍 仅需10秒即可精准识别客户高频问题 [4] - 国外主流模型单用户输出速度达200Tokens/s(时延5ms) 而国内普遍小于60Tokens/s(时延50~100ms) [3] 行业应用 - 华为联手中国银联在金融典型场景开展UCM技术试点应用 联合发布智慧金融AI推理加速方案 [1] - 金融行业因数字化属性强 对速度 效率 安全 可靠性要求高 成为验证技术的标杆场景 [4] - 中国银联将依托国家人工智能应用中试基地 联合华为等生态伙伴共建"AI+金融"示范应用 推动技术成果规模化应用 [4] 技术优势 - UCM将专业存储能力引入分级缓存管理 在软硬件协同与卸载方面做了大量工作 如直通加速 KV检索索引与底层文件系统元数据融合 [6] - 具备KV Cache生命周期管理的完整机制 包括预热 分级 淘汰等功能 [6] - 算法加速库超越业界普遍的Prefix Cache层面 商用稀疏全流程算法和后缀检索算法 提供更丰富可靠的技术手段 [6] 生态发展 - UCM通过开放统一的南北向接口 适配多类型推理引擎框架 算力及存储系统 将于今年9月正式开源 [7] - 华为希望促进框架厂商 存储厂商和算力厂商共同加速框架机制成熟 解决AI行业落地过程中的效率与成本问题 [7] - 公司强调从单点算力模组转向网络 存储 端到端的系统性优化 以有效加速AI落地 [7]