产品发布与技术特点 - 华为发布UCM推理记忆数据管理器 作为以KV Cache为中心的推理加速套件 融合多类型缓存加速算法工具 分级管理推理过程中产生的KV Cache记忆数据 扩大推理上下文窗口 实现高吞吐低时延的推理体验 降低每Token推理成本 [2] - UCM包含三大组件 推理引擎插件Connector对接不同引擎与算力 功能库Accelerator支持多级KV Cache管理及加速算法 高性能KV Cache存取适配器Adapter 通过推理框架算力存储三层协同实现更优体验更低成本 [3] - UCM通过层级化自适应的全局前缀缓存技术 使系统直接调用KV缓存数据避免重复计算 首Token时延最大降低90% 同时将超长序列Cache分层卸载至外置专业存储 实现推理上下文窗口10倍级扩展 [3] - UCM具备智能分级缓存能力 根据记忆热度在HBM DRAM SSD等存储介质中实现按需流动 融合多种稀疏注意力算法实现存算深度协同 使长序列场景下TPS每秒处理token数提升2-22倍 显著降低每Token推理成本 [3] 应用场景与合作伙伴 - 华为携手中国银联率先在金融典型场景开展UCM技术试点应用 联合发布智慧金融AI推理加速方案应用成果 [2] - 在中国银联客户之声业务场景下 UCM技术使大模型推理速度提升125倍 仅需10秒即可精准识别客户高频问题 [4] - 中国银联将依托国家人工智能应用中试基地 联合华为等生态伙伴共建AI+金融示范应用 推动技术成果从实验室验证走向规模化应用 [4] 开源计划与生态建设 - 华为正式公布UCM开源计划 通过开放统一的南北向接口适配多类型推理引擎框架算力及存储系统 [4] - UCM将于今年9月正式开源 后续逐步贡献给业界主流推理引擎社区 携手全产业共同推动AI推理生态的繁荣发展 [4] 行业背景与发展趋势 - 人工智能已步入发展深水区 AI推理正成为下一个爆发式增长的关键阶段 [2] - AI时代模型训练推理效率与体验的量纲都以Token数为表征 Token经济已经到来 [2] - 为保障流畅的推理体验企业需持续加大算力投入 在推理效率与成本之间找到最佳平衡点成为全行业亟待解决的重要课题 [2]
华为在沪发布AI推理创新技术UCM 9月将正式开源
搜狐财经·2025-08-12 19:53