降低传统路径依赖,华为推出AI推理新技术
第一财经·2025-08-12 20:43
华为UCM技术发布 - 华为推出AI推理新技术UCM 以KV Cache和记忆管理为中心 通过推理框架、算力和存储三层协同优化Tokens流转效率 [1] - UCM可将首Token时延最高降低90% 系统吞吐最大提升22倍 实现10倍级上下文窗口扩展 [2] - 华为计划在9月正式开源UCM 希望联合产业界推进AI推理生态建设 [3] 国内外推理效率对比 - 国外主流模型单用户输出速度达200 Tokens/s(时延5ms) 中国普遍小于60 Tokens/s(时延50-100ms) [1] - 中国头部互联网公司在推理Token数上与海外头部公司存在差距 [1] - 国内在KV Cache软件体系构建上尚未形成完整解决方案 国外已有成熟推理加速软件框架能与各类硬件平台适配 [2] 技术架构创新 - UCM不再单纯依赖HBM高带宽内存 而是在存储层面构建多层级可灵活调配的资源体系 [2] - 系统级推理架构优化需要从芯片级、软件级到框架级协同考虑 形成完整推理架构 [3] - 业界缺乏普适适用的框架与加速机制 需通过产业协同解决AI落地效率与成本问题 [3]