Workflow
华为发布AI黑科技UCM,9月正式开源
证券时报网·2025-08-12 18:16

行业背景与挑战 - AI推理技术直接影响用户交互体验 包括回答时延 答案准确度和复杂上下文推理能力 [1] - 国外主流模型单用户输出速度达200 Tokens/s(时延5ms) 而国内普遍低于60 Tokens/s(时延50-100ms)存在明显技术差距 [2] - 高延迟和高成本是AI推理领域发展的主要挑战 [3] - 中国互联网企业AI领域投资规模仅为美国的十分之一 推理体验不足导致用户流失 形成"体验差-投资收缩-技术受限"的恶性循环 [4] - AI应用渗透使Token数指数级增长 火山引擎2025年5月日均Token调用达16.4万亿 较2024年同期激增137倍 [5] 技术解决方案 - 华为推出UCM推理记忆数据管理器 以KV Cache为中心 融合多类型缓存加速算法工具 [1][3] - 通过层级化自适应全局前缀缓存技术 实现任意物理位置和输入组合的KV前缀缓存重用 使首Token时延最大降低90% [3] - 根据记忆热度在HBM/DRAM/SSD存储介质中自动分级缓存 融合稀疏注意力算法 使长序列场景TPS提升2-22倍 [3] - 采用动态KV逐层卸载/位置编码扩展/Prefill稀疏等组合技术 将超长序列Cache分层卸载至外置存储 实现10倍级推理上下文窗口扩展 [3] 商业应用价值 - UCM在算力基础设施投入不变前提下显著优化推理体验 推动"体验提升-用户增长-投资加大-技术迭代"的商业正循环 [4] - 已在中国银联"客户之声""营销策划""办公助手"三大业务场景开展智慧金融AI推理加速应用试点 [4] - Token经济时代来临 训练和推理效率量纲都以Token为表征 最大化单Token智能承载力成为厂商核心目标 [5] 生态建设计划 - 华为计划2025年9月正式开源UCM 在魔擎社区首发 后续贡献给主流推理引擎社区 [5] - 将技术共享给所有Share Everything存储厂商和生态伙伴 推动行业推理框架和标准形成 [5]