文章核心观点 - 华为发布AI推理创新技术UCM,旨在解决AI推理领域的高延迟和高成本挑战,通过提升推理效率和降低时延来改善用户体验,并计划通过开源推动行业标准形成 [1][3][4] 技术发布与背景 - 华为于8月12日举行发布会,正式推出AI推理技术UCM [1] - 国外主流模型的单用户输出速度已达200 Tokens/s(时延5ms),而中国普遍小于60 Tokens/s(时延50-100ms),凸显推理效率差距 [1] - AI推理的高延迟和高成本是当前行业发展的主要挑战 [1] 技术原理与性能提升 - UCM是一款以KVCache为中心的推理加速套件,通过分级管理KVCache记忆数据来扩大推理上下文窗口,实现高吞吐、低时延 [1] - 通过层级化自适应的全局前缀缓存技术,UCM可在多轮对话等场景中直接调用KV缓存数据,避免重复计算,使首Token时延最大降低90% [2] - UCM根据记忆热度在HBM、DRAM、SSD等存储介质中自动分级缓存,融合稀疏注意力算法,使长序列场景下TPS(每秒处理token数)提升2-22倍 [2] - 通过动态KV逐层卸载等技术,UCM将超长序列Cache分层卸载至外置存储,实现10倍级推理上下文窗口扩展 [2] 行业现状与商业影响 - 中国互联网企业在AI领域的投资规模仅为美国的十分之一,国内大模型推理体验与海外存在差距 [3] - 推理体验不足会导致用户流失,进而减缓企业投资,形成恶性循环 [3] - UCM可在算力投入不变的前提下优化推理体验,推动“体验提升-用户增长-投资加大-技术迭代”的商业正循环 [3] - 随着AI应用渗透,用户请求量和生成Token数激增,例如火山引擎2025年5月日均Token调用达16.4万亿,较2024年同期激增137倍 [4] - 巨大的Token处理量带来高昂运营成本,保障流畅体验需加大算力投入,平衡成本与体验成为行业难题 [4] 应用试点与开源计划 - UCM已在中国银联的“客户之声”、“营销策划”、“办公助手”三大业务场景开展智慧金融AI推理加速应用试点 [3] - 华为计划于2025年9月正式开源UCM,届时将在魔擎社区首发,并逐步贡献给主流推理引擎社区 [4] - 开源目的是推动行业内更多企业共同形成推理框架和标准,加速推理领域发展 [4]
华为发布AI黑科技UCM,下个月开源
证券时报网·2025-08-12 17:23