Workflow
华为 上新“AI黑科技”
上海证券报·2025-08-12 23:56

华为UCM技术发布 - 华为发布AI推理记忆数据管理器UCM,旨在实现更快的推理响应、更长的推理序列和更低的推理成本 [1] - UCM包含三大组件:推理引擎插件、功能库和高性能KV Cache存取适配器,通过三层协同实现"更优体验、更低成本" [5] - 技术特点包括首Token时延最大降低90%,推理上下文窗口10倍级扩展,长序列场景下TPS提升2-22倍 [5][6] 技术性能对比 - 国外大模型服务单用户输出速度达200 tokens/s(时延5ms),国内普遍小于60 tokens/s(时延50-100ms) [5] - OpenAI O3 mini的每秒Token输出能力约为国内某开源大模型的10倍 [5] - 在中国银联试点中,UCM使大模型推理速度提升125倍,10秒即可识别客户高频问题 [10] 开源计划与行业应用 - 华为计划于2023年9月正式开源UCM,后续将贡献给主流推理引擎社区 [3][12] - UCM采用开放接口设计,可适配多类型推理引擎框架、算力及存储系统 [12] - 金融行业成为首个应用领域,与中国银联合作验证技术价值,推动"AI+金融"示范应用建设 [7][10] 商业目标与行业影响 - 目标是在算力投入不变前提下优化推理体验,推动AI推理进入商业正循环 [6] - Token经济时代到来,模型训练和推理效率以Token数为重要衡量标准 [1][4] - 金融行业因IT信息化领先和数据挖掘需求成为技术落地首选场景 [7]