Workflow
UCM推理记忆数据管理器
icon
搜索文档
2025金融AI推理应用落地与发展论坛在金融数据港成功举办
搜狐财经· 2025-08-16 01:35
论坛活动 - 2025金融AI推理应用落地与发展论坛于8月12日在金融数据港AI创新中心举行 [1] - 中国银联执行副总裁涂晓军和华为数字金融军团CEO曹冲出席并发表致辞 [1] 技术发布与合作 - 华为公司副总裁周跃峰博士发布AI推理创新技术UCM推理记忆数据管理器 [3] - 华为与中国银联在金融典型场景开展UCM技术试点应用 [3] - 双方联合发布智慧金融AI推理加速方案应用成果 [3][5] 未来规划 - 中国银联将依托国家人工智能应用中试基地 [5] - 联合华为、上海市金融数据港等生态伙伴共建"AI+金融"示范应用 [5] - 推动技术成果从实验室验证走向规模化应用 [5]
即将开源!华为发布AI推理黑科技,已在中国银联落地
钛媒体APP· 2025-08-13 11:44
华为UCM推理记忆数据管理器发布 - 华为发布AI推理创新技术UCM推理记忆数据管理器,旨在提升推理性价比并加速AI商业正循环 [2] - UCM包含推理引擎插件、功能库和高性能KV Cache存取适配器三大组件,通过三层协同实现更优体验和更低成本 [2] - 公司携手中国银联在金融场景开展UCM技术试点,联合发布智慧金融AI推理加速方案应用成果 [2] AI推理行业现状与挑战 - 大模型行业重心从训练转向推理,推理算力需求占比已达58.5% [2] - GPT-5开放首周请求量达20亿次/分钟,70%为复杂任务推理 [2] - 国内火山引擎日均token调用量16.4万亿,70%以上来自线上推理 [2] - 中国互联网AI基础设施投资仅为美国十分之一,面临算力卡阉割、涨价等多重挑战 [3] - 国内大模型首Token时延普遍50-100ms,远慢于海外5ms水平 [4] - 国内模型上下文窗口最大50万Token,长文本分析遗漏关键信息概率超50% [4] UCM技术原理与优势 - 采用"以存代算"思路,通过三级存储协同将首token延迟降低90% [6] - 将PB级历史数据缓存至外置共享存储,避免重复推理 [8] - 通过智能算法对长序列内容切片,使上下文窗口扩大10倍 [9] - 采用注意力稀疏技术分层管理数据,提升整体吞吐量 [9] - 长序列场景下TPS提升2-22倍,显著降低每Token推理成本 [9] 金融行业应用案例 - 中国银联应用UCM技术后,标签分类推理时间从600秒降至10秒内,提升50倍以上 [10] - 标签分类准确率从不到10%提升至80%,达到生产预期 [11] - 解决了金融行业面临的高成本、高延迟、高依赖等核心瓶颈 [10] 开源计划与行业影响 - UCM将于今年9月正式开源,后续贡献给主流推理引擎社区 [11] - 通过开放统一接口适配多类型推理框架、算力及存储系统 [11] - 旨在推动行业标准落地,解决推理体验和成本问题 [11]