Workflow
UCM推理记忆数据管理器
icon
搜索文档
华为提出构建先进数据基础设施路径,助力AI智能体时代加速发展
搜狐财经· 2025-09-08 10:20
数据产量增长与基础设施需求 - 2024年中国数据产量达41.06ZB 同比增长25% 对数据基础设施建设提出更高要求 [1] 数据基础设施分层建设方案 - 城市级需通过存力中心打破数据孤岛 实现全域数据可信流通 [3] - 行业级应构建共享平台 解决高质量语料匮乏问题 [3] - 企业级需打通私域数据壁垒 建立统一管理的AI数据湖 [3] 存储技术创新与性能提升 - 华为UCM推理记忆数据管理器采用KV Cache架构 实现记忆数据多级缓存 [3] - 结合信息浓缩与智能联想技术 动态优化推理过程数据调用路径 [3] - 金融领域试点中AI服务响应延迟降低30% 算力成本下降25% [3] 行业竞争地位与生态战略 - 华为位居中国存储市场首位 全球市场排名第二 [4] - 将AI工具链及推理框架等核心软件能力开源 与产业伙伴共建技术底座 [4] - 存储技术需上升为AI战略基础设施 通过政企学研协同创新加速落地 [4] AI发展阶段与竞争格局 - AI发展进入深水区 数据要素高效利用成为破局关键 [4] - 存储技术驱动变革 可能重新定义AI时代竞争规则 [4]
建设先进数据基础设施,夯实AI智能体时代发展底座
搜狐财经· 2025-09-08 05:36
核心观点 - 2025年被广泛视为AI智能体元年 人工智能加速融入经济社会各领域 推动数据规模爆发式增长[1] - 2024年中国全年数据产量达41.06ZB 同比增长25%[1] - 高效汇聚 流通和利用数据要素成为全球AI竞争核心焦点[1] - 华为提出构建先进数据基础设施系统性路径 强调存储技术在AI全链条中的关键作用[1] 数据基础设施建设 - AI智能体逐步具备自主决策与持续进化能力 数据成为其运行的知识库与记忆体[2] - 数据基础设施建设需分层推进 精准施策[2] - 城市层面重点在于打破数据孤岛 实现全域数据汇聚与可信流通 通过建设先进存力中心提升城市级数据整合能力[4] - 行业层面AI应用瓶颈从数据不足转向高质量语料匮乏 需建设行业级数据共享平台推动多源数据融合[4] - 企业层面需构建AI数据湖 打通私域数据壁垒 统一管理企业知识库 提升智能体间协同效率与决策精度[4] 存储技术创新 - AI价值最终体现在推理环节 存储与计算同等重要[5] - 高效记忆数据管理可显著降低延迟与算力成本[5] - 华为推出UCM推理记忆数据管理器 以KV Cache为核心推理加速解决方案[5] - 产品具备多级缓存架构 将不同热度记忆数据分层池化存储 结合信息浓缩 智能联想等技术[5] - 方案已在金融等行业落地验证 显著提升AI服务响应效率与经济性[5] 产业生态建设 - 华为连续多年位居全球存储市场收入第二 中国市场第一[6] - 华为积极开放AI工具链 推理框架等软件能力 通过开源方式赋能产业伙伴[6] - 需要加强存储技术在AI体系中战略定位 加快先进数据基础设施建设[6]
华为发布AI推理创新技术--UCM推理记忆数据管理器
技术发布与核心特性 - 华为发布UCM推理记忆数据管理器 旨在提升AI推理体验和性价比并加速AI商业正循环 [1] - 技术包含三大组件:推理引擎插件Connector 功能库Accelerator 以及存取适配器Adapter [1] - 通过推理框架 算力 存储三层协同实现更优体验和更低成本 [1] 性能提升表现 - 首Token时延最大降低90% 通过全局前缀缓存技术避免重复计算 [2] - 推理上下文窗口实现10倍级扩展 满足长文本处理需求 [2] - 长序列场景下TPS提升2~22倍 显著降低每Token推理成本 [2] 实际应用案例 - 与中国银联在金融场景开展技术试点 大模型推理速度提升125倍 [2] - 客户之声业务场景中仅需10秒精准识别客户高频问题 [2] 技术推广与生态建设 - UCM计划于今年9月正式开源 适配多类型推理引擎框架和存储系统 [2] - 未来将贡献给业界主流推理引擎社区 推动AI推理生态发展 [2]
每Token成本显著降低 华为发布UCM技术破解AI推理难题
环球网· 2025-08-18 15:40
行业趋势与挑战 - AI推理成为人工智能发展关键阶段 推理体验和成本成为衡量模型价值重要标准 [3] - 行业从"模型智能"转向"数据智能"拐点加速到来 数据治理和价值挖掘成为核心议题 [3] - 金融行业面临长序列输入"推不动"、并发低时延长"推得慢"、KV重复计算"推得贵"三大核心挑战 [5] 技术创新方案 - 公司推出UCM推理记忆数据管理器 由推理引擎插件、功能库和高性能存取适配器三大组件构成 [4] - 通过层级化自适应全局前缀缓存技术使首Token时延最大降低90% [4] - 实现推理上下文窗口10倍级扩展 长序列场景下TPS提升2-22倍 [4] - 智能分级缓存可在HBM、DRAM、SSD等存储介质中按需流动 [4] 应用成果验证 - 与中国银联合作在"客户之声"业务场景实现大模型推理速度提升125倍 [5] - 仅需10秒即可精准识别客户高频问题 有效促进服务质量提升 [5] - 联合发布智慧金融AI推理加速方案应用成果 [1] 生态发展计划 - 公司公布UCM开源计划 9月正式开源并贡献给主流推理引擎社区 [6] - 开放统一南北向接口 可适配多类型推理引擎框架、算力及存储系统 [6] - 通过开源推动全栈协同发展 促进推理架构进步和标准落地 [7]
2025金融AI推理应用落地与发展论坛在金融数据港成功举办
搜狐财经· 2025-08-16 01:35
论坛活动 - 2025金融AI推理应用落地与发展论坛于8月12日在金融数据港AI创新中心举行 [1] - 中国银联执行副总裁涂晓军和华为数字金融军团CEO曹冲出席并发表致辞 [1] 技术发布与合作 - 华为公司副总裁周跃峰博士发布AI推理创新技术UCM推理记忆数据管理器 [3] - 华为与中国银联在金融典型场景开展UCM技术试点应用 [3] - 双方联合发布智慧金融AI推理加速方案应用成果 [3][5] 未来规划 - 中国银联将依托国家人工智能应用中试基地 [5] - 联合华为、上海市金融数据港等生态伙伴共建"AI+金融"示范应用 [5] - 推动技术成果从实验室验证走向规模化应用 [5]
破解效率与成本难题:华为UCM技术推动AI推理体验升级
央广网· 2025-08-13 14:13
行业趋势与背景 - AI推理成为人工智能发展关键阶段 衡量模型价值的重要标尺是推理体验和推理成本 [3] - 企业需持续加大算力投入保障推理体验 但需在效率与成本间寻找平衡点 [3] - Token经济已经到来 模型训练和推理效率的量纲都以Token数为表征 [3] 技术创新与产品发布 - 华为推出UCM推理记忆数据管理器 包含推理引擎插件 功能库和高性能存取适配器三大组件 [3] - UCM通过层级化自适应全局前缀缓存技术 使首Token时延最大降低90% [3] - UCM将超长序列Cache分层卸载至外置专业存储 实现推理上下文窗口10倍级扩展 [3] - UCM具备智能分级缓存能力 在HBM DRAM SSD等存储介质中实现按需流动 [4] - UCM融合多种稀疏注意力算法 使长序列场景下TPS提升2-22倍 [4] 应用成果与商业价值 - 华为携手中国银联在金融典型场景开展UCM技术试点应用 [1] - 在中国银联客户之声业务场景下 大模型推理速度提升125倍 [4] - 客户高频问题识别时间缩短至10秒 促进服务质量提升 [4] - 技术显著降低每Token推理成本 为企业减负增效 [4] 生态建设与开源计划 - 华为公布UCM开源计划 通过开放统一南北向接口适配多类型推理引擎框架 算力及存储系统 [4] - UCM将于今年9月正式开源 后续逐步贡献给业界主流推理引擎社区 [4] - 中国银联将联合华为等生态伙伴共建AI+金融示范应用 推动技术成果从实验室验证走向规模化应用 [4]
即将开源!华为发布AI推理黑科技,已在中国银联落地
钛媒体APP· 2025-08-13 11:44
华为UCM推理记忆数据管理器发布 - 华为发布AI推理创新技术UCM推理记忆数据管理器,旨在提升推理性价比并加速AI商业正循环 [2] - UCM包含推理引擎插件、功能库和高性能KV Cache存取适配器三大组件,通过三层协同实现更优体验和更低成本 [2] - 公司携手中国银联在金融场景开展UCM技术试点,联合发布智慧金融AI推理加速方案应用成果 [2] AI推理行业现状与挑战 - 大模型行业重心从训练转向推理,推理算力需求占比已达58.5% [2] - GPT-5开放首周请求量达20亿次/分钟,70%为复杂任务推理 [2] - 国内火山引擎日均token调用量16.4万亿,70%以上来自线上推理 [2] - 中国互联网AI基础设施投资仅为美国十分之一,面临算力卡阉割、涨价等多重挑战 [3] - 国内大模型首Token时延普遍50-100ms,远慢于海外5ms水平 [4] - 国内模型上下文窗口最大50万Token,长文本分析遗漏关键信息概率超50% [4] UCM技术原理与优势 - 采用"以存代算"思路,通过三级存储协同将首token延迟降低90% [6] - 将PB级历史数据缓存至外置共享存储,避免重复推理 [8] - 通过智能算法对长序列内容切片,使上下文窗口扩大10倍 [9] - 采用注意力稀疏技术分层管理数据,提升整体吞吐量 [9] - 长序列场景下TPS提升2-22倍,显著降低每Token推理成本 [9] 金融行业应用案例 - 中国银联应用UCM技术后,标签分类推理时间从600秒降至10秒内,提升50倍以上 [10] - 标签分类准确率从不到10%提升至80%,达到生产预期 [11] - 解决了金融行业面临的高成本、高延迟、高依赖等核心瓶颈 [10] 开源计划与行业影响 - UCM将于今年9月正式开源,后续贡献给主流推理引擎社区 [11] - 通过开放统一接口适配多类型推理框架、算力及存储系统 [11] - 旨在推动行业标准落地,解决推理体验和成本问题 [11]
贴息政策来了!事关个人消费贷款、服务业经营主体贷款丨盘前情报
21世纪经济报道· 2025-08-13 08:43
A股市场表现 - 市场全天震荡走高,三大指数均创年内新高,沪指涨0.5%至3665.92点,深成指涨0.53%至11351.63点,创业板指涨1.24%至2409.4点 [2] - 沪深两市全天成交额达1.88万亿元,较上个交易日放量545亿元 [2] - 市场个股跌多涨少,超3100只个股下跌,半导体、港口、CPO、新疆等板块涨幅居前,PEEK材料、稀土永磁、锂矿等板块跌幅居前 [2] 全球市场概览 - 纽约股市三大股指上涨,道琼斯指数涨1.10%至44458.61点,标普500指数涨1.13%至6445.76点,纳斯达克指数涨1.39%至21681.90点 [3] - 欧洲三大股指涨跌不一,英国富时100指数涨0.20%至9147.81点,法国CAC40指数涨0.71%至7753.42点,德国DAX指数跌0.23%至24024.78点 [3] - 国际油价下跌,纽约商品交易所9月交货的轻质原油期货价格跌1.24%至每桶63.17美元,伦敦布伦特原油期货价格跌0.77%至每桶66.12美元 [4] 政策动态 - 九部门印发《服务业经营主体贷款贴息政策实施方案》,对2025年3月16日至12月31日期间向餐饮住宿、健康、养老等8类消费领域发放的合规贷款提供贴息支持 [5] - 三部门印发《个人消费贷款财政贴息政策实施方案》,2025年9月1日至2026年8月31日期间居民个人消费贷款可享受贴息,单笔5万元以上消费以5万元为贴息上限 [6] - 东北证券指出,贴息政策有助于银行实现消费贷规模上量,拉大分母缓和不良率,利好银行基本面 [6] 行业与企业动态 - 华为发布AI推理创新技术UCM,并计划于9月正式开源,该技术旨在实现高吞吐、低时延的推理体验,降低每Token推理成本 [6][7] - 商务部对原产于加拿大的进口豌豆淀粉发起反倾销立案调查,倾销调查期为2024年1月1日至12月31日 [8] - 干法锂电池隔膜骨干企业就反内卷达成多项共识,包括价格自律、暂停扩产、科学释放产能等,参与企业包括星源材质、恩捷股份等8家 [8] 宏观经济数据 - 美国7月消费者价格指数(CPI)环比增长0.2%,同比增长2.7%,核心CPI环比增长0.3%,同比增长3.1% [9] 机构观点 - 长城证券认为A股市场上涨势头顺畅,恒生科技指数跑输源于流动性压制和外资定价权主导,但随AI商业化提速和中报业绩验证,成长属性将重新吸引资金 [10] - 中银国际指出AI应用商业化进程处于加速阶段,大模型Tokens消耗量快速增长,看好AI编程、AI广告、AI多模态等具备明确用户增长及收入放量能力的赛道 [11] 公司公告摘要 - 臻镭科技上半年净利润同比增长1007% [12] - 白云机场与中免集团签订T3航站楼出境免税项目经营合作合同 [12] - *ST华微无法在责令改正期限内完成资金占用整改,股票停牌 [12] - ST盛屯撤销其他风险警示,股票简称变更为"盛屯矿业" [12] - 金橙子拟购买萨米特55%股权,股票将复牌 [12] - 中国船舶异议股东收购请求权行权价格为30.02元/股 [12] - 衢州发展拟购买先导电子95.46%股份,股票复牌 [12] - 中国重工异议股东现金选择权行权价格为4.03元/股 [12] 资金流向分析 - 主力资金净流入前五大行业为半导体(61.40亿元)、计算机设备(11.85亿元)、通信设备(11.84亿元)、电子化学品(6.59亿元)、航运港口(4.90亿元) [13] - 主力资金净流出前五大行业为小金属(-43.18亿元)、航天航空(-32.51亿元)、通用设备(-27.89亿元)、专用设备(-27.60亿元)、化学制药(-27.11亿元) [13] - 个股方面,寒武纪-U主力资金净流入20.16亿元,北方稀土主力资金净流出10.09亿元 [14]
华为在沪发布AI推理创新技术UCM 9月将正式开源
搜狐财经· 2025-08-12 19:53
产品发布与技术特点 - 华为发布UCM推理记忆数据管理器 作为以KV Cache为中心的推理加速套件 融合多类型缓存加速算法工具 分级管理推理过程中产生的KV Cache记忆数据 扩大推理上下文窗口 实现高吞吐低时延的推理体验 降低每Token推理成本 [2] - UCM包含三大组件 推理引擎插件Connector对接不同引擎与算力 功能库Accelerator支持多级KV Cache管理及加速算法 高性能KV Cache存取适配器Adapter 通过推理框架算力存储三层协同实现更优体验更低成本 [3] - UCM通过层级化自适应的全局前缀缓存技术 使系统直接调用KV缓存数据避免重复计算 首Token时延最大降低90% 同时将超长序列Cache分层卸载至外置专业存储 实现推理上下文窗口10倍级扩展 [3] - UCM具备智能分级缓存能力 根据记忆热度在HBM DRAM SSD等存储介质中实现按需流动 融合多种稀疏注意力算法实现存算深度协同 使长序列场景下TPS每秒处理token数提升2-22倍 显著降低每Token推理成本 [3] 应用场景与合作伙伴 - 华为携手中国银联率先在金融典型场景开展UCM技术试点应用 联合发布智慧金融AI推理加速方案应用成果 [2] - 在中国银联客户之声业务场景下 UCM技术使大模型推理速度提升125倍 仅需10秒即可精准识别客户高频问题 [4] - 中国银联将依托国家人工智能应用中试基地 联合华为等生态伙伴共建AI+金融示范应用 推动技术成果从实验室验证走向规模化应用 [4] 开源计划与生态建设 - 华为正式公布UCM开源计划 通过开放统一的南北向接口适配多类型推理引擎框架算力及存储系统 [4] - UCM将于今年9月正式开源 后续逐步贡献给业界主流推理引擎社区 携手全产业共同推动AI推理生态的繁荣发展 [4] 行业背景与发展趋势 - 人工智能已步入发展深水区 AI推理正成为下一个爆发式增长的关键阶段 [2] - AI时代模型训练推理效率与体验的量纲都以Token数为表征 Token经济已经到来 [2] - 为保障流畅的推理体验企业需持续加大算力投入 在推理效率与成本之间找到最佳平衡点成为全行业亟待解决的重要课题 [2]
华为:AI推理创新技术UCM将于今年9月正式开源
新浪科技· 2025-08-12 19:21
产品发布 - 华为发布AI推理创新技术UCM推理记忆数据管理器 包括推理引擎插件Connector 功能库Accelerator 高性能KV Cache存取适配器Adapter三大组件 [2] - UCM技术通过推理框架 算力 存储三层协同 实现AI推理更优体验和更低成本 [2] 技术应用 - 华为与中国银联在金融典型场景开展UCM技术试点应用 联合发布智慧金融AI推理加速方案应用成果 [2] - 在中国银联客户之声业务场景下 UCM技术使大模型推理速度提升125倍 仅需10秒即可精准识别客户高频问题 [3] 行业观点 - AI时代模型训练和推理效率的量纲以Token数为表征 Token经济已经到来 [2] - 企业需持续加大算力投入保障推理体验 但需在推理效率与成本之间找到最佳平衡点 [2] 生态发展 - 华为公布UCM开源计划 通过开放统一南北向接口适配多类型推理引擎框架 算力及存储系统 [3] - UCM将于今年9月正式开源 后续逐步贡献给业界主流推理引擎社区 [3] - 中国银联将联合华为等生态伙伴共建AI+金融示范应用 推动技术成果从实验室验证走向规模化应用 [3]