Workflow
Token经济
icon
搜索文档
每Token成本显著降低 华为发布UCM技术破解AI推理难题
环球网· 2025-08-18 15:40
行业趋势与挑战 - AI推理成为人工智能发展关键阶段 推理体验和成本成为衡量模型价值重要标准 [3] - 行业从"模型智能"转向"数据智能"拐点加速到来 数据治理和价值挖掘成为核心议题 [3] - 金融行业面临长序列输入"推不动"、并发低时延长"推得慢"、KV重复计算"推得贵"三大核心挑战 [5] 技术创新方案 - 公司推出UCM推理记忆数据管理器 由推理引擎插件、功能库和高性能存取适配器三大组件构成 [4] - 通过层级化自适应全局前缀缓存技术使首Token时延最大降低90% [4] - 实现推理上下文窗口10倍级扩展 长序列场景下TPS提升2-22倍 [4] - 智能分级缓存可在HBM、DRAM、SSD等存储介质中按需流动 [4] 应用成果验证 - 与中国银联合作在"客户之声"业务场景实现大模型推理速度提升125倍 [5] - 仅需10秒即可精准识别客户高频问题 有效促进服务质量提升 [5] - 联合发布智慧金融AI推理加速方案应用成果 [1] 生态发展计划 - 公司公布UCM开源计划 9月正式开源并贡献给主流推理引擎社区 [6] - 开放统一南北向接口 可适配多类型推理引擎框架、算力及存储系统 [6] - 通过开源推动全栈协同发展 促进推理架构进步和标准落地 [7]
破解效率与成本难题:华为UCM技术推动AI推理体验升级
央广网· 2025-08-13 14:13
行业趋势与背景 - AI推理成为人工智能发展关键阶段 衡量模型价值的重要标尺是推理体验和推理成本 [3] - 企业需持续加大算力投入保障推理体验 但需在效率与成本间寻找平衡点 [3] - Token经济已经到来 模型训练和推理效率的量纲都以Token数为表征 [3] 技术创新与产品发布 - 华为推出UCM推理记忆数据管理器 包含推理引擎插件 功能库和高性能存取适配器三大组件 [3] - UCM通过层级化自适应全局前缀缓存技术 使首Token时延最大降低90% [3] - UCM将超长序列Cache分层卸载至外置专业存储 实现推理上下文窗口10倍级扩展 [3] - UCM具备智能分级缓存能力 在HBM DRAM SSD等存储介质中实现按需流动 [4] - UCM融合多种稀疏注意力算法 使长序列场景下TPS提升2-22倍 [4] 应用成果与商业价值 - 华为携手中国银联在金融典型场景开展UCM技术试点应用 [1] - 在中国银联客户之声业务场景下 大模型推理速度提升125倍 [4] - 客户高频问题识别时间缩短至10秒 促进服务质量提升 [4] - 技术显著降低每Token推理成本 为企业减负增效 [4] 生态建设与开源计划 - 华为公布UCM开源计划 通过开放统一南北向接口适配多类型推理引擎框架 算力及存储系统 [4] - UCM将于今年9月正式开源 后续逐步贡献给业界主流推理引擎社区 [4] - 中国银联将联合华为等生态伙伴共建AI+金融示范应用 推动技术成果从实验室验证走向规模化应用 [4]
华为 上新“AI黑科技”
上海证券报· 2025-08-12 23:56
华为UCM技术发布 - 华为发布AI推理记忆数据管理器UCM,旨在实现更快的推理响应、更长的推理序列和更低的推理成本 [1] - UCM包含三大组件:推理引擎插件、功能库和高性能KV Cache存取适配器,通过三层协同实现"更优体验、更低成本" [5] - 技术特点包括首Token时延最大降低90%,推理上下文窗口10倍级扩展,长序列场景下TPS提升2-22倍 [5][6] 技术性能对比 - 国外大模型服务单用户输出速度达200 tokens/s(时延5ms),国内普遍小于60 tokens/s(时延50-100ms) [5] - OpenAI O3 mini的每秒Token输出能力约为国内某开源大模型的10倍 [5] - 在中国银联试点中,UCM使大模型推理速度提升125倍,10秒即可识别客户高频问题 [10] 开源计划与行业应用 - 华为计划于2023年9月正式开源UCM,后续将贡献给主流推理引擎社区 [3][12] - UCM采用开放接口设计,可适配多类型推理引擎框架、算力及存储系统 [12] - 金融行业成为首个应用领域,与中国银联合作验证技术价值,推动"AI+金融"示范应用建设 [7][10] 商业目标与行业影响 - 目标是在算力投入不变前提下优化推理体验,推动AI推理进入商业正循环 [6] - Token经济时代到来,模型训练和推理效率以Token数为重要衡量标准 [1][4] - 金融行业因IT信息化领先和数据挖掘需求成为技术落地首选场景 [7]
降低传统路径依赖,华为推出AI推理新技术
第一财经· 2025-08-12 20:43
华为UCM技术发布 - 华为推出AI推理新技术UCM 以KV Cache和记忆管理为中心 通过推理框架、算力和存储三层协同优化Tokens流转效率 [1] - UCM可将首Token时延最高降低90% 系统吞吐最大提升22倍 实现10倍级上下文窗口扩展 [2] - 华为计划在9月正式开源UCM 希望联合产业界推进AI推理生态建设 [3] 国内外推理效率对比 - 国外主流模型单用户输出速度达200 Tokens/s(时延5ms) 中国普遍小于60 Tokens/s(时延50-100ms) [1] - 中国头部互联网公司在推理Token数上与海外头部公司存在差距 [1] - 国内在KV Cache软件体系构建上尚未形成完整解决方案 国外已有成熟推理加速软件框架能与各类硬件平台适配 [2] 技术架构创新 - UCM不再单纯依赖HBM高带宽内存 而是在存储层面构建多层级可灵活调配的资源体系 [2] - 系统级推理架构优化需要从芯片级、软件级到框架级协同考虑 形成完整推理架构 [3] - 业界缺乏普适适用的框架与加速机制 需通过产业协同解决AI落地效率与成本问题 [3]
华为在沪发布AI推理创新技术UCM 9月将正式开源
搜狐财经· 2025-08-12 19:53
产品发布与技术特点 - 华为发布UCM推理记忆数据管理器 作为以KV Cache为中心的推理加速套件 融合多类型缓存加速算法工具 分级管理推理过程中产生的KV Cache记忆数据 扩大推理上下文窗口 实现高吞吐低时延的推理体验 降低每Token推理成本 [2] - UCM包含三大组件 推理引擎插件Connector对接不同引擎与算力 功能库Accelerator支持多级KV Cache管理及加速算法 高性能KV Cache存取适配器Adapter 通过推理框架算力存储三层协同实现更优体验更低成本 [3] - UCM通过层级化自适应的全局前缀缓存技术 使系统直接调用KV缓存数据避免重复计算 首Token时延最大降低90% 同时将超长序列Cache分层卸载至外置专业存储 实现推理上下文窗口10倍级扩展 [3] - UCM具备智能分级缓存能力 根据记忆热度在HBM DRAM SSD等存储介质中实现按需流动 融合多种稀疏注意力算法实现存算深度协同 使长序列场景下TPS每秒处理token数提升2-22倍 显著降低每Token推理成本 [3] 应用场景与合作伙伴 - 华为携手中国银联率先在金融典型场景开展UCM技术试点应用 联合发布智慧金融AI推理加速方案应用成果 [2] - 在中国银联客户之声业务场景下 UCM技术使大模型推理速度提升125倍 仅需10秒即可精准识别客户高频问题 [4] - 中国银联将依托国家人工智能应用中试基地 联合华为等生态伙伴共建AI+金融示范应用 推动技术成果从实验室验证走向规模化应用 [4] 开源计划与生态建设 - 华为正式公布UCM开源计划 通过开放统一的南北向接口适配多类型推理引擎框架算力及存储系统 [4] - UCM将于今年9月正式开源 后续逐步贡献给业界主流推理引擎社区 携手全产业共同推动AI推理生态的繁荣发展 [4] 行业背景与发展趋势 - 人工智能已步入发展深水区 AI推理正成为下一个爆发式增长的关键阶段 [2] - AI时代模型训练推理效率与体验的量纲都以Token数为表征 Token经济已经到来 [2] - 为保障流畅的推理体验企业需持续加大算力投入 在推理效率与成本之间找到最佳平衡点成为全行业亟待解决的重要课题 [2]
华为:AI推理创新技术UCM将于今年9月正式开源
新浪科技· 2025-08-12 19:21
产品发布 - 华为发布AI推理创新技术UCM推理记忆数据管理器 包括推理引擎插件Connector 功能库Accelerator 高性能KV Cache存取适配器Adapter三大组件 [2] - UCM技术通过推理框架 算力 存储三层协同 实现AI推理更优体验和更低成本 [2] 技术应用 - 华为与中国银联在金融典型场景开展UCM技术试点应用 联合发布智慧金融AI推理加速方案应用成果 [2] - 在中国银联客户之声业务场景下 UCM技术使大模型推理速度提升125倍 仅需10秒即可精准识别客户高频问题 [3] 行业观点 - AI时代模型训练和推理效率的量纲以Token数为表征 Token经济已经到来 [2] - 企业需持续加大算力投入保障推理体验 但需在推理效率与成本之间找到最佳平衡点 [2] 生态发展 - 华为公布UCM开源计划 通过开放统一南北向接口适配多类型推理引擎框架 算力及存储系统 [3] - UCM将于今年9月正式开源 后续逐步贡献给业界主流推理引擎社区 [3] - 中国银联将联合华为等生态伙伴共建AI+金融示范应用 推动技术成果从实验室验证走向规模化应用 [3]
AI重磅!华为“黑科技”来了
中国基金报· 2025-08-12 15:40
行业趋势与背景 - AI产业从追求模型能力极限转向追求推理体验最优化 推理体验成为衡量AI模型价值的黄金标尺[1] - AI推理是AI产业下一阶段发展重心 直接关联用户满意度和商业可行性[1] - 模型规模化扩张、长序列需求激增及推理任务并发量增长导致KV Cache容量超出显存承载能力[2] - 国外领先芯片厂商通过硬件迭代、软件优化和生态绑定构建AI推理时代"铁三角" 中国企业单点硬件有突破但软件及生态适配仍有较大差距[2] - 信息技术应用创新产业国产化改造提速 各行业加速构建国产推理生态[2] 技术方案与性能 - UCM是以KV Cache为中心的推理加速套件 融合多类型缓存加速算法工具 分级管理推理记忆数据[2] - 通过动态KV逐层卸载和位置编码扩展技术 将超长序列Cache分层卸载至外置专业存储 实现10倍级推理上下文窗口扩展[3] - 根据记忆热度在HBM、DRAM、SSD等存储介质中实现按需流动 融合稀疏注意力算法实现存算深度协同[4] - 长序列场景下TPS提升2至22倍 降低每个Token的推理成本[4] - 支持用户输入超过17万Tokens的超长序列推理 解决超长序列模型推不动的问题[5] 性能对比与行业影响 - 国外主流AI大模型单用户输出速度达200 Tokens/s(时延5ms) 中国主流模型普遍小于60 Tokens/s(时延50-100ms)[4] - AI应用向实际场景深度渗透 用户规模和请求量急剧攀升 模型分析和生成Token数呈指数级增长[4] - Token处理量增长导致服务器维护和电力消耗等运营成本持续攀升 保障流畅推理体验需加大算力投入[4] - Token经济时代来临 训练和推理效率与体验量纲都以Token为表征[5] 商业化应用 - 华为AI推理加速方案结合UCM与OceanStor A系列存储技术 与中国银联开展智慧金融AI推理加速应用试点[5] - 三大落地业务场景包括客户之声、营销策划和办公助手[5] - 华为计划9月在魔擎社区开源UCM 后续逐步贡献给主流推理引擎社区 共享给所有Share Everything存储厂商和生态伙伴[1]
tokens消耗量高速增长,算力经营成为新业态
德邦证券· 2025-08-04 14:56
核心观点 - 算力需求爆发驱动资本开支激增,AI基础设施建设进入黄金期,海外科技巨头资本支出大幅增长,微软二季度资本支出同比增长27%至242亿美元,Meta预计2025年资本支出达660-720亿美元[4] - Token经济商业模式得到验证,大模型Token处理量呈现爆发式增长,谷歌每月处理超980万亿tokens,ChatGPT周活跃用户突破7亿,国产算力需求因安全问题加速[4] - "人工智能+"政策密集出台,国常会审议通过《关于深入实施"人工智能+"行动的意见》,上海发放10亿元算力券、模型券和语料券,青岛计划到2027年人工智能产业规模突破200亿元[4] 投资策略 算力基础设施 - 海外科技巨头业绩与资本开支双增,微软二季度净利润272.3亿美元(同比+24%),Meta净利润183.4亿美元(同比+36%),OpenAI年化收入翻倍至120亿美元[4] - 英伟达新一代GPU性能提升显著,GB300和B300的TDP分别达1.4KW和1.2KW,HBM容量增加50%至288GB,堆叠方案升级为12层HBM3E[4] - 马斯克计划5年内上线等效5000万块H100 GPU的算力,谷歌云业务营收136亿美元(同比+32%),Alphabet上调2024年资本支出13%[4] Token经济与国产算力 - 大模型Token消耗量快速增长,7月21日周消耗量达3T,较1月20日的527B增长近5倍,DeepSeek和Qwen系列模型单日Token用量环比分别增长31%和5倍[4] - 英伟达芯片安全问题引发国产替代需求,国家网信办约谈英伟达要求说明H20芯片漏洞后门风险[4] 政策催化与应用落地 - 国常会明确推进人工智能规模化商业化应用,强化算力、算法和数据供给,构建开源生态体系[4] - 上海推出6亿元算力券、3亿元模型券和1亿元语料券,青岛计划整合1000P智能算力,培育100家人工智能重点企业[4] 行业要闻 海外科技巨头动态 - 微软二季度营收764.4亿美元(同比+18%),净利润272.3亿美元(同比+24%),Meta营收475.2亿美元(同比+22%),净利润183.4亿美元(同比+36%)[14] - Meta计划投资数千亿美元建设超大规模数据中心,微软计划2025年投入800亿美元建设AI智算中心[14] 国内政策与金融支持 - 八大银行联合发布"AI+制造"金融产品,计划到2027年提供不少于4000亿元授信额度,中银推出AI算力贷,中信银行推出AI智造专享贷[18] - 我国卫星互联网建设加速,7月27日和30日连续完成两次发射任务,间隔仅3天[17] 市场表现 - 本周通信(中信)指数上涨4.12%,跑赢上证指数(-0.57%)和沪深300(-1.25%),光模块(CPO)板块领涨9.86%[19] - 个股方面,长飞光纤(+25.85%)、天孚通信(+25.17%)涨幅居前,*ST高鸿(-10.55%)、万马科技(-8.11%)表现较弱[21][22] 重点公司推荐 - 算力产业链:中际旭创、新易盛、天孚通信、润泽科技[4][14] - 国产替代:中芯国际、寒武纪、中兴通讯、浪潮信息[15] - 卫星互联网:超捷股份、海格通信、国博电子[17]