Workflow
Unified Cache Manager)
icon
搜索文档
AI落地的关键堵点,华为用“黑科技”打通了
观察者网· 2025-08-15 12:06
AI推理性能瓶颈 - 传统Scaling Law遇到明显瓶颈 企业开始关注模型推理性能体验以推动商业落地和变现 [1] - AI推理算力需求已超过训练 GPT-5开放首周API调用量超20亿次/分钟 70%请求为复杂推理任务 火山引擎日均token调用量达16.4万亿 70%以上来自线上推理 [4] - 长文本处理 多轮对话以及复杂业务流程的推理需求日益增长 对推理性能要求愈发严苛 [4] 中国AI推理困境 - 基础设施投资仅为美国十分之一 面临算力卡阉割 HBM涨价禁运等困境 [1][6] - 国外主流大模型输出速度达200 tokens/s(时延5ms) 国内普遍小于60 tokens/s(时延50-100ms) 最大差距达10倍 [7] - 海外模型支持100万级Token上下文窗口 国内头部模型仅50万 长文本分析中遗漏关键信息概率超50% [7] 键值缓存技术挑战 - KV Cache需占用GPU显存存储历史Key/Value向量 长文本生成会挤爆HBM和DRAM [6] - Agentic AI时代到来导致KV Cache容量增长超出HBM承载能力 频繁内存溢出造成推理"失忆"和卡顿 [6] - 中国企业无法无限制堆卡 面临出口管制无法获得最先进算力卡和HBM [6] 华为UCM技术突破 - 通过分级缓存管理在HBM DRAM SSD等存储介质中按数据热度缓存 扩大推理上下文窗口10倍 [10][15] - 采用注意力稀疏技术识别KV Cache数据重要程度 分层分级缓存并流动 降低向量数量提升吞吐量 [17] - 将历史已处理结果缓存至外置共享存储 首token延迟降低90% 节省token by token时间 [13] 性能提升与成本优化 - 长序列场景下TPS提升2-22倍 降低每Token推理成本 为企业减负增效 [17] - 维持算力投入不变 仅增加小部分外置存储投资 改善推理效率并摊薄成本 [18] - 推动形成"用户体验提升-用户增长-企业加大投资-技术迭代"的正循环 [18] 金融场景应用验证 - 与中国银联合作解决长序列输入 并发时延和算力耗费三大核心难题 [19] - 在"客户之声"业务场景推理速度提升125倍 10秒精准识别客户高频问题 [21] - "营销策划"场景生成时间从数分钟缩短至10秒内 单台服务器支持超5人同时在线协作 [21] 技术开源与生态建设 - 华为宣布9月开源UCM 包含推理引擎插件 功能库和高性能存取适配器三大组件 [26] - 开放统一接口适配多类型推理引擎框架 算力及存储系统 推动生态繁荣 [28] - 差异化在于将专业存储纳入 通过软硬协同和算法库贡献丰富可靠的加速算法 [26] 行业意义与发展前景 - 降低对HBM依赖 将HBM优势发挥在更合适地方 填补中国AI推理生态关键环节 [18][26] - 解决Agentic AI时代显存不足和推理Token成本问题 可应用于千行百业 [23] - 推动中国AI产业进入良性商业正循环 为长远发展注入更强动力 [28]
降低传统路径依赖,华为推出AI推理新技术
第一财经· 2025-08-12 20:43
华为UCM技术发布 - 华为推出AI推理新技术UCM 以KV Cache和记忆管理为中心 通过推理框架、算力和存储三层协同优化Tokens流转效率 [1] - UCM可将首Token时延最高降低90% 系统吞吐最大提升22倍 实现10倍级上下文窗口扩展 [2] - 华为计划在9月正式开源UCM 希望联合产业界推进AI推理生态建设 [3] 国内外推理效率对比 - 国外主流模型单用户输出速度达200 Tokens/s(时延5ms) 中国普遍小于60 Tokens/s(时延50-100ms) [1] - 中国头部互联网公司在推理Token数上与海外头部公司存在差距 [1] - 国内在KV Cache软件体系构建上尚未形成完整解决方案 国外已有成熟推理加速软件框架能与各类硬件平台适配 [2] 技术架构创新 - UCM不再单纯依赖HBM高带宽内存 而是在存储层面构建多层级可灵活调配的资源体系 [2] - 系统级推理架构优化需要从芯片级、软件级到框架级协同考虑 形成完整推理架构 [3] - 业界缺乏普适适用的框架与加速机制 需通过产业协同解决AI落地效率与成本问题 [3]