AI推理加速
搜索文档
国泰海通|电子:昇腾推理加速套件正式开源,昇腾芯片渗透加速
国泰海通证券研究· 2025-12-30 22:28
昇腾多模态推理加速套件开源 - 华为昇腾多模态推理加速套件MindIE SD项目于2025年12月19日正式开源 [1][2] - 该套件包含四大关键加速特性:加速插件、以存代算、多卡并行、量化与稀疏Attention [2] - 加速插件可减少计算与内存访问开销,以存代算通过缓存算法提升运行时性能,多卡并行简化开发流程,量化与稀疏算法则针对昇腾硬件提升效率并降低资源消耗 [2] AI推理加速联合解决方案发布 - 华为数据存储与中科弘云于2025年12月23日联合发布AI推理加速解决方案 [1][3] - 方案具备三大功能:异构管理、算力调度、推理加速 [3] - 异构管理支持平台、计算与存储协同联动,兼容MindSpore/vLLM/SGLang等主流框架 [3] - 算力调度可对资源进行细粒度切分与池化,实现利用率最大化 [3] - 推理加速依托华为UCM技术,将KV Cache持久化至OceanStor A系列存储,实现推理记忆全量保存 [3] 方案性能提升效果 - 在智能问答推理场景中,该方案实现首Token时延降低57.5% [3] - 在长文档推理场景中,结合GSA稀疏加速算法,当序列长度为39K时,并发能力提升86%,推理吞吐提升36% [1][3] - 序列长度越长,优化效果越显著 [3] 行业催化剂 - 昇腾950PR芯片验证通过 [4] - 云厂商增加昇腾芯片订单 [4] 核心观点与投资建议 - 昇腾多模态推理加速套件正式开源及联合解决方案的发布,有望加速昇腾芯片渗透率增长 [1] - 伴随昇腾芯片性能迭代与昇思生态完善,昇腾产业链相关环节预计受益 [1]
HBM价格暴涨之际,华为开源AI推理加速关键技术
观察者网· 2025-11-06 11:10
HBM市场动态与价格趋势 - SK海力士计划向英伟达供应的下一代HBM4单价约为560美元,比当前HBM3E的约370美元价格上涨50%以上[1] - 全球HBM市场出货量份额高度集中,SK海力士以62%位居第一,美光科技和三星电子分别占21%和17%[4] - HBM4作为第六代产品,目标带宽超过2TB/s,容量可达64GB,并计划于明年扩大销售[4] 华为UCM技术创新与开源 - 华为开源UCM(Unified Cache Manager)推理记忆数据管理技术,可根据记忆热度在HBM、DRAM和SSD等不同存储介质中分级缓存数据[1] - 该技术通过稀疏注意力等四大关键能力,可实现首Token时延最高降低90%,系统吞吐最大提升22倍,并达到10倍级上下文窗口扩展[1] - UCM技术旨在提高HBM利用率并平衡成本,通过分级管理KV Cache记忆数据来优化计算效率和减少重复运算[1] 华为AI存储产品布局 - 华为推出多款高性能AI SSD,例如Huawei OceanDisk EX 560随机写性能最高达1500K IOPS,Huawei OceanDisk LC 560最大单盘容量245TB且读带宽达14.7GB/s[3][4] - 公司计划与一体机厂商合作,改变AI存储器市场现有局面,形成百花齐放的竞争态势[4] - 华为自研了两种HBM(HiBL 1.0和HiZQ 2.0),分别与Ascend 950 Die合封构成面向不同场景的芯片,其中HiBL 1.0旨在降低推理Prefill阶段和推荐业务的投资[6] 行业技术发展方向 - 业界正探索将HBM堆栈更直接地连接到处理器芯片上,甚至研究使用光子技术以追求极致的传输速度和能效[4] - 华为UCM等记忆数据分级管理技术,关键意义在于让更多开发者和企业降低对高端HBM的依赖,实现降本增效[5] - 技术发展可能模糊逻辑芯片和存储芯片之间的界限,让两者更紧密地集成在一起[4]