昇腾950PR芯片的发布与核心突破 - 华为最新人工智能芯片昇腾950PR,在算力性能上相较英伟达产品,暂时无法为国内超大规模云厂商提供压倒性优势,但该芯片迎来一项重大升级:实现了CUDA生态兼容 [1] - 华为此前依靠原生CANN架构尝试突破CUDA壁垒,始终未能完全落地,因此本次推出昇腾950PR,目标直指直接替代英伟达,承接AI训练与推理业务 [1] - 得益于芯片对英伟达CUDA软件体系兼容性大幅提升、响应速度优化,企业落地意愿显著增强 [1] CANN Next软件栈的技术升级 - 华为新一代CANN Next软件栈完成重磅升级,新增SIMT编程模型,支持线程块、线程束、内核启动等原生功能,与CUDA高度对标 [2] - CANN Next并非简单提供代码转译层,而是打造可近乎无缝替换CUDA的开发环境,将CUDA作为通用开发标准,同时深度发挥昇腾自研生态的性能优势 [2] - CANN Next针对昇腾芯片大规模算力调度做深度优化,线程数量、块尺寸等参数均适配华为自研芯片,实现软硬件协同设计与弹性扩容 [2] - 华为让开发者沿用CUDA的编程习惯与开发逻辑,最终编译出专为昇腾芯片优化、可弹性扩容的高性能算力程序,这是昇腾950PR相比前代产品吸引力大幅提升的核心原因之一 [2] 市场反应、硬件规格与产能规划 - 有消息称,字节跳动、阿里巴巴等头部云厂商即将批量采购昇腾950PR [3] - 华为今年规划产能达75万颗 [3] - 芯片支持FP8及以下低精度算力格式,FP8峰值算力1PFLOPS,FP4算力2PFLOPS [3] - 芯片互联带宽2TB/s [3] - 芯片搭载华为首款自研HBM内存HiBL 1.0,容量128GB,内存带宽1.6TB/s [3] - 自研高带宽内存技术,彻底解决了华为芯片量产爬坡的供应链制约 [3] 行业背景与国产替代需求 - 中国算力产业长期试图打破英伟达的市场垄断,但此前研发重心多放在架构迭代与板载功能升级上,成效有限 [1] - 国内大型云厂商仍高度倾向采购英伟达硬件,核心原因不仅在于算力差距,CUDA软件生态壁垒同样关键 [1] - 国内市场一直急需英伟达算力产品的国产化替代方案,尤其头部云厂商需求迫切 [3] - 采购英伟达H200等芯片面临严苛监管限制,倒逼行业转向海外算力租赁、自研国产芯片两条路径 [3] - 如今依托CANN Next软件栈 + 昇腾950PR芯片,华为正加速巩固在国内AI产业的话语权 [3] - 目前唯一的短板,仅在于芯片出货产能,以及客户大规模落地部署的准备进度 [3]
国产算力芯片,即将兼容CUDA?