Workflow
华为云黄瑾:昇腾云CloudMatrix 384 超节点六大科技创新,定义下一代AI基础设施
环球网·2025-05-16 20:08

【环球网科技报道 记者 张阳】5月16日,华为云AI峰会在北京召开,华为云副总裁黄瑾表示,随着大模型训练和推理对算力需求的爆炸式增长,传统计算 架构已难以支撑AI技术的代际跃迁,超节点架构的诞生不仅是技术的突破,更是以工程化创新开辟AI产业的新路径。 当前,大模型训练经历了从早期小模型在单卡训练、小参数大模型在单机训练,到现在MoE、长序列、多模态大模型都在AI集群上训练的演进过程。AI算 力的瓶颈,从单卡算力的瓶颈到单机内总线带宽的瓶颈,再到现在集群间通信带宽的瓶颈,需求增长了1万倍。 然而过去的8年里,单卡硬件的算力增长了40倍,但是节点内的总线带宽只增长了9倍,跨节点的网络带宽只增长了4倍,这使得集群网络通信成为当前大模 型训练和推理的最大挑战。 黄瑾表示,面对这些挑战,华为云创新性的推出了采用全对等互联架构的CloudMatrix 384超节点。这项技术创新跳出单点技术限制走向系统性、工程性的创 新算力架构,直面通信效率瓶颈、内存墙制约、可靠性短板三大技术挑战。通过新型高速互联总线实现384 张卡互联成为一个超级云服务器,最高提供 300Pflops的算力规模,比业界同类产品领先67%。 解码六大优势 ...