华为云黄瑾:传统计算架构已难以支撑AI技术代际跃迁,超节点架构开辟AI产业新路径
新浪科技·2025-05-16 19:25
华为云AI峰会核心观点 - 华为云推出CloudMatrix 384超节点技术,通过全对等互联架构解决大模型训练和推理中的通信效率瓶颈、内存墙制约、可靠性短板三大技术挑战 [1][2] - 该技术实现384张卡互联成为超级云服务器,提供300Pflops算力规模,比业界同类产品领先67% [2] - 超节点架构是系统性、工程性创新,重新定义新一代AI基础设施 [2] 技术演进与挑战 - 大模型训练从单卡、单机演进到AI集群训练,算力需求增长1万倍 [1] - 过去8年单卡算力增长40倍,但节点内总线带宽仅增长9倍,跨节点网络带宽仅增长4倍,集群网络通信成为最大挑战 [1] - 当前AI算力瓶颈已从单卡算力转移到集群间通信带宽 [1] CloudMatrix技术优势 - 具备MoE亲和、以网强算、以存强算、长稳可靠、朝推夜训、即开即用六大技术优势 [2] - 已在芜湖、贵安、内蒙规模上线 [2] - 采用新型高速互联总线技术 [2] 华为云AI战略 - 坚持"昇腾云服务支持百模千态,盘古大模型重塑千行万业"战略 [3] - 已全面适配DeepSeek等160多个大模型 [3] - 服务政府、金融、零售等600多家创新先锋企业 [3] - 通过昇腾AI云服务提供训练、推理性能升级,推动行业智能化应用落地 [3]