超节点概念
搜索文档
算力的突围:用“人海战术”对抗英伟达!
经济观察报· 2025-11-14 23:08
超节点概念与市场动态 - 英伟达是超节点概念最早的提出者,国内厂商在进入该赛道时常以对标或超越英伟达为主题[1][11] - 2025年下半年起,AI算力市场涌现超节点发布热潮,包括华为、中兴通讯、超聚变、新华三、浪潮信息、百度、阿里巴巴、中科曙光等公司均推出了相关产品[2] - 华为在2025年中国国际大数据产业博览会上宣称其384超节点服务器的集群算力是英伟达同类设备的1.67倍[3] 超节点的定义与技术背景 - 行业内对超节点有两种层级划分:单机柜内部高速互联和跨机柜组成的集群级互联[5] - 超节点的出现是为了解决AI大模型训练中的"通信墙"问题,即在超高参数级别训练中,计算单元约40%的时间处于"空等"通信状态[6] - 构建大规模GPU集群主要有Scale-Out和Scale-Up两种方式,超节点通过单机柜内集成大量芯片来提升性能[7] - 超节点产品名称中的数字通常表示单机柜或单系统内集成的AI训练芯片数量,例如华为昇腾384集成384颗芯片,中科曙光scaleX640可部署640张计算卡[7] 国内厂商的技术路径与竞争策略 - 国内厂商选择超节点路线是由于单芯片算力存在短板,需要通过系统级优势来弥补单点差距[9] - 厂商在单机柜集成度上展开激烈竞争,中科曙光scaleX640宣称是"全球首个单机柜级640卡"产品,单机柜算力密度提升20倍[12][13] - 超节点内部互联存在不同技术路径,英伟达采用高速铜缆,华为选择"去铜全光",而行业主流思路是柜体内用铜互联、柜间用光互联[13] - 国内厂商的核心策略是在1米左右的铜互联有效距离内尽可能塞进更多计算卡,以降低系统总成本和提升通信效率[14] 超节点面临的工程挑战 - 高集成度带来显著功耗和散热挑战,例如英伟达GB200NVL72单柜72卡功耗达120千瓦,迫使液冷技术成为必需品[15] - 互连工程复杂度随集成度提升而急剧增加,GB200NVL72机柜需要铺设5000多条总长近3200米的独立铜缆[15][16] - 在互联协议上出现分化,华为自研灵衢协议并计划开放生态,阿里和新华三等则选择支持UALink等国际开放标准[16] 市场需求与发展前景 - 未来两到三年AI服务器需求主导角色将是大型互联网企业和国家主导的主权云服务[20] - AI算力建设存在"一厢情愿"风险,需要避免在不需要算力的地方强行推进产业发展[21] - AIGC是当前AI算力主要落地场景,但机器人、高阶自动驾驶等与先进制造深度绑定的领域被看好具备长期潜力[21][22] - 金融、医疗等行业目前仍处于从单点验证走向规模化复制的早期阶段[22]