Workflow
通信墙
icon
搜索文档
算力的突围:用“人海战术”对抗英伟达!
经济观察报· 2025-11-14 23:08
超节点概念与市场动态 - 英伟达是超节点概念最早的提出者,国内厂商在进入该赛道时常以对标或超越英伟达为主题[1][11] - 2025年下半年起,AI算力市场涌现超节点发布热潮,包括华为、中兴通讯、超聚变、新华三、浪潮信息、百度、阿里巴巴、中科曙光等公司均推出了相关产品[2] - 华为在2025年中国国际大数据产业博览会上宣称其384超节点服务器的集群算力是英伟达同类设备的1.67倍[3] 超节点的定义与技术背景 - 行业内对超节点有两种层级划分:单机柜内部高速互联和跨机柜组成的集群级互联[5] - 超节点的出现是为了解决AI大模型训练中的"通信墙"问题,即在超高参数级别训练中,计算单元约40%的时间处于"空等"通信状态[6] - 构建大规模GPU集群主要有Scale-Out和Scale-Up两种方式,超节点通过单机柜内集成大量芯片来提升性能[7] - 超节点产品名称中的数字通常表示单机柜或单系统内集成的AI训练芯片数量,例如华为昇腾384集成384颗芯片,中科曙光scaleX640可部署640张计算卡[7] 国内厂商的技术路径与竞争策略 - 国内厂商选择超节点路线是由于单芯片算力存在短板,需要通过系统级优势来弥补单点差距[9] - 厂商在单机柜集成度上展开激烈竞争,中科曙光scaleX640宣称是"全球首个单机柜级640卡"产品,单机柜算力密度提升20倍[12][13] - 超节点内部互联存在不同技术路径,英伟达采用高速铜缆,华为选择"去铜全光",而行业主流思路是柜体内用铜互联、柜间用光互联[13] - 国内厂商的核心策略是在1米左右的铜互联有效距离内尽可能塞进更多计算卡,以降低系统总成本和提升通信效率[14] 超节点面临的工程挑战 - 高集成度带来显著功耗和散热挑战,例如英伟达GB200NVL72单柜72卡功耗达120千瓦,迫使液冷技术成为必需品[15] - 互连工程复杂度随集成度提升而急剧增加,GB200NVL72机柜需要铺设5000多条总长近3200米的独立铜缆[15][16] - 在互联协议上出现分化,华为自研灵衢协议并计划开放生态,阿里和新华三等则选择支持UALink等国际开放标准[16] 市场需求与发展前景 - 未来两到三年AI服务器需求主导角色将是大型互联网企业和国家主导的主权云服务[20] - AI算力建设存在"一厢情愿"风险,需要避免在不需要算力的地方强行推进产业发展[21] - AIGC是当前AI算力主要落地场景,但机器人、高阶自动驾驶等与先进制造深度绑定的领域被看好具备长期潜力[21][22] - 金融、医疗等行业目前仍处于从单点验证走向规模化复制的早期阶段[22]
国产超节点扎堆发布背后
经济观察网· 2025-11-14 22:10
超节点市场动态 - 2025年下半年起,国内多家科技公司密集发布超节点产品,包括华为、中兴通讯、超聚变、紫光股份旗下新华三、浪潮信息、百度、阿里巴巴及中科曙光等[2] - 华为在2025年中国国际大数据产业博览会上宣称其384超节点服务器的集群算力达到英伟达同类设备的1.67倍[2] - 中科曙光于2025年11月6日发布scaleX640超节点,宣称是"全球首个单机柜级640卡"集成产品[11] 超节点技术定义与分类 - 超节点在行业内有至少两种层级划分:单机柜内部实现高速互联(SuperNode)和由跨机柜组成的集群级互联(SuperPod)[3] - 超节点是将几十张乃至上百张AI计算卡集成进一台大机柜,通过内部高速互连使其像一块超级芯片一样工作[6] - 产品名称中的数字(如384、640)通常代表该超节点单机柜或单系统内集成的AI训练芯片数量,是衡量其规模与算力密度的核心指标[7] 超节点发展的驱动因素 - AI大模型训练面临"通信墙"瓶颈,在超高参数级别模型训练中,计算单元约40%的时间处于"空等"通信状态[4] - AI应用需求从"一个模型回答一个问题"转向需要多个模型协同工作的智能体(AI Agent),导致Token生成规模远超传统方式,对通信时延要求更高[8] - 国内单芯片算力存在短板,厂商通过构建多卡超节点模式在系统级上寻求优势,以弥补单卡性能差距[9] 超节点技术路径与工程挑战 - 行业主要采用两种构建大规模GPU集群的方式:Scale-Up(纵向扩展)和Scale-Out(横向扩展),超节点设计同时包含这两种方式[5][7] - Scale-Out网络通信时延约10微秒,而Scale-Up网络(如英伟达NVLink)目标时延为百纳秒级别,性能差距显著[8] - 高集成度带来工程挑战:英伟达GB200NVL72单柜72卡功耗达120千瓦,需采用液冷散热;其机柜内部需要铺设5000多条、总长近3200米的独立铜缆[14] - 互联协议出现分化:华为自研灵衢互联协议并开放技术规范;阿里、新华三等选择支持UALink等国际开放标准[15] 超节点市场前景与挑战 - 未来两到三年AI服务器需求主力为大型互联网企业和国家主导的主权云服务,后者旨在为本地化中小企业提供AI算力租赁服务[19] - 软件生态是国产算力厂商面临的共同挑战,用户更关注应用能否有效落地而非硬件参数[18] - AI算力最大应用场景目前是AIGC,但在智能制造等"AI+"领域,算力预期与实际需求存在落差;机器人、高阶自动驾驶等先进制造领域被看好具备长期潜力[20][21] - 金融、医疗等行业AI应用仍处于从单点验证走向规模化复制的早期阶段[22]