Workflow
规模化扩展(Scale Up)
icon
搜索文档
2025OCP算力大会:超节点“Scale Up”是全场焦点
华尔街见闻· 2025-10-22 11:05
文章核心观点 - AI数据中心基础设施建设正全力转向“Scale Up”(规模化扩展)架构,以满足对算力永无止境的需求 [1] - 投资焦点需从通用服务器组件转向支持超节点架构的核心技术供应商 [1] - 整个行业为未来数年内吉瓦级AI数据中心集群做准备,能提供更高密度、更高效率解决方案的公司将在下一轮增长中占据核心位置 [1] 规模化扩展架构与机柜革命 - “Scale Up”旨在实现更高密度单节点算力,推动机柜形态革命,AMD联合Meta、纬颖推出宽度为传统ORV3机柜两倍的Helios机柜 [2] - 高性能芯片浮点运算性能密度极高,需在同一扩展域内连接更多计算核心,催生更大背板或中板及更大机柜 [2][3] - Helios机架将于2026年下半年开始出货,主要客户包括Meta、甲骨文和OpenAI [3] - 纬颖是Meta主要ODM合作伙伴,纬创是GPU模块、基板和交换机托盘主要ODM合作伙伴,大多数PCB需M9级CCL材料 [3] - 超宽重型机柜对机箱、导轨等机械部件要求更高,利好勤诚和川湖等供应商 [3] 800伏直流电源架构 - 机柜功率密度飙升使传统供电架构难以为继,800V直流供电方案成为驱动下一代吉瓦级AI工厂关键技术 [4][5] - 与传统50V架构相比,800V直流方案能在同等规格铜缆上传输超过150%电力,并将电源使用效率提升约5% [6] - 台达电子已展出成熟解决方案,包括1.2MW固态变压器(已量产)、800V电子保险丝、90kW DC-DC电源架和12kW配电板 [6] - 新方案预计使每瓦功率供电价值比当前设计翻倍以上,贸联等电源互连供应商将因液冷母线等更严苛规格需求受益 [6] - 800V直流方案预计2027年下半年随英伟达Rubin Ultra平台首次亮相 [6] 大规模液冷系统演进 - 散热是算力稳定输出关键,技术路径从混合散热向全液冷演进 [7] - GB300计算托盘采用混合散热方案(85%液冷/15%风冷),每个托盘仅6组快换接头,良率已非市场担忧重点 [7] - 下一代VR200平台将完全液冷,每个计算托盘快换接头增至14组,已进入机柜级生产和测试阶段,预计2026年第三季度末交付 [7] - 谷歌开源其2兆瓦冷却液分配单元设计,支持高达80 PSI压力,为高阶冷板设计提供可能,BOYD、酷冷至尊、台达电子和英维克均展示相关产品 [7] - 冷板技术2030年前仍将是市场主流,但浸没式液冷拐点预计2028年出现 [7] 网络技术优化与高速互联 - 节点间提升高速互联(Scale Out)是发挥AI集群性能关键,以太网解决方案及CPO交换机被广泛应用于AI数据网络优化 [8] - 智邦和天弘展示基于博通Tomahawk 6 ASIC的最新1.6T网络交换机产品,预计2026年底或2027年初开始早期应用 [9] - 智邦还展示基于Tomahawk 6 ASIC和IRIS光波长交换机的CPO交换机概念验证 [9] - Meta研究显示其51.2T CPO交换机年化链路故障率仅为0.34%,远优于可插拔光模块的1.58%,但成本和可维护性仍是普及关键 [9] - 有源电缆作为高性价比方案崛起,在扩展网络中份额不断提升,Meta的GB300机柜采用AEC,趋势预计持续利好贸联等供应商 [9]