Workflow
LoongArch N8 72
icon
搜索文档
液冷行业展望及新技术分享
2026-01-07 11:05
行业与公司 * 涉及的行业为数据中心液冷散热行业,核心讨论对象是英伟达(NVIDIA)及其发布的LoongArch系列产品(如N8 72、Ultra)的液冷方案,同时也涉及谷歌、Meta、AWS等海外云服务商以及中国液冷厂商、云服务商[1][2][6][8][10][11] * 纪要主要围绕高性能计算(尤其是AI计算)芯片的散热挑战展开,探讨了当前及未来的液冷技术方案、市场机遇与竞争格局[1][3][10] 核心观点与论据 **1 技术趋势与产品演进** * **全液冷与模块化成为明确趋势**:英伟达LoongArch N8 72版本实现了100%全液冷设计,完全取消机架风扇,并采用模块化设计(如“大人版模组”),简化了系统集成[2] * **功耗持续提升但热密度可控**:LoongArch N8 72功耗从传闻的1,800瓦提升至2,300瓦,但热密度仍维持在约100瓦/平方厘米,单相冷板目前足以应对[1][4] * **架构变革指向更高密度**:未来的LoongArch Ultra及配套机箱将从水平插拔改为竖直插拔,GPU密度将从72个大幅提升至576个,对系统布局和液冷方案提出全新挑战[1][6] * **新材料与新技术的应用与挑战**: * 软管材料从不锈钢波纹管替代传统的PDFE和EPDM橡胶软管,可能提高可靠性[2] * 微通道冷板(MLCP)等新技术通过缩短传导路径、增加换热面积来提升解热能力,但面临良率控制、堵塞风险和漏液防护等可靠性与可制造性问题,短期内难以大规模商用[1][5] **2 海内外市场与方案差异** * **海外市场以技术驱动**:海外ASIC芯片散热方案以液冷为主,通过增加物理超节点密度提升集群算力,例如Meta和AWS采用ALC方案,谷歌通过TensorFlow 10第五代CPU实现单机柜约80至100千瓦的功耗[1][8][9] * **国内市场以规模与需求驱动**: * 由于芯片制程受限,单卡性能不足,国内厂商倾向于通过规模化集群(超节点方案)来弥补算力差距,例如一个机柜可能需要3至4倍规模才能达到海外同类产品性能,这对液冷需求更为迫切[10] * 国内AI需求远超国产GPU供应能力,高端芯片短缺问题推动了超节点方向的发展[10] * 中国云服务商在东南亚部署数据中心,主要目的是为更方便获取高端硬件资源,并推进超节点形式的整体解决方案[3][11] **3 竞争关键与核心壁垒** * **系统化解决方案是竞争关键**:中国液冷厂商若要在海外市场取得突破,需提供从数据中心到机柜再到节点内的一体化、一站式解决方案,并通过收购或整合DPU模块、漏液检测等环节增强竞争力[3][13] * **核心壁垒在于系统设计与研发能力**: * CDU(中央分配单元)的核心壁垒在于系统设计能力,包括流量、压力、温度控制及各组件整合,未来趋势是液冷厂商自行研发关键组件以实现高度匹配[15][16] * 冷板模组的核心价值不仅在于生产能力,更在于前端研发能力,如流道设计需平衡流速和压降[14] 其他重要细节 **1 具体技术挑战与解决方案** * **高密度下的工程挑战**:为在尺寸变小下兼容更大流量,需优化管道布局(如改为水平布局)、确保焊接质量、并解决高流速下的均流性问题[7][18] * **散热技术储备**:各大液冷厂商在积累应对局部热点的技术,例如射流冷板[4] * **泵与材料的选择**:为规避漏液风险,大型云服务商(如谷歌)正从机械泵转向无需密封的磁力泵,电子泵应用尚不明确[20] * **材料可靠性考量**:需确保非金属材料在长期液体浸泡中不会老化,并防止高速冲刷导致变形、堵塞或产生死角[19][21] **2 供应链与生产** * 冷板模组生产包括机加工、焊接、热处理、测试等步骤,台厂常采购半成品进行后续集成,合作中检验标准与责任划分至关重要[14] **3 未来需求展望** * 未来单个机柜功耗可能达到180千瓦、200千瓦甚至300千瓦,需要在有限空间内进行系统优化,对解热能力提出更高要求[17] * 快接技术需应对更高密度堆积、确保均流性,并解决长期高速冲刷可能带来的死角、变形等问题[18][19]