Rubin 系列
搜索文档
服务器液冷近况解读专家会议
2025-12-08 23:36
行业与公司 * 涉及的行业为**服务器液冷散热行业**,核心讨论围绕**英伟达(NVIDIA)** 及其GB200、GB300、Rubin等系列AI服务器芯片/系统的散热技术演进[1][3] * 涉及的**海外/台系公司**包括:英伟达、Vertiv(负责整体设计)、齐宏(AVC)、双鸿、台达、Cool Edit、Fulmaster、利敏达、威乐(Wilo)、格兰富(Grundfos)、斯陶比尔(Stäubli)、雷默(LEMO)、库里维尔、法国阿克马(Arkema)、台积电、英特尔[1][3][5][6][16][19][21][22][24] * 涉及的**国内公司**包括:工业富联(已进入英伟达供应链)、英维克(与英伟达验证合作)、领益制造、飞龙达、高澜股份、华勤技术、新华三、浪潮信息、中航光电、风光类、永辉电器、UQD、贝斯特、巨化股份、永和股份、湖南智航、天弘科技(为谷歌验证方案)[1][19][21][22][23][24][25] 技术发展现状与趋势 * **技术驱动力**:从GB200开始,芯片发热量大幅增加,风冷方案已无法满足需求,必须采用液冷技术[3] * **当前主流(GB300)**:采用**全液冷板设计**,覆盖芯片、内存和电源部分,一个计算节点上的CPU和两个GPU分别覆盖单独的门板[1][3] * **面临瓶颈**:GB300采用的**单向门板**面临散热负荷上限[1][3] * **未来趋势(Rubin及以后)**:预计2026年Rubin系列需采用**双向门板**或**微通道技术**以解决散热问题[1][3] * **双向门板**:通过相变和更高效的介质选择提升散热能力,是单向门板的改进,成熟度相对较高[1][3] * **微通道技术**:管道直径细化至几十微米,传导效率显著提升,但面临加工难度、均匀性及堵塞等挑战[1][3] * **芯片封装盖板微通道**:台积电和英特尔正在探索的更极端方案,可减少导热环节,但成熟度不及双向门板[1][3] * **静默式液冷**:曾被认为是最终解决方案(如阿里巴巴、字节跳动数据中心项目应用),均温性好[3][4] * 因双向门板和微通道方案出现及产业链希望延续现有红利,其发展受到影响[4] * 英伟达CEO黄仁勋仍认为静默式是未来方向,但尚未全面推进[4][5] * **局部静默实验**:Vertiv为英伟达NV72系统进行实验,每个托盘局部静默,液体总量约360升,较传统700升减少近一半[1][6][7] * **未来高功率挑战**:Rubin Ultra预计采用NV576架构,单芯片TDP高达1,400瓦,可能需结合双向门板微通道与局部静默技术[8] 技术方案对比与进展 * **NV144项目方案**:目前讨论较多的是**双向门板**搭配**传统制冷剂R134**(自7月起选用),但R134沸点低需加压,存在技术难题[9] * 另一种选择是**四代制冷剂R1233**,沸点19度更合适,但仍面临压力问题[9][14] * **技术路线图景**:预计每年3-4月的发布会公布下一代计划,两条路线(双向门板/微通道)可能在2月前有大致图景,散热方案相较于芯片更具灵活性[10] * Rubin可能继续使用**单向门板并强化微通道**[11] * Rubin Ultra可能采用**单向门板加芯片内盖微通道以及部分静默处理**[11] * **微通道制造工艺**:包括3D打印、传统铲齿加工、蚀刻等,加工难度大[12] * 材料上,铝材因相对易加工而受重视,铜材性能更好但加工难[12] * **微通道技术增量与难点**:除加工难外,还面临界面材料选择等挑战,对制造精度和系统稳定性要求更高[13] 关键部件与材料发展 * **液体介质演变**: * 早期:水或乙二醇混溶液、氢氟醚(因介电常数不稳定被淘汰)、二聚体(因微毒性式微)[14] * 当前流行:**R1233制冷剂**(沸点19度),对大气破坏较小,更环保,尽管价格较高,但在系统总成本中占比相对降低[14][15] * 微通道技术中:**氟化液加乙二醇组合**因低表面张力和良好流动性成为重要选择[15] * **泵**:重要性日益凸显,微通道技术因管道细小,对泵的平顺性、稳定性要求极高[16][33] * 国际大厂(威乐、格兰富)已成立专门部门进行改进[16] * 国内厂商正在快速追赶[16][18] * **界面材料**: * 趋势:从传统导热硅脂(导热系数4-7 W/m·K)升级到**液态金属**(导热能力至少是传统材料的十倍),操作难度增加[16][32] * 新材料:石墨烯(导热系数可达20-30 W/m·K)、碳化硼等不断加入竞争[16][31][32] * 升级与相变或微通道技术无直接关系,是为提升门板与其他组件间的导热效率[17] * **快接头**: * GB200到GB300:数量从108对增加至252对[2][24][28] * Ruby时代:预计将增加到252对,可能面临供应紧缺[24] * 供应商变化:从主要由欧美厂商(斯陶比尔、雷默)提供,转向国内供应商(中航光电、风光类、永辉电器、UQD、贝斯特等)开始送样或合作,以满足需求并降低成本[1][24] 成本分析 * **GB200到GB300成本变化**: * 液冷板总成本上升约**20%至30%**[2][29] * 主要成本上升集中在**快接头**和**洗管**部分[2][29] * 快接头数量从26个增加到72个,加工难度和出水口数量大幅增加[29] * 气管的Many fold加工难度提升[29] * GB200液冷板部件总成本从**49,000美元**增加到**59,000美元**[29] * **双向门板对成本的影响**: * 会显著增加系统成本,相比单向系统再增加约**18%** 的成本,从5.9万美元增至6万多美元[30] * 成本增加因素: 1. **冷却液成本高**:制冷剂或氟化液价格远高于水加乙二醇混合物(例如,一个节点制冷剂费用至少60美元 vs 水乙二醇混合物10-20美元)[30] 2. **需额外添加冷凝器**[30] 3. **因需加压,密封材料和泵等部件需升级**[30] * **微通道技术成本**:尚未大规模应用,具体成本难以准确估算[30] 市场竞争格局 * **GB200阶段供应商格局**:齐宏(市场份额约30%)、双鸿(约20%)、台达、利敏达、Cool Edit、Fulmaster等,国内厂商份额较小[19] * **GB300阶段格局变化**:齐宏和双鸿因早期红利仍保持领先,但国内厂商(如工业富联)凭借成本控制和快速反应能力逐渐占据市场,已宣布进入英伟达供应链[1][19] * **技术路线对竞争格局的影响**: * **双向冷板**:管道结构变化不大,竞争格局变化有限,主要是国产厂商与台系厂商的价格战[20] * **微通道技术**:因加工精度要求高(如10微米级别),可能引入新玩家(如大学团队、研究机构),并对传统门板厂商造成较大冲击,但非完全颠覆[20] * **国内外供应链差距**:液冷发展时间短(约三四年),欧美和台系公司因与英伟达早期关系紧密占据第一波红利[21] * 随着技术普及,国产方案设计公司(英维克、华勤、新华三、浪潮等)开始进入,并以进入英伟达供应链为目标,通过并购合作(如东阳光控股中际旭创)增强联系,差距在缩小[21] * **国内厂商进展**: * **英伟达阵营**:英维克在冷板方案设计上与英伟达合作紧密;领益制造对标工业富联;在微通道、门板加工、液体冷却(如制冷剂厂商巨化、永和)等环节有强竞争力[22] * **ASIC阵营(谷歌、Meta等)**:芯片功耗较低,急迫性待观察,但谷歌已通过天弘科技搭载R134a方案6个月验证,计划大规模应用,一年内服务器需求可带来约**3,000吨**制冷剂增长[25] * ASIC阵营更关注成本控制,对厂商排斥性较弱,新兴国产厂商更有机会切入[26][27] 其他重要信息 * **国内高校研究**:浙江大学、湖南大学、中科院、上海交通大学(邓涛教授团队研究仿生气管微通道)等正在积极研究微通道技术[34] * **新材料应用前景**:金刚石、碳化硅等可能用于界面材料,但目前实际应用有限,更多是石墨烯、碳化硼等替代材料的研究[31]
当前AI机柜内,液冷趋势与空间
2025-08-11 09:21
行业与公司 * AI服务器机柜液冷行业 涉及NVIDIA Blackwell和Rubin架构的散热方案演进[1][6][7] * 液冷系统供应商 包括ODM厂商如工业富联 广达 伟创 英业达 以及冷板 快接头等组件供应商[5][15] * 国内厂商 如英维克 比赫 川环 思泉等尝试进入NV供应链[14][21] 核心观点与论据 技术演进与架构升级 * Blackwell 300对Blackwell 200进行迭代改进 采用全冷板贴覆方案 覆盖CPU GPU 主板 内存条等部件 算力节点内液冷板数量增加一倍 从48片增加到100多片 快接头对数从120多对增加到250对[1][3][4] * Rubin架构将带来实质性技术升级 不再是简单迭代 采用全新散热方案 可能使用冷板液冷结合相变模式 非水基工质和铝制材料替代铜制材料[1][6][8] * 未来整机柜功率密度可能达到200-500千瓦 需采用更先进散热方案[2][8] 成本与价值分布 * 整机柜基础设施部分价值增加16% 总体价值增长30%[1][4] * 液冷系统中快接头因数量众多占据较大价值比例 冷板物料成本较低 价值较小[1][5] * ODM厂商通过采购和整装各元器件获取核心价值[5] * 若Rubin采用耦合静默方案 单位千瓦造价或是现有Blackwell 200方案的两倍 全能板贴附模式预计能将成本压降至1.5~1.6倍[1][9][10] * 冷板和分级水气的毛利率较低 只有30%多[19] 供应链与竞争格局 * Rubin架构升级可能导致供应商及其市场份额发生显著变化[1][6] * 新厂商进入Ruben体系的关键在于关系渠道 产能和价格等供应链条件 而非技术能力[3][19] * 快接头涉及漏液测试 耐压测试 耐磨测试以及多次插拔测试等严格要求 进入市场难度更大[19][20] * 国内厂商英维克进入NV名单后反响较大 因其快接头产品毛利和价值量高 占整个基础设施部分比例达到20%以上[21] 产品规划与时间节点 * Rubin系列预计2026年下半年出货 二季度后最终确定方案[3][10] * NV可能先发布高成本版本 再快速迭代推出低成本版本[3][11] * 上游材料兼容性测试通常在产品发布前3到6个月开始 测试周期约为100天[3][17][18] 冷却液与材料 * 电子氟化液成本较高 每升价格在200至300人民币之间 传统水基冷却液每公斤不到20人民币[16] * 油类冷却介质由于粘度大 运动性能差 未来使用可能性很小[16] * 下一代制冷剂需要具备中温沸点特性 在33至35度间自然完成液化[16] 其他重要内容 * Blackwell 300的订货已经相对确定 2026年基本上是消化现有订单[12] * 全冷板方案技术可行 但NV在冷板加静默方向上已做很多工作[11] * 未来独立封装不太可行 因Rubin使用的冷板结构变化较大 需要更复杂流道设计[13] * 非GPU CPU部分占整机柜20%~30%[10]