HVDC 电源机架
搜索文档
数据中心的电力革命:为什么800V直流电是AI时代的必然选择?
傅里叶的猫· 2026-05-26 19:03
文章核心观点 文章核心观点是,随着人工智能(AI)算力需求的爆炸式增长,GPU集群的功率密度正迅速提升,传统的48-54V直流(DC)配电架构在物理和成本上已达到极限。为支持未来高达600kW甚至更高的单机架功率,数据中心电气架构必须向800V高压直流(HVDC)转型。这一转型将分阶段进行,从2026年底的改造试点开始,最终演进至使用固态变压器(SST)的全新架构。转型将重塑数据中心电力供应链,带来新的赢家和挑战者,并最终实现更高的能效和更低的每token计算成本[6][7][10][42][44]。 向800VDC转型的物理必要性 - **传统架构的物理极限**:当GPU机架功率密度接近或超过600kW时(如Nvidia的Kyber Ultra机架接近660kW),传统使用48-54V直流电的架构面临根本性挑战[4][6]。 - **铜用量与电流问题**:在48-54V下为1MW机架供电需要约200公斤铜母线,在1GW规模下意味着数百吨铜,成本、重量和安装复杂度巨大。同时,600kW功率在48-54V下意味着约12,500A的电流,而在800V下电流降至约750A,减少了约16.7倍,使得导体尺寸和热应力大幅降低[6]。 - **效率与空间问题**:传统架构中多级AC-DC和DC-DC转换累积损耗,降低端到端效率。此外,高功率机架(如NVL72)的电源设备可能占据多达64U的机架空间,几乎挤占了全部计算空间[6][7]。 转型的四阶段路线图 Phase 1(2026-2027):白空间改造试点 - **自愿性未来验证**:此阶段由Google和Meta等超大规模运营商引领,旨在为未来更高密度机架做准备,而非应对迫切的硬件限制。2026-2027年推出的芯片(如Vera Rubin NVL72)机架密度最高达180-220kW,三相交流电仍可支持[15][16]。 - **核心设备**:在现有数据中心白空间(数据大厅)叠加独立的HVDC电源机架。该机架从架空母线槽接收415V交流电,将其整流为800VDC,并输出给相邻的IT机架,同时集成BBU(电池备份单元)和超级电容器[17][19]。 - **成本影响**:HVDC电源机架是主要新增成本,估计售价达每台40-50万美元,是标准交流电源机架(约4万美元)的10倍。按兆瓦(MW)计算,增量成本约为+40-50万美元/MW[21]。 Phase 2(2027-2028):物理强制的转折点 - **必要性转型**:随着支持更高功率密度的“Kyber”级别原生800VDC机架到来,800VDC转型成为物理强制的必然选择,预计渗透率将急剧上升[22]。 - **架构变化**:与第一阶段类似,仍使用HVDC电源机架进行改造。关键区别在于电压转换位置:第一阶段在IT机架内将800VDC降至约50VDC;第二阶段则将800VDC总线直接送至计算刀片,由板载电源模块进行最终降压[22]。 Phase 3(2028-2029后期):系统性重构电气架构 - **设施级核心变革**:800VDC成为数据中心的电气核心。AC-DC转换点上移至灰色空间或室外的专用兆瓦级整流器,它们将415V交流电转换为800VDC后,通过母线槽直接分配至整个数据大厅[24]。 - **设备更替**:此阶段淘汰了为交流配电设计的低压开关设备、交流楼层PDU(配电单元)等。白空间内的电源机架简化为仅容纳BBU和超级电容器的电池机架,释放了机架空间[24][25]。 Phase 4:固态变压器(SST)的终极形态 - **革命性设备**:SST直接从中压交流电(11-34kV)转换为800VDC,跳过了低压变压器和整流器等多个传统环节。它使用宽禁带半导体(SiC/GaN),运行频率更高(20-100kHz),具有更高功率密度和更精细的控制能力[26]。 - **市场与时间**:SST仍处于新兴阶段,大规模部署可能要到2029-2030年。预计到2030年,SST总目标市场规模(TAM)将达到约130亿美元,每MW设备内容成本约125万美元[26][27]。 行业标准与现状 - **OCP Diablo 400规范**:由Google、Meta和Microsoft联合推动的开放标准,于2025年5月发布。它标准化了HVDC sidecar(外置电源机架)概念,支持±400VDC双极和800VDC单极配置,功率范围覆盖每IT机架100kW至1MW[28][29][30]。 - **选择400V的原因**:利用电动汽车(EV)业已成熟的650V GaN FET、400V级电容器等供应链,以实现规模经济和制造效率[30]。 - **现实碎片化**:尽管有共同标准,但实际设计存在差异。例如,Nvidia正在开发660kW单极800V参考设计;Meta运行600-800kW配置;Google设计可推至900kW;Amazon采用800kW的±400V方案[30][31]。 对现有基础设施与供应链的影响 - **传统UPS的黄昏**:在800VDC架构中,分布式机架级BBU和超级电容器共同取代了集中式UPS的过渡和储能功能,消除了其AC-DC-AC转换损耗(2-3%)[33]。预计集中式低压UPS系统将逐步失去作用,但托管提供商等可能在中短期内保留以支持混合工作负载[34]。 - **供应链洗牌**: - **新兴赢家**:包括电源机架制造商(Delta、Advanced Energy等)、SST创新者(DG Matrix、Novos Power等)、宽禁带半导体供应商(Wolfspeed、Infineon等)以及DC配电设备供应商(EPEC Solutions、TE Connectivity等)[35]。 - **转型挑战者**:传统UPS供应商(施耐德、伊顿、维谛)、交流开关设备和PDU供应商面临业务模式压力,需转向中压UPS、DC配电或SST等新产品[36]。 成本与效率分析 - **成本迁移**:总电气内容成本(每MW)在多数架构中保持在360-480万美元范围,但构成发生迁移:成本从灰色空间(如集中式UPS)向白空间(如HVDC电源机架)转移,最终在第4阶段因SST而稳定在约400万美元/MW[38]。 - **效率提升**: - **基线效率**:传统七级转换(从电网到芯片)的累积效率为82.0%[38]。 - **阶段提升**:第1阶段效率估计为83.7%,提升有限。第2阶段消除UPS后,效率跃升至86.5%。第3阶段因使用高效集中整流器和消除交流损耗,达86.9%。第4阶段采用SST,效率达87.4%[38][39]。 - **实际节省**:在1GW的IT负载下,第2阶段的效率增益相当于节省约58MW的连续电网功率;第4阶段可节省约69MW。这与Nvidia引用的高达5%的效率改进(1GW下约50MW)基本吻合[39]。 转型的挑战 - **安全与标准空白**:800VDC需要新的安全规范、电弧闪光风险防护和故障检测协议,相关数据中心专用标准仍在制定中[40]。 - **技术难题**:直流电弧比交流更难中断,高中断容量DC断路器技术更复杂且昂贵[40]。 - **运营复杂度**:管理分布在各机架的数百上千个BBU模块,比管理少数中央UPS系统更具挑战性[40]。 - **过渡期困境**:在前几个阶段,运营商需同时维护交流和直流两套系统,增加了复杂性和成本。何时淘汰旧交流基础设施是一个艰难的资本支出和运营风险决策[40]。 - **供应链成熟度**:数据中心级(数百千瓦至兆瓦)功率设备需要不同于电动汽车的封装、热管理和可靠性标准,供应链需要时间成熟[41]。