行业与公司 * 行业专注于下一代人工智能基础设施的数据中心电源架构 特别是AI工厂[1][3] * 公司为NVIDIA 其提出的800 VDC MGX架构是核心解决方案[40][46] 核心观点与论据 AI算力需求驱动电源架构变革 * GPU革命将数据中心转变为AI工厂 GPU机柜功率密度相比网络服务器提升近100倍 电源基础设施占地面积已 rival 甚至超过计算占地面积[3] * GPU性能提升与NVLink域规模扩大导致功率密度呈指数级增长 例如从Hopper到GB300 热设计功耗增加75% 但性能提升50倍 机柜功率密度增加3.4倍[5][6][10] * 传统20%的代际功率增长模式被打破 功率增长可达2倍 4倍或8倍 驱动对新型机柜电源架构的需求[5][7] 800 VDC成为下一代配电最优架构 * 800 VDC相比机柜内54 VDC或设施级480 VAC系统 能显著减少电流 铜使用量和电缆体积 同时保持安全性和可扩展性[8] * 与415 VAC相比 800 VDC允许通过相同横截面积的铜传输的功率增加157%[35][37] * 该架构受益于碳化硅和氮化镓功率转换器件的成熟以及电动汽车行业对800 VDC系统的广泛采用[8] * 800 VDC简化系统架构 将AC/DC转换上游移至设施级 最终实现直接中压交流转直流 减少转换级数 提高可靠性[38] 负载波动与储能集成是关键挑战与解决方案 * GPU同步工作导致负载和功率曲线同步 在LLM工作负载中 功率利用率会在约30%空闲至100%之间快速摆动 对机柜 数据中心乃至电网构成挑战[12] * 缓解负载波动的四种解决方案包括 优化软件空闲周期 使用储能 燃烧功率 以及限制GPU性能 理想情况下储能应覆盖大部分波动持续时间[13][14][15][17][18] * 需要分层储能策略 在电网互联端使用电池储能系统进行负载平均 在计算机柜附近集成电容器等短时储能以抑制快速动态功率行为[29][30] * 未缓解的50%占空比方波会导致RMS损耗增加25% 靠近GPU抑制峰值对于降低数据中心总设备成本至关重要[24] 电网互联要求与标准化协作 * AI工作负载的规模和波动性给电网互联带来挑战 电网运营商要求更大的负载灵活性 可控性和可预测性[25][27] * 行业合作需要建立标准化的负载行为配置文件 响应指标和调节要求 以加快审批速度[31] * AI工厂有潜力通过储能 计算调谐和协调控制策略 发展成为支持电网的资产 而不仅仅是被动负载[28][29] 数据中心参考设计与实施路径 * NVIDIA提出17.5 MW电力块概念设计 采用五个3.5 MW中压整流器 5选4冗余配置 为四个1.1 MW计算机柜供电[65][66] * 实施路径分阶段 近期使用商用1000 V级组件部署800 VDC至机柜 长期目标为1500 VDC[45] * 安全设计至关重要 采用防触摸连接器和机械联锁 借鉴电动汽车充电器技术[48] 其他重要内容 * 讨论了其他设施级直流配电选项 如750 VDC ±400 VDC和1500 VDC 并分析了其优缺点[41][42][43] * 指出了1500 VDC在数据中心内部 特别是机柜内实施面临的安全标准 组件认证和电弧闪光担忧等挑战[44] * 行业前进路径需要围绕通用电压范围 连接器 直流原生设备开发认证以及安全标准与操作实践进行协作[70][71][74]
英伟达面向人工智能基础设施的 800 伏直流架构白皮书