文章核心观点 - 数据中心作为现代经济的关键基础设施,对半导体和系统组件的可靠性要求极高,其设计必须追求近乎完美,因为系统故障可能导致巨大的经济损失[1] - 实现数据中心的高可靠性需要一套综合策略,包括在基础设施、网络架构、半导体组件等多个层面采用冗余设计、容错架构、先进遥测和快速故障恢复机制[2][3][4][5] - 尽管数据中心半导体在绝对工作温度和使用寿命要求上低于汽车等应用,但由于其部署规模和经济影响巨大,客户对可靠性数据、故障预测和极低故障率的要求极为严苛[9][10][11] - 高可靠性已成为数据中心半导体市场准入和获得认可的关键前提,与高性能、低功耗和低成本同等重要[12] 数据中心可靠性要求与重要性 - 数据中心故障的经济影响巨大,例如伊利诺伊州一个数据中心发生10小时的故障,导致全球货币和大宗商品市场的交易暂停[1] - 云服务提供商提供从99.9%到99.999%不等的正常运行时间服务等级协议,其中99.999%的月度最大停机时间仅为26秒[2] 数据中心基础设施可靠性策略 - 通过跨多个区域部署软件来实现冗余,能够快速在数据中心之间转移负载,避免单点故障[2] - 存储采用双副本设计,确保一个副本丢失时系统仍可运行[2] - 配备冗余的冷却系统和电力分配系统,并备有电池或发电机,以应对电网断电[2] 半导体与网络架构的可靠性设计 - 数据中心芯片和子系统采用容错架构,例如CPU使用ECC内存,HBM内存自HBM2起集成片上ECC,HBM3使用更强大的里德-所罗门码[3] - HBM具有冗余数据总线通道,运行中出现通道故障时可重新映射到备用通道[3] - 英伟达的NVLink72系统建议使用64个GPU运行,保留8个作为备用,以实现冗余[3] - NVLink网络使用18个交换机连接每个GPU,允许在某个交换机故障时进行重新映射而不影响性能,并支持热插拔故障组件以恢复冗余[3][5][8] - 横向扩展网络基于以太网,采用数据包重试、备用路由和错误检查,快速生成树协议能在几毫秒内切换故障路径[5] - 光路开关技术能在几毫秒内重新路由数百路光纤,以绕过故障芯片[6] 半导体组件的物理设计与可靠性挑战 - 人工智能加速器采用多芯片封装,各元件材料和温度的差异可能导致物理连接出现翘曲和断裂的风险[9] - 随着电频率提高以提升性能,信号完整性问题会降低数据传输可靠性,需要转向光传输来提高可靠性[5] 数据中心半导体的特定可靠性考量 - 数据中心芯片工作温度低于汽车应用,例如英伟达Blackwell GPU最高结温为85°C,AMD Epyc处理器典型最高为95°C,可短暂达到105°C,因为数据中心可负担昂贵的冷却系统来降低功耗并提高可靠性[10] - 数据中心设备出于会计目的的预计使用寿命在5到6年之间,远短于汽车,但可靠性设计仍至关重要,以确保在使用寿命内的低故障率[10] - 客户要求看到广泛的可靠性和压力测试数据,以实现极低的故障率,这涉及对成千上万个器件进行数月的高温、高频率测试,成本高昂[11] - 客户需要片上遥测技术来追踪故障先行指标,以便主动更换设备,例如通信设备中误码率的增加可作为早期预警[11] - 设备应能自我诊断并发出警报,以便快速定位和修复错误,供应商需要芯片遥测数据来改进故障预测能力,并通过故障分析来指导设计改进[11]
数据中心芯片,要求很高