Workflow
AI训练和推理
icon
搜索文档
英伟达员工指微软数据中心冷却系统浪费资源
新浪科技· 2025-12-12 19:22
【#英伟达员工吐槽微软冷却系统太浪费#】英伟达正在为微软的数据中心提供最新一代 Blackwell 芯 片,而在今年初秋的部署过程中,英伟达一名员工注意到,微软其中一处设施的冷却方式显得过于浪 费。 随着 AI 模型训练与推理的算力需求迅猛攀升,英伟达正为微软等科技巨头大量部署 GB200 Blackwell 系统。 今年初秋时,英伟达基础设施专家团队的员工在内部邮件中,详细描述了为 OpenAI 机群部署 Blackwell 机架的现场情况。作为 OpenAI 的云合作伙伴与最大投资方,此类部署由微软负责。 《商业内幕》今天援引的英伟达内部邮件提到,此次安装包括两组 GB200 NVL72 机架,每组搭载 72 颗英伟达 GPU。由于如此高密度的 GPU 阵列会产生巨量热能,微软采用液冷技术将热量从服务器周围 迅速带走。 但邮件也指出,微软在建筑层面的整体冷却方式因规模过大且未使用设施级冷却用水,看起来造成资源 浪费,但确实带来了良好的弹性与故障容忍能力。 美国加州大学的电气与计算机工程副教授任绍雷(音译)解释说,数据中心通常采用"双层冷却结构": 服务器内部用液冷,而建筑本体需要另一套系统把整体热量排到室 ...
RTX5090目前的市场行情
傅里叶的猫· 2025-06-08 20:28
售价 - RTX5090发布时预期售价高达4万元以上 但4个月后价格已跌至2万元出头 部分电商平台同德品牌低至2.3万元 [2] - 价格快速下滑原因包括芯片过热问题影响消费者信心 多卡组网性能瓶颈传闻降低企业采购意愿 厂商初期大幅抬价导致需求不及预期 RTX4090改装48GB版本更具性价比 [2] 租金 - 初期售价高昂导致租赁市场发展缓慢 5月份价格回落后部分机房开始上架RTX5090机型 [3] - 8卡整机扣除机柜租赁费和电费后投资回本周期约4年 对AI企业而言周期较长 [3] - 单卡租赁价格约1万元/年 8卡整机配置价格约30万元 [6] 算力 - FP16精度算力单卡419 TFLOPS 8卡整机约3.4 PFLOPS 300张可组成PFLOPS级算力集群 [4] - 在大型语言模型训练 推理及高性能计算任务中具备显著优势 但需依赖软件优化和组网效率 [4] 功耗 - 额定功耗575W 峰值功耗瞬间高达900W 8卡整机功耗约6kW [7] - 按每千瓦时电费0.6元计算 8卡整机每月电费约3600元 高功耗增加运营成本并对机房散热供电系统提出更高要求 [7] 性能 - 支持FP8/FP4低精度运算 显著提升AI推理效率 与RTX4090相比推理速度快约50% [8] - 4K分辨率下游戏平均帧率显著优于4090 但性能优势发挥需针对性优化 [8] 发热 - 发热问题集中在芯片和12V-2x6电源连接器 出现过热和熔化现象 发生概率较低但需关注 [9] - 缓解措施包括限制瞬间功率 采用液冷或涡轮风扇 使用原厂电源连接线 [9] 组网 - 早期多卡组网锁卡或性能瓶颈传闻源于驱动不成熟 随着驱动更新问题已基本解决 [11] - NVLink和PCIe组网表现稳定 适合构建高性能AI集群 [11]