刚刚,全球首个GB300巨兽救场,一年烧光70亿,OpenAI内斗GPU惨烈
算力需求与投入 - 公司2024年在算力上的总投入达到70亿美元,其中50亿美元用于大模型研发,20亿美元用于推理计算[1] - 公司内部对GPU资源的争夺非常激烈,分配过程被描述为“痛苦与煎熬”[2][12][13] - 公司对算力的需求被描述为“无底洞”,GPU数量直接决定了AI应用的能力上限[1][17] 微软GB300超算集群技术规格 - 微软交付全球首个生产级超大规模AI集群,配备超过4600个GB300 NVL72,并计划未来扩展到十万块GPU[4][6] - 该系统每个机架包含18个虚拟机,共计72个GPU,通过下一代InfiniBand网络互联[7][10] - 机架内通过NVLink和NVSwitch实现高达130TB/s的数据传输速率,连接总计37TB的高速内存[8][10] - 系统提供高达1,440 PFLOPS的FP4 Tensor Core性能,并实现每GPU 800 Gb/s的跨机架带宽[10] 算力资源分配机制 - 公司建立三层决策机制:由高层领导团队决定研究与应用团队的总体算力划分;研究团队内部由首席科学家决定资源分配;运营层由专门团队负责GPU的具体分配和调动[19] - 当项目接近尾声时,硬件资源会被重新分配以支持新启动的项目[17] - 算力资源主要分配给“研究”和“应用产品”两个方向[13] 行业合作与影响 - 甲骨文、英伟达、AMD等芯片及云服务巨头纷纷与公司建立合作关系以缓解算力瓶颈[4] - 微软专为公司打造的GB300超算可使万亿参数大模型的训练时间从数周缩短至数天[4][6] - 公司正在推出“算力密集型服务”,探索在海量算力投入下创造新可能性的机会[21]