生成式推荐器
搜索文档
谈谈Meta的芯片路线图
半导体行业观察· 2026-04-09 09:18
Meta Platforms的AI计算引擎战略 - 公司认为未来AI计算引擎形态难以预测,且模型更新速度快于芯片开发周期,因此大型模型构建商及大规模运行AI推理的机构必须采取多产品、多来源、多供应商的策略,以应对潜在的延迟或功能缺失 [1] Meta Platforms的业务与深度学习推荐模型 - 公司的核心业务是在庞大的社交网络上运行排名和推荐引擎,这些引擎最初由运行在大量CPU上的算法构成,后通过运行在GPU上的深度学习推荐模型进行增强 [1] - 深度学习推荐模型与大型语言模型不同,它创建巨大的多维向量空间来展示事物间的关联,是预测性的,这对作为全球最大广告商之一的公司来说是一项强大的功能 [2] - 为处理数十亿用户数万亿次操作所需的巨大内存空间,公司将任务分为两部分:配备高速HBM的GPU存储“热门”数据,配备大容量DRAM的CPU存储其余数据 [3] - 公司设计了“Zion”、“ZionEX”和“Grand Teton”混合CPU-GPU系统来运行深度学习推荐模型,并创建了名为“Neo”的内存管理程序,用于在节点内及机器集群中对参数和嵌入进行分级 [3] 从深度学习推荐模型到生成式推荐器 - 深度学习推荐模型的性能提升不会随计算资源增加而线性提升,规模更大并不总是更好 [5] - 从2024年开始,公司提出了一种新的深度学习推荐模型方法,称为生成式推荐器,该方法基于分层序列转换单元技术,借鉴了大型语言模型的技术,将用户行为视为一种语言进行预测 [5] - 公司已在其所有应用平台使用的深度学习推荐模型 v3 中嵌入了分层序列转换单元方法 [5] - 让深度学习推荐模型更像大型语言模型的洞察,以及分层序列转换单元技术,推动了公司的MTIA AI计算引擎项目,其唯一目的是通过协同设计大幅提升性价比 [5] MTIA AI计算引擎路线图与部署 - 公司公布了MTIA路线图,驳斥了发展受阻的传言 [5] - 未来的MTIA设备将采用分层序列转换单元技术进行协同设计,以降低排名和推荐训练及推理的成本,并可能在生成式AI推理方面表现出色,从而同时支持其深度学习推荐模型和大型语言模型项目 [6] - 公司已在其数据中心部署了数十万个MTIA 100和MTIA 200芯片,以及此前未提及的MTIA 300芯片 [7] - 公司自2023年下半年开始部署用于排名和推荐训练工作负载的MTIA 300计算引擎 [7] - MTIA 400芯片已在实验室完成测试,并准备在数据中心进行部署 [12] MTIA各代芯片技术规格演进 - **MTIA 100 (原MTIA v1)**:2023年5月发布,2023年下半年发货,采用台积电7纳米工艺,芯片面积373平方毫米,晶体管数量110亿,热设计功耗25瓦,专注于排名和推荐推理 [10] - **MTIA 200 (原MTIA v2)**:2024年3月发布,2024年下半年发货,采用台积电5纳米工艺,芯片面积431平方毫米,晶体管数量280亿,热设计功耗90瓦,专注于排名和推荐推理 [10] - **MTIA 300**:2026年3月发布,2025年下半年发货,采用台积电5纳米工艺,芯片面积647平方毫米,晶体管数量450亿,热设计功耗800瓦,专注于排名和推荐训练,标志着从INT8处理转向FP8处理 [10][11] - **MTIA 400**:2026年3月发布,2026年下半年发货,采用台积电3纳米工艺,采用双计算芯片设计,每个芯片面积810平方毫米,总晶体管数量2 * 870亿,热设计功耗1200瓦,目标为通用计算 [10][11] - **MTIA 450**:2026年3月发布,2027年上半年发货,采用台积电3纳米工艺,双计算芯片设计,热设计功耗1400瓦,目标为生成式AI推理,是MTIA 400的快速升级版,主要改进在于将HBM3E内存升级到HBM4,内存带宽翻倍至18.4 TB/s [10][14] - **MTIA 500**:2026年3月发布,2027年下半年发货,采用台积电2纳米工艺,采用四计算芯片设计,每个芯片面积435平方毫米,总晶体管数量4 * 580亿,热设计功耗1700瓦,目标为生成式AI推理 [10][15] 关键硬件特性与性能对比 - **内存与带宽**:MTIA 300配备216 GB HBM3内存,带宽6.1 TB/s;MTIA 400配备288 GB HBM3E内存,带宽9.2 TB/s;MTIA 450配备288 GB HBM4内存,带宽18.4 TB/s;MTIA 500将提供384 GB或512 GB HBM4E内存版本,带宽27.6 TB/s [10][18] - **张量性能**:MTIA 300的FP8/MX8性能为1200 Teraflops,FP16/BF16性能为600 Teraflops;MTIA 400的MX4性能为12000 Teraflops,FP8/MX8性能为6000 Teraflops,FP16/BF16性能为3000 Teraflops;MTIA 450的MX4性能为21000 Teraflops,FP8/MX8性能为7000 Teraflops,FP16/BF16性能为3500 Teraflops;MTIA 500的MX4性能为30000 Teraflops,FP8/MX8性能为10000 Teraflops,FP16/BF16性能为5000 Teraflops [10] - **互联与扩展**:MTIA 300采用多芯片设计,提供12条800 Gb/s RoCE以太网通道;MTIA 400将插入由AMD和Meta联合开发的“Helios”开放式机架,最多可将72个设备连接到共享内存域中 [9][11] - **成本与性价比**:据估计,博通向Meta提供的MTIA芯片价格从MTIA 100的700美元到MTIA 500的15000至20000美元不等;从2023年到2027年,公司MTIA设备的有效吞吐量将提升293倍,单位推理吞吐量的成本预计将下降9.1倍 [10][16]