生成式推荐器 - 财报，业绩电话会，研报，新闻

生成式推荐器

搜索文档

半导体行业观察· 2026-04-09 09:18

Meta Platforms的AI计算引擎战略 - 公司认为未来AI计算引擎形态难以预测，且模型更新速度快于芯片开发周期，因此大型模型构建商及大规模运行AI推理的机构必须采取多产品、多来源、多供应商的策略，以应对潜在的延迟或功能缺失 [1] Meta Platforms的业务与深度学习推荐模型 - 公司的核心业务是在庞大的社交网络上运行排名和推荐引擎，这些引擎最初由运行在大量CPU上的算法构成，后通过运行在GPU上的深度学习推荐模型进行增强 [1] - 深度学习推荐模型与大型语言模型不同，它创建巨大的多维向量空间来展示事物间的关联，是预测性的，这对作为全球最大广告商之一的公司来说是一项强大的功能 [2] - 为处理数十亿用户数万亿次操作所需的巨大内存空间，公司将任务分为两部分：配备高速HBM的GPU存储“热门”数据，配备大容量DRAM的CPU存储其余数据 [3] - 公司设计了“Zion”、“ZionEX”和“Grand Teton”混合CPU-GPU系统来运行深度学习推荐模型，并创建了名为“Neo”的内存管理程序，用于在节点内及机器集群中对参数和嵌入进行分级 [3] 从深度学习推荐模型到生成式推荐器 - 深度学习推荐模型的性能提升不会随计算资源增加而线性提升，规模更大并不总是更好 [5] - 从2024年开始，公司提出了一种新的深度学习推荐模型方法，称为生成式推荐器，该方法基于分层序列转换单元技术，借鉴了大型语言模型的技术，将用户行为视为一种语言进行预测 [5] - 公司已在其所有应用平台使用的深度学习推荐模型 v3 中嵌入了分层序列转换单元方法 [5] - 让深度学习推荐模型更像大型语言模型的洞察，以及分层序列转换单元技术，推动了公司的MTIA AI计算引擎项目，其唯一目的是通过协同设计大幅提升性价比 [5] MTIA AI计算引擎路线图与部署 - 公司公布了MTIA路线图，驳斥了发展受阻的传言 [5] - 未来的MTIA设备将采用分层序列转换单元技术进行协同设计，以降低排名和推荐训练及推理的成本，并可能在生成式AI推理方面表现出色，从而同时支持其深度学习推荐模型和大型语言模型项目 [6] - 公司已在其数据中心部署了数十万个MTIA 100和MTIA 200芯片，以及此前未提及的MTIA 300芯片 [7] - 公司自2023年下半年开始部署用于排名和推荐训练工作负载的MTIA 300计算引擎 [7] - MTIA 400芯片已在实验室完成测试，并准备在数据中心进行部署 [12] MTIA各代芯片技术规格演进 - **MTIA 100 (原MTIA v1)**：2023年5月发布，2023年下半年发货，采用台积电7纳米工艺，芯片面积373平方毫米，晶体管数量110亿，热设计功耗25瓦，专注于排名和推荐推理 [10] - **MTIA 200 (原MTIA v2)**：2024年3月发布，2024年下半年发货，采用台积电5纳米工艺，芯片面积431平方毫米，晶体管数量280亿，热设计功耗90瓦，专注于排名和推荐推理 [10] - **MTIA 300**：2026年3月发布，2025年下半年发货，采用台积电5纳米工艺，芯片面积647平方毫米，晶体管数量450亿，热设计功耗800瓦，专注于排名和推荐训练，标志着从INT8处理转向FP8处理 [10][11] - **MTIA 400**：2026年3月发布，2026年下半年发货，采用台积电3纳米工艺，采用双计算芯片设计，每个芯片面积810平方毫米，总晶体管数量2 * 870亿，热设计功耗1200瓦，目标为通用计算 [10][11] - **MTIA 450**：2026年3月发布，2027年上半年发货，采用台积电3纳米工艺，双计算芯片设计，热设计功耗1400瓦，目标为生成式AI推理，是MTIA 400的快速升级版，主要改进在于将HBM3E内存升级到HBM4，内存带宽翻倍至18.4 TB/s [10][14] - **MTIA 500**：2026年3月发布，2027年下半年发货，采用台积电2纳米工艺，采用四计算芯片设计，每个芯片面积435平方毫米，总晶体管数量4 * 580亿，热设计功耗1700瓦，目标为生成式AI推理 [10][15] 关键硬件特性与性能对比 - **内存与带宽**：MTIA 300配备216 GB HBM3内存，带宽6.1 TB/s；MTIA 400配备288 GB HBM3E内存，带宽9.2 TB/s；MTIA 450配备288 GB HBM4内存，带宽18.4 TB/s；MTIA 500将提供384 GB或512 GB HBM4E内存版本，带宽27.6 TB/s [10][18] - **张量性能**：MTIA 300的FP8/MX8性能为1200 Teraflops，FP16/BF16性能为600 Teraflops；MTIA 400的MX4性能为12000 Teraflops，FP8/MX8性能为6000 Teraflops，FP16/BF16性能为3000 Teraflops；MTIA 450的MX4性能为21000 Teraflops，FP8/MX8性能为7000 Teraflops，FP16/BF16性能为3500 Teraflops；MTIA 500的MX4性能为30000 Teraflops，FP8/MX8性能为10000 Teraflops，FP16/BF16性能为5000 Teraflops [10] - **互联与扩展**：MTIA 300采用多芯片设计，提供12条800 Gb/s RoCE以太网通道；MTIA 400将插入由AMD和Meta联合开发的“Helios”开放式机架，最多可将72个设备连接到共享内存域中 [9][11] - **成本与性价比**：据估计，博通向Meta提供的MTIA芯片价格从MTIA 100的700美元到MTIA 500的15000至20000美元不等；从2023年到2027年，公司MTIA设备的有效吞吐量将提升293倍，单位推理吞吐量的成本预计将下降9.1倍 [10][16]

Meta Platforms(US:META)