Meta发布生成式广告模型GEM - 公司发布旨在改善其平台广告推荐能力的生成式广告模型GEM 该模型处理每天数十亿的用户-广告交互数据 致力于解决从多样化广告数据中学习的复杂性 包括广告商目标、创意格式、测量信号以及跨多个投放渠道的用户行为[2] - 公司使用三种方法构建GEM系统 基于先进架构的模型缩放技术、用于知识迁移的后训练技术 以及利用数千块GPU实现高级并行计算的增强型训练基础设施[2] GEM的先进训练架构与优化 - 公司重新设计训练架构以支持GEM达到现代大型语言模型的规模 针对密集型模型组件采用混合分片分布式并行技术 在数千块GPU间优化内存使用并降低通信开销 针对稀疏型组件采用结合数据并行与模型并行的二维并行方案[4] - 公司实施多项GPU级别优化以减少训练瓶颈 包括针对可变长度用户序列设计的定制GPU内核、采用PyTorch 2.0中的图级编译技术自动执行激活检查点和操作符融合 以及采用FP8量化等内存压缩技术处理激活值[4] - 公司通过开发GPU通信集合消除了通信与计算工作负载之间的竞争 通过优化训练器初始化、数据读取器设置和检查点 将作业启动时间减少了5倍 通过优化缓存策略 将PyTorch 2.0的编译时间减少了7倍[4] 模型效率优化与知识迁移策略 - 系统在模型生命周期中持续优化GPU效率 在探索阶段 轻量化模型变体以更低的成本支持了超过半数的实验 公司通过持续在线训练刷新基础模型 并在训练过程与训练后的知识生成阶段之间共享流量以降低计算需求[5] - 按照设计 GEM将知识迁移到数百个面向用户的垂直模型以提供广告服务 公司采用两种迁移策略 直接迁移使GEM能够向其接受训练的数据空间内的主要垂直模型传递知识 分层迁移则将GEM的知识提炼为特定领域的基础模型 进而用于训练垂直模型[5] - 这些方法通过知识蒸馏、表示学习和参数共享最大限度地提升了公司广告模型生态系统中的迁移效率[6] 行业专家评价与潜在影响 - 特斯拉前总监评论指出 GEM感觉像一种能同时学习创造力、语境和用户意图的模型 而非事后拼凑碎片 并强调23倍的有效浮点运算性能提升是改变经济效益的关键所在[7][8] - 微软高级产品经理认为该技术对广告商是游戏规则的改变者 指出它有可能为小型企业节省大量资金 使其无需试验营销策略 而是依靠智能模型来充分利用广告支出[9] - 按照公司设想 广告推荐系统的基础模型将发展出更好地理解用户偏好和意图的能力 使广告互动更加个性化 公司将这种模型定位为实现大规模一对一连接的方法[10]
Meta详细阐述基于LLM级训练、混合并行计算与知识迁移的GEM广告模型