GR4AD - 财报，业绩电话会，研报，新闻

GR4AD

搜索文档

机器之心· 2026-04-02 20:11

文章核心观点 - 生成式推荐（Generative Recommendation）是推荐系统的新范式，但将其直接应用于大规模广告系统面临独特挑战 [4] - 公司提出的GR4AD系统，通过“表征-学习-推理”三位一体的推荐原生设计，成功解决了这些挑战，并实现了全量部署 [4][9] - 该系统在线上实现了广告收入提升4.2%，服务超过4亿用户，验证了生成式推荐在广告工业核心场景的可行性与巨大潜力 [1][44][45] 引言：推荐系统的新范式 - 过去十年，深度学习推荐模型（DLRM）是工业界主流，但大语言模型（LLM）的兴起催生了“生成式推荐”的新思想 [4] - 生成式推荐旨在像生成文本一样直接“生成”推荐结果，已在自然推荐场景得到验证，但在大规模广告场景的应用面临更高要求 [4] - 公司的GR4AD论文是生成式推荐在大规模广告场景下的首次全量落地实践，具有重要的工业级意义 [4] 问题与挑战：广告场景下的三大挑战 - **挑战一：广告物料的Token化**：广告融合了视频、商品、B端元数据等多模态信息，以及转化类型等缺乏语义但具商业价值的业务信号，需构建统一的Token体系 [6] - **挑战二：学习范式**：广告推荐需优化eCPM、NDCG等列表级商业指标，而现有生成式推荐方法缺乏面向排序的列表级学习设计，且不完全适配持续在线学习 [6] - **挑战三：实时服务**：广告系统需在极高QPS和极低延迟（<100ms）下，通过Beam Search同时生成大量高质量候选，这与LLM的推理模式不同 [7] 方法：全链路协同设计的破局之道 - **统一广告语义ID（UA-SID）**：通过端到端微调的多模态大模型为广告生成统一嵌入，再用量化方法编码为离散Semantic ID，作为广告的“身份证” [11] - **统一广告嵌入（UAE）**：针对6种广告形态设计指令微调模板，并利用用户行为共现关系通过对比学习注入协同信号 [13] - **MGMR RQ-Kmeans量化**：采用多粒度-多分辨率量化策略，在最后一层用基于非语义特征的哈希映射替代向量量化，将业务信号直接编码，将SID碰撞率从85.44%降至18.26%，码本利用率提升3倍以上 [15][40] - **LazyAR解码器**：针对Beam Search中后续层级计算浪费的问题，将对上一步token的依赖延迟到中间某一层注入，前K层并行计算，后L-K层自回归解码 [16][20] - 该设计在保持推荐质量的同时将推理吞吐量翻倍，是推荐原生的优化，不适用于标准LLM解码 [18] - **价值感知的监督学习（VSL）**：围绕广告商业价值进行优化，包含SID与eCPM的联合预测、价值感知样本加权以及配合LazyAR的MTP辅助损失 [19][21][22] - **排序引导的强化学习（RSPO）**：引入面向列表级NDCG优化的RL算法，直接优化排序目标并支持对未知分布的探索，被证明是NDCGcost的上界 [24][25] - **在线训练设计**：通过样本级对齐分数动态调整VSL与RSPO的权重，并设有参考模型的可靠性门控，避免噪声正则化 [29] 线上部署：工业级系统的全闭环设计 - GR4AD（0.16B参数）已实现“奖励估计→在线学习→实时索引→实时服务”的完整闭环 [27] - **四大核心模块**：奖励系统、在线学习模块、实时索引模块、实时服务引擎 [30][35] - 实时索引模块用SID替代传统嵌入，新物料秒级生效，大幅改善冷启动 [35] - **推理效率优化**：通过动态Beam服务（DBS）等工程优化显著提升性能 [31] - **动态Beam宽度（DBW）**：用递增的Beam调度替代固定宽度，削减中间层计算 [35] - **流量感知自适应Beam搜索（TABS）**：根据实时QPS自动调整Beam规模，平衡质量与延迟 [35] - 其他优化包括Beam共享KV Cache（提升QPS 212.5%）、TopK预裁剪（提升QPS 184.8%）、FP8低精度推理（提升QPS 50.3%）、短TTL结果缓存（提升QPS 27.8%） [31] - **最终服务效果**：达到<100ms延迟，500+ QPS/L20 GPU [32] 实验效果：广告收入和推理性能的双赢 - **总体性能**：GR4AD实现了线上广告收入提升4.2% [1][46] - **Scaling Law验证**： - **模型规模**：参数从0.03B增至0.32B，收入提升从+2.13%单调增长至+4.43% [38] - **推理规模**：Beam宽度从128增至1024，收入提升从+2.33%增至+4.21%，表明更强的推理时搜索能释放模型潜力 [38] - **组件贡献分析**： - RSPO是增益最大的单一组件，显著优于DPO和GRPO [39] - LazyAR以微小精度代价换取吞吐量翻倍 [39] - DBS在不损失收益的前提下提升效率，TABS在低峰期还能反向提升收入 [39] - **UA-SID质量**：经过指令微调和共现学习的UAE在嵌入质量评估中达到R@1=0.896，远超基线 [40] - **商业指标胜利**：系统带来全面商业指标提升，包括中小广告主投放量提升17.5%，广告转化率提升10.17%，低活用户转化率提升7.28% [46] - 基于内容的SID带来了更强的泛化能力和对冷启动物料的更好支持，实现了平台、广告主和用户的三赢 [42] 总结与思考 - GR4AD的成功关键在于没有照搬LLM，而是进行了全面的推荐原生设计 [44] - 核心经验包括：Token化需编码业务信号；训练需做价值感知的列表级优化；推理需针对推荐特性做专门设计；系统需实现全链路实时闭环 [47] - 该工作是生成式推荐走向广告工业核心场景的重要里程碑，预计将引领更多广告平台跟进此范式 [45]