Workflow
GR4AD
icon
搜索文档
快手广告系统全面迈入生成式推荐时代!GR4AD:从Token到Revenue的全链路重构
机器之心· 2026-04-02 20:11
文章核心观点 - 生成式推荐(Generative Recommendation)是推荐系统的新范式,但将其直接应用于大规模广告系统面临独特挑战 [4] - 公司提出的GR4AD系统,通过“表征-学习-推理”三位一体的推荐原生设计,成功解决了这些挑战,并实现了全量部署 [4][9] - 该系统在线上实现了广告收入提升4.2%,服务超过4亿用户,验证了生成式推荐在广告工业核心场景的可行性与巨大潜力 [1][44][45] 引言:推荐系统的新范式 - 过去十年,深度学习推荐模型(DLRM)是工业界主流,但大语言模型(LLM)的兴起催生了“生成式推荐”的新思想 [4] - 生成式推荐旨在像生成文本一样直接“生成”推荐结果,已在自然推荐场景得到验证,但在大规模广告场景的应用面临更高要求 [4] - 公司的GR4AD论文是生成式推荐在大规模广告场景下的首次全量落地实践,具有重要的工业级意义 [4] 问题与挑战:广告场景下的三大挑战 - **挑战一:广告物料的Token化**:广告融合了视频、商品、B端元数据等多模态信息,以及转化类型等缺乏语义但具商业价值的业务信号,需构建统一的Token体系 [6] - **挑战二:学习范式**:广告推荐需优化eCPM、NDCG等列表级商业指标,而现有生成式推荐方法缺乏面向排序的列表级学习设计,且不完全适配持续在线学习 [6] - **挑战三:实时服务**:广告系统需在极高QPS和极低延迟(<100ms)下,通过Beam Search同时生成大量高质量候选,这与LLM的推理模式不同 [7] 方法:全链路协同设计的破局之道 - **统一广告语义ID(UA-SID)**:通过端到端微调的多模态大模型为广告生成统一嵌入,再用量化方法编码为离散Semantic ID,作为广告的“身份证” [11] - **统一广告嵌入(UAE)**:针对6种广告形态设计指令微调模板,并利用用户行为共现关系通过对比学习注入协同信号 [13] - **MGMR RQ-Kmeans量化**:采用多粒度-多分辨率量化策略,在最后一层用基于非语义特征的哈希映射替代向量量化,将业务信号直接编码,将SID碰撞率从85.44%降至18.26%,码本利用率提升3倍以上 [15][40] - **LazyAR解码器**:针对Beam Search中后续层级计算浪费的问题,将对上一步token的依赖延迟到中间某一层注入,前K层并行计算,后L-K层自回归解码 [16][20] - 该设计在保持推荐质量的同时将推理吞吐量翻倍,是推荐原生的优化,不适用于标准LLM解码 [18] - **价值感知的监督学习(VSL)**:围绕广告商业价值进行优化,包含SID与eCPM的联合预测、价值感知样本加权以及配合LazyAR的MTP辅助损失 [19][21][22] - **排序引导的强化学习(RSPO)**:引入面向列表级NDCG优化的RL算法,直接优化排序目标并支持对未知分布的探索,被证明是NDCGcost的上界 [24][25] - **在线训练设计**:通过样本级对齐分数动态调整VSL与RSPO的权重,并设有参考模型的可靠性门控,避免噪声正则化 [29] 线上部署:工业级系统的全闭环设计 - GR4AD(0.16B参数)已实现“奖励估计→在线学习→实时索引→实时服务”的完整闭环 [27] - **四大核心模块**:奖励系统、在线学习模块、实时索引模块、实时服务引擎 [30][35] - 实时索引模块用SID替代传统嵌入,新物料秒级生效,大幅改善冷启动 [35] - **推理效率优化**:通过动态Beam服务(DBS)等工程优化显著提升性能 [31] - **动态Beam宽度(DBW)**:用递增的Beam调度替代固定宽度,削减中间层计算 [35] - **流量感知自适应Beam搜索(TABS)**:根据实时QPS自动调整Beam规模,平衡质量与延迟 [35] - 其他优化包括Beam共享KV Cache(提升QPS 212.5%)、TopK预裁剪(提升QPS 184.8%)、FP8低精度推理(提升QPS 50.3%)、短TTL结果缓存(提升QPS 27.8%) [31] - **最终服务效果**:达到<100ms延迟,500+ QPS/L20 GPU [32] 实验效果:广告收入和推理性能的双赢 - **总体性能**:GR4AD实现了线上广告收入提升4.2% [1][46] - **Scaling Law验证**: - **模型规模**:参数从0.03B增至0.32B,收入提升从+2.13%单调增长至+4.43% [38] - **推理规模**:Beam宽度从128增至1024,收入提升从+2.33%增至+4.21%,表明更强的推理时搜索能释放模型潜力 [38] - **组件贡献分析**: - RSPO是增益最大的单一组件,显著优于DPO和GRPO [39] - LazyAR以微小精度代价换取吞吐量翻倍 [39] - DBS在不损失收益的前提下提升效率,TABS在低峰期还能反向提升收入 [39] - **UA-SID质量**:经过指令微调和共现学习的UAE在嵌入质量评估中达到R@1=0.896,远超基线 [40] - **商业指标胜利**:系统带来全面商业指标提升,包括中小广告主投放量提升17.5%,广告转化率提升10.17%,低活用户转化率提升7.28% [46] - 基于内容的SID带来了更强的泛化能力和对冷启动物料的更好支持,实现了平台、广告主和用户的三赢 [42] 总结与思考 - GR4AD的成功关键在于没有照搬LLM,而是进行了全面的推荐原生设计 [44] - 核心经验包括:Token化需编码业务信号;训练需做价值感知的列表级优化;推理需针对推荐特性做专门设计;系统需实现全链路实时闭环 [47] - 该工作是生成式推荐走向广告工业核心场景的重要里程碑,预计将引领更多广告平台跟进此范式 [45]