Workflow
生成式强化学习
icon
搜索文档
生成式强化学习在广告自动出价场景的技术实践
AI前线· 2025-09-28 13:48
广告出价系统的核心作用与挑战 - 广告出价模块是实时竞价广告系统的核心枢纽,负责将广告主的营销目标转化为动态竞价决策,直接影响广告主投放效果和平台流量分配效率[2] - 广告出价面临三大核心挑战:需要平衡预算控制与转化成本优化、应对未来流量和竞争环境的不确定性、处理序列决策的复杂性[5] 快手出价算法的技术演进 - 公司出价算法经历三代演进:第一代PID类似定速巡航反应直接但笨拙,第二代MPC通过短期预测调整但易陷入局部最优,第三代强化学习通过历史数据学习最优策略[6] - 2025年至今,公司将生成式强化学习出价技术全面落地,实现超过3%的广告收入提升[7] - 新一代生成式强化学习融合生成模型与强化学习优势,实现"多维思考",更充分利用历史出价序列信息[8] 生成式强化学习的技术框架 - Generative Models as policies包含Decision Transformer和Diffusion Model两类方法:DT类似大语言模型的下一词预测机制,Diffusion Model通过去噪过程生成未来轨迹[11] - Generative Model as a world model建立数字沙盒模拟不同出价策略结果,生成训练数据增强模型学习[11] - 生成模型直接建模出价策略面临两大挑战:依赖高质量数据集导致OOD问题、与优化目标难以对齐[12] GAVE算法技术创新 - GAVE算法创新性融合Score-based RTG与基于价值函数的动作探索机制,解决DT应用于广告出价的适配性问题[16] - Score-based RTG将成本率约束加到每个时刻,使RTG对齐带惩罚的总转化指标,可灵活适配CPA、ROI等不同广告场景[18] - 基于价值函数的动作探索机制包含动作探索模块和可学习价值函数模块,有效提升模型探索能力避免OOD问题[19] - 离线实验显示GAVE在不同预算设置下相对DT提升1.30%-6.75%,在线实验在Costcap场景实现消耗提升2.0%、CPA达标率提升1.9%[22][25] CBD算法技术创新 - CBD算法引入Completer和Aligner两个模块:Completer基于历史观测序列扩散补全未来序列,Aligner对生成序列进行偏好对齐[29] - Completer能够基于随机长度观测序列补全生成未来未观测段,是具备补全能力的扩散模型[32] - Aligner基于轨迹奖励模型对生成序列进行修改,使更新后轨迹更接近优化目标[33] - 在线实验显示CBD在消耗持平情况下实现2.0%预期消耗提升,仅增加6毫秒推理耗时[36] 技术成果与行业影响 - 公司商业化算法团队研究成果在KDD、ICLR、ICML、NeurIPS等顶会发表,获CIKM Best Paper、SIGIR Best Paper提名奖等荣誉[39] - 2024年团队在NeurIPS大规模广告自动出价竞赛中斩获双赛道冠军,GAVE算法是该比赛冠军方案[10][39] - GAVE、CBD等出价算法已成为该领域SOTA算法,受到业界广泛关注与应用参考[39] 未来技术发展方向 - 出价技术未来演进方向包括出价基座大模型,依托多场景多目标出价历史序列数据训练通用基础出价模型[41] - 出价推理大模型引入大语言模型复杂推理机制,增强出价模型可解释性与决策思维能力[41]
快手解密「AI印钞机」,首提生成式强化学习出价技术,为平台实现超过3%的广告收入提升
机器之心· 2025-09-23 12:08
行业趋势与公司表现 - 谷歌母公司Alphabet市值突破3万亿美元 成为第四家达到这一门槛的公司[1] - 谷歌通过将生成式AI融入搜索和广告投放 提升用户意图理解和广告匹配效率 稳住了广告基本盘[1] - 快手Q2线上营销服务收入198亿元 同比增长12.8% 大模型在投放出价和营销推荐方面取得显著进展[2] - AI技术正在从根本上驱动广告行业的收入增长[2] 技术演进路径 - 实时竞价广告系统的大规模广告自动出价技术经历了经典控制、规划求解、强化学习、生成模型等数代演化[2] - 快手出价算法从PID、MPC到强化学习的三代演化 现已进入第四代生成式强化学习阶段[12] - 生成式强化学习融合生成模型与强化学习 实现多维思考 更充分利用历史出价序列信息[13][14] - 该技术为平台实现超过3%的广告收入提升 同时保持广告主成本目标不劣化[3][47] 核心算法突破 - GAVE算法通过价值引导探索解决Decision Transformer的两大挑战:多目标适配和数据集依赖[22][24][25] - GAVE在AuctionNet基准上取得最优效果 相比DT提升4.74%(100%预算场景)[31][32] - 线上A/B测试显示GAVE在Nobid场景转化率提升8% Costcap场景转化率提升3.6%[33] - CBD算法通过扩散式补全器-对齐器解决状态序列一致性和偏好对齐问题[35][37][38] - CBD在离线实验中竞得的总转化价值最高提升41.4%(AuctionNet-sparse 50%预算场景)[41] - 线上测试显示CBD使广告主平均转化率提升2% 额外6ms延迟在可接受范围内[42] 技术团队实力 - 快手商业化算法团队获得NeurIPS 2024自动出价竞赛双料冠军 从1500多支队伍中脱颖而出[44][47] - 团队在KDD、ICLR、ICML等顶会发表研究成果 获CIKM最佳论文等荣誉[47] - 技术成果已应用于快手广告系统 驱动业务实际增长[47] 未来发展方向 - 出价基座大模型:基于多场景出价历史序列数据训练通用基础出价模型[50] - 出价推理大模型:引入大语言模型推理机制 增强可解释性与决策思维能力[50] - 技术决策理念从单步状态决策转向基于历史序列决策 已实现收入提升仅是开端[49]