Workflow
生成式强化学习出价技术
icon
搜索文档
除了研发可灵,快手如何把大模型应用在核心业务上?
新浪财经· 2025-11-11 14:35
公司大模型战略布局 - 公司研发了多个大模型应用于核心业务场景,包括推荐系统、电商搜索和商业化,与知名的视频生成大模型可灵AI在组织架构上平行 [1] - 大模型应用有两个主要方向:一是通过技术打造高粘性社区以提升用户体验,二是赋能电商和商业化生态以提升商家经营效率 [1] - 公司高度重视大模型技术在核心业务场景中的应用,行业普遍认为AI技术必须与业务场景结合,但各公司在结合方式上存在差异 [10][11] 推荐系统大模型 (OneRec) - 公司放弃使用开源多模态模型方案,自研OneRec模型在多模与推荐对齐的表征方案上进行创新,以解决私有推荐数据中关联关系提取不足的问题 [2][4] - OneRec模型通过引入强化学习对用户反馈做动态优化,迭代逻辑从解决基础问题到优化细节,再到探索新范式 [4] - OneRec-V1应用后,公司主站App和极速版的人均停留时长分别提升0.5%和1.17%,营销号占比大幅下降;V2版本使停留时长再次提升0.46%和0.74%;Think模型效果进一步优化并能推荐未曝光过的优质长尾内容 [4] 电商搜索大模型 (OneSearch) - 公司应用大模型技术于电商搜索,核心价值是从行为预测升级为意图理解,目标是解决传统级联架构存在的语义混乱、用户意图理解不全面及冷启动与长尾商品曝光难等问题 [5] - 公司研发的端到端生成式框架OneSearch替代了传统搜索架构,通过精准提取核心属性、弱化无关热词来解决商品语义混乱问题,并通过匹配用户即时需求和长期习惯来解决意图理解问题 [9] - 应用OneSearch后,用户搜索页面点击率提升2.3%,决策周期缩短至传统模式的1/3,冷启动与长尾场景优质商品曝光概率提升超40%,中小商家订单转化效率平均提升18% [9] 商业化应用 - 商业化体系应用了生成式强化学习的出价技术,大模型能从连续出价和反馈中寻找规律以推演走势,强化学习则专注于将每一步决策拉回到ROI和获客成本等业务目标上 [9]
生成式强化学习在广告自动出价场景的技术实践
AI前线· 2025-09-28 13:48
广告出价系统的核心作用与挑战 - 广告出价模块是实时竞价广告系统的核心枢纽,负责将广告主的营销目标转化为动态竞价决策,直接影响广告主投放效果和平台流量分配效率[2] - 广告出价面临三大核心挑战:需要平衡预算控制与转化成本优化、应对未来流量和竞争环境的不确定性、处理序列决策的复杂性[5] 快手出价算法的技术演进 - 公司出价算法经历三代演进:第一代PID类似定速巡航反应直接但笨拙,第二代MPC通过短期预测调整但易陷入局部最优,第三代强化学习通过历史数据学习最优策略[6] - 2025年至今,公司将生成式强化学习出价技术全面落地,实现超过3%的广告收入提升[7] - 新一代生成式强化学习融合生成模型与强化学习优势,实现"多维思考",更充分利用历史出价序列信息[8] 生成式强化学习的技术框架 - Generative Models as policies包含Decision Transformer和Diffusion Model两类方法:DT类似大语言模型的下一词预测机制,Diffusion Model通过去噪过程生成未来轨迹[11] - Generative Model as a world model建立数字沙盒模拟不同出价策略结果,生成训练数据增强模型学习[11] - 生成模型直接建模出价策略面临两大挑战:依赖高质量数据集导致OOD问题、与优化目标难以对齐[12] GAVE算法技术创新 - GAVE算法创新性融合Score-based RTG与基于价值函数的动作探索机制,解决DT应用于广告出价的适配性问题[16] - Score-based RTG将成本率约束加到每个时刻,使RTG对齐带惩罚的总转化指标,可灵活适配CPA、ROI等不同广告场景[18] - 基于价值函数的动作探索机制包含动作探索模块和可学习价值函数模块,有效提升模型探索能力避免OOD问题[19] - 离线实验显示GAVE在不同预算设置下相对DT提升1.30%-6.75%,在线实验在Costcap场景实现消耗提升2.0%、CPA达标率提升1.9%[22][25] CBD算法技术创新 - CBD算法引入Completer和Aligner两个模块:Completer基于历史观测序列扩散补全未来序列,Aligner对生成序列进行偏好对齐[29] - Completer能够基于随机长度观测序列补全生成未来未观测段,是具备补全能力的扩散模型[32] - Aligner基于轨迹奖励模型对生成序列进行修改,使更新后轨迹更接近优化目标[33] - 在线实验显示CBD在消耗持平情况下实现2.0%预期消耗提升,仅增加6毫秒推理耗时[36] 技术成果与行业影响 - 公司商业化算法团队研究成果在KDD、ICLR、ICML、NeurIPS等顶会发表,获CIKM Best Paper、SIGIR Best Paper提名奖等荣誉[39] - 2024年团队在NeurIPS大规模广告自动出价竞赛中斩获双赛道冠军,GAVE算法是该比赛冠军方案[10][39] - GAVE、CBD等出价算法已成为该领域SOTA算法,受到业界广泛关注与应用参考[39] 未来技术发展方向 - 出价技术未来演进方向包括出价基座大模型,依托多场景多目标出价历史序列数据训练通用基础出价模型[41] - 出价推理大模型引入大语言模型复杂推理机制,增强出价模型可解释性与决策思维能力[41]