文章核心观点 - 快手策略算法团队提出端到端多目标融合排序框架EMER,以AI模型彻底替代传统依赖人工设计公式的推荐排序方法 [1] - EMER框架通过让模型学会“比较”而非“单独打分”,并引入自我进化机制,解决了行业长期存在的个性化不足、多目标冲突及离在线效果不一致等核心难题 [5][18][23] - 该框架已在快手主App和极速版全面落地,线上A/B测试显示其在七日留存、停留时长、播放次数等核心业务指标上实现显著提升 [30][31][34] 技术框架创新:从“单独打分”到“学会比较” - 传统工业界推荐排序采用两阶段范式:先由大体量模型预估用户多维度满意度,再通过人工设计公式将多目标标量化作为最终排序依据,存在个性化不足、非线性能力弱及多目标平衡难等瓶颈 [4][6] - EMER核心思路是让模型关注多个视频之间的相对好坏,而非给每个视频打独立分,其创新体现在数据、特征、模型三个层面 [5][6] - 在数据层面,EMER将用户一次请求中的所有候选视频打包成训练样本,解决曝光偏差并提供比较基础,与线上真实排序场景对齐 [7] - 在特征层面,为每个视频增加Normalized Ranks特征,明确告知模型其在当前候选集中的相对排名位置 [8] - 在模型层面,采用Transformer网络架构显式捕捉候选item之间的复杂关系,评估每个item的相对价值 [9] 用户满意度量化:从“绝对分数”到“相对优势” - 为准确量化用户满意度,EMER采用“相对优势满意度”替代绝对分数,通过Pairwise Logistic Loss训练模型区分用户对A和B视频的反馈偏好 [12][14] - 引入多维满意度代理指标作为独立的训练目标,让模型同时优化观看时长、完播率、点赞率等多个维度,兼顾即时与延迟反馈,更全面理解用户满意 [15] - 该方法解决了单一指标衡量满意度困难及事后反馈稀疏的问题,使模型在排序时能做出更精准的权衡 [15] 多目标平衡优化:从“人工调参”到“自我进化” - 针对多目标冲突问题,EMER引入优势评估器,能根据当前模型相对于上一版本模型的性能表现,动态自动调整不同目标的损失权重 [18][20] - 该自我进化机制以按请求级别的细粒度计算,确保模型持续适应不同用户的个性化偏好及同一用户随时间变化的行为,无需人工干预 [20] - 实验证明,该机制实现了多指标全面提升,初版模型成功融合78个目标且每个目标表现均优于传统公式,避免了固定权重模型导致的顾此失彼 [21][40] 离在线一致性保障:从“解耦悖论”到“互动密度” - 为解决离线优化单个视频互动概率与线上追求单位时间内互动密度不一致的“解耦悖论”,EMER提出新指标单位时间互动概率(IPUT) [23][24][28] - IPUT将模型优化方向从“让用户对某一个视频更可能互动”调整为“让用户在一分钟内产生更多次互动”,从根本上提升离在线效果一致性 [28][42] - 消融实验表明,移除IPUT的模型变体会出现离线指标与线上用户数据匹配度低的问题,验证了IPUT对模型“有用”的关键作用 [42][43] 落地效果验证 - 线上A/B测试数据显示,在快手极速版场景,EMER相比传统人工公式使七日留存提升0.302%,App停留时长提升1.392%,单列短视频观看次数提升1.044% [31][34] - 在快手主App场景,EMER使七日留存提升0.231%,App停留时长提升1.199%,单列短视频观看次数提升2.996% [31][34] - EMER在大多数PXTR上取得最优的一致性表现,并已成功适配到端到端生成式推荐系统OneRec链路及其他业务场景,显示出跨场景复用能力 [34][36] - 消融实验证实EMER各核心组件均为提升效果的刚需,移除任何关键设计(如比较能力、先验/后验信号、自我进化机制、IPUT)均会导致性能下降 [37][38][39][40][42]
扔掉人工公式:快手EMER框架,用“会比较、自进化”的模型重构短视频推荐排序
机器之心·2025-10-30 11:49