文章核心观点 - 生成式推荐正从传统的“判别式打分”范式转向“多步生成与推理”范式,旨在通过模拟人类的决策过程,更精准地捕捉用户动态、隐式的意图 [3][4] - 阿里国际智能技术团队提出的REG4Rec模型,通过系统性的技术创新,解决了生成式推荐在推理能力、可控性和稳定性方面的核心挑战,并在工业场景中验证了其显著的业务效果 [5] - 该模型已在Lazada推荐广告场景大规模部署,线上A/B测试显示广告收入提升5.60%,商品交易总额提升3.29%,点击率提升1.81% [5] 从判别打分走向多步生成,难点在于「推理」 - 传统判别式推荐模型通过一次性打分估计用户与物品交互概率,虽高效但难以显式建模用户复杂的多步决策路径和进行实时修正 [10] - 生成式推荐将推荐过程重构为“多步生成”,将物品表示为离散的语义ID序列,通过逐步生成这些ID来模拟推理过程,以逼近用户的真实意图 [10] - 生成式范式的关键挑战不在于生成物品本身,而在于如何使生成过程具备“可推理、可控且稳定”的能力,以应对电商场景下用户行为的高噪声和兴趣快速变化 [5][11] REG4Rec:让生成式推荐从匹配走向多步推理 方案设计 - REG4Rec从语义ID表征、推理路径建模、推理增强训练和线上推理部署四个层面进行系统设计,构建端到端的生成式推理方案 [13] - 具体包括:1) 超长并行语义码本;2) 上下文感知的动态推理路径;3) 基于GRPO的推理增强;4) 基于反思剪枝与多步松弛的线上部署 [13][14][16] 超长并行语义码本 - 针对残差层级语义ID(如RQ-VAE)存在的码本信息分布不均、步间语义割裂问题,团队提出了基于MoE的并行语义码本方案(MMQ) [18][20] - 该方案通过多个专家从不同视角编码商品,生成平行的语义token空间,使码本规模与推理步数能更稳健地扩展,支持更长的推理链路 [20] 上下文感知的动态推理路径 - 现有方法固定语义ID生成顺序,限制了模型描绘个性化决策路径的能力 [15][21] - REG4Rec设计了上下文感知的动态推理路径,模型在每一步根据用户历史、实时意图和已生成前缀,自适应决定下一步解码的语义维度,使推理轨迹更贴近个体决策逻辑 [23] 基于GRPO的推理增强 - 在训练阶段引入基于GRPO的强化学习框架进行偏好对齐,奖励函数包含三类信号:面向结果的奖励、面向过程的奖励(类目命中、语义一致性)、面向集合检索的松弛奖励 [25][27] - 该设计旨在引导模型探索更优推理路径,提升对早期误差的鲁棒性和生成过程的连贯性 [25][27] 基于反思剪枝与多步松弛的线上部署 - 推理阶段引入“反思剪枝”,在Beam Search中利用一致性信号对语义不连贯的路径进行在线剪枝,提升输出稳定性 [28] - 检索阶段采用“多步松弛”,允许少量token不匹配的候选进入召回集合,以降低局部预测偏差导致的漏召风险,提升长尾覆盖 [28] 性能与效率优化 - 训练优化:通过增加IO线程、Embedding查询GPU化、混合精度训练、算子优化等手段,将单次训练时间缩短至原来约一半 [29] - 推理优化:借鉴LLM优化思路(如FlashAttention、量化、KV cache)并结合场景特点进行定制(如TreeAttention控制计算规模、开发高性能融合算子),以提升效率并控制延迟 [29][30] 实验 离线实验 - 在三个公开数据集(Beauty, Sports, Toys)和一个工业数据集上,REG4Rec在Recall@K和NDCG@K指标上均显著优于SASRec、S3-Rec、TIGER、COBRA、ReaRec、STREAM等主流基线模型 [32][33] - 例如,在工业数据集上,REG4Rec的Recall@5达到0.1094,相比最佳基线STREAM的0.0981提升了11.52% [33] - 模型展现出Scaling Up特性:随着推理步数增加,离线指标持续提升。推理步数从3步增至5步时,Recall@1提升123%,Recall@100提升37%;步数增至6步时,Recall@100开始超越传统检索式方法 [34] 在线实验 - 在Lazada推荐广告场景的大规模A/B测试中,REG4Rec带来显著商业收益:广告收入提升5.60%,点击率提升1.81%,商品交易总额提升3.29% [35][36] - 该模型已完成全流量推全 [35] 总结与展望 - 生成式推荐正从“能生成”走向“会推理”,通过将推理过程纳入生成,使模型能更贴近用户的真实兴趣与决策逻辑 [39] - REG4Rec在表征、训练与部署三条主线上打通了端到端链路,为工业级生成式推荐系统提供了实践范例 [39] - 未来研究方向包括:1) 构建更具结构化的模型内生反思纠偏机制;2) 针对点击与转化等不同目标进行更具差异性的建模;3) 探索更灵活的自适应奖励融合机制 [42]
ICDE 2026 | 从匹配困境到推理突破:阿里REG4Rec 激活生成式推荐的个性化潜力