ICDE 2026 | 从匹配困境到推理突破：阿里REG4Rec 激活生成式推荐的个性化潜力

文章核心观点 - 生成式推荐正从传统的“判别式打分”范式转向“多步生成与推理”范式，旨在通过模拟人类的决策过程，更精准地捕捉用户动态、隐式的意图 [3][4] - 阿里国际智能技术团队提出的REG4Rec模型，通过系统性的技术创新，解决了生成式推荐在推理能力、可控性和稳定性方面的核心挑战，并在工业场景中验证了其显著的业务效果 [5] - 该模型已在Lazada推荐广告场景大规模部署，线上A/B测试显示广告收入提升5.60%，商品交易总额提升3.29%，点击率提升1.81% [5] 从判别打分走向多步生成，难点在于「推理」 - 传统判别式推荐模型通过一次性打分估计用户与物品交互概率，虽高效但难以显式建模用户复杂的多步决策路径和进行实时修正 [10] - 生成式推荐将推荐过程重构为“多步生成”，将物品表示为离散的语义ID序列，通过逐步生成这些ID来模拟推理过程，以逼近用户的真实意图 [10] - 生成式范式的关键挑战不在于生成物品本身，而在于如何使生成过程具备“可推理、可控且稳定”的能力，以应对电商场景下用户行为的高噪声和兴趣快速变化 [5][11] REG4Rec：让生成式推荐从匹配走向多步推理方案设计 - REG4Rec从语义ID表征、推理路径建模、推理增强训练和线上推理部署四个层面进行系统设计，构建端到端的生成式推理方案 [13] - 具体包括：1) 超长并行语义码本；2) 上下文感知的动态推理路径；3) 基于GRPO的推理增强；4) 基于反思剪枝与多步松弛的线上部署 [13][14][16] 超长并行语义码本 - 针对残差层级语义ID（如RQ-VAE）存在的码本信息分布不均、步间语义割裂问题，团队提出了基于MoE的并行语义码本方案（MMQ） [18][20] - 该方案通过多个专家从不同视角编码商品，生成平行的语义token空间，使码本规模与推理步数能更稳健地扩展，支持更长的推理链路 [20] 上下文感知的动态推理路径 - 现有方法固定语义ID生成顺序，限制了模型描绘个性化决策路径的能力 [15][21] - REG4Rec设计了上下文感知的动态推理路径，模型在每一步根据用户历史、实时意图和已生成前缀，自适应决定下一步解码的语义维度，使推理轨迹更贴近个体决策逻辑 [23] 基于GRPO的推理增强 - 在训练阶段引入基于GRPO的强化学习框架进行偏好对齐，奖励函数包含三类信号：面向结果的奖励、面向过程的奖励（类目命中、语义一致性）、面向集合检索的松弛奖励 [25][27] - 该设计旨在引导模型探索更优推理路径，提升对早期误差的鲁棒性和生成过程的连贯性 [25][27] 基于反思剪枝与多步松弛的线上部署 - 推理阶段引入“反思剪枝”，在Beam Search中利用一致性信号对语义不连贯的路径进行在线剪枝，提升输出稳定性 [28] - 检索阶段采用“多步松弛”，允许少量token不匹配的候选进入召回集合，以降低局部预测偏差导致的漏召风险，提升长尾覆盖 [28] 性能与效率优化 - 训练优化：通过增加IO线程、Embedding查询GPU化、混合精度训练、算子优化等手段，将单次训练时间缩短至原来约一半 [29] - 推理优化：借鉴LLM优化思路（如FlashAttention、量化、KV cache）并结合场景特点进行定制（如TreeAttention控制计算规模、开发高性能融合算子），以提升效率并控制延迟 [29][30] 实验离线实验 - 在三个公开数据集（Beauty, Sports, Toys）和一个工业数据集上，REG4Rec在Recall@K和NDCG@K指标上均显著优于SASRec、S3-Rec、TIGER、COBRA、ReaRec、STREAM等主流基线模型 [32][33] - 例如，在工业数据集上，REG4Rec的Recall@5达到0.1094，相比最佳基线STREAM的0.0981提升了11.52% [33] - 模型展现出Scaling Up特性：随着推理步数增加，离线指标持续提升。推理步数从3步增至5步时，Recall@1提升123%，Recall@100提升37%；步数增至6步时，Recall@100开始超越传统检索式方法 [34] 在线实验 - 在Lazada推荐广告场景的大规模A/B测试中，REG4Rec带来显著商业收益：广告收入提升5.60%，点击率提升1.81%，商品交易总额提升3.29% [35][36] - 该模型已完成全流量推全 [35] 总结与展望 - 生成式推荐正从“能生成”走向“会推理”，通过将推理过程纳入生成，使模型能更贴近用户的真实兴趣与决策逻辑 [39] - REG4Rec在表征、训练与部署三条主线上打通了端到端链路，为工业级生成式推荐系统提供了实践范例 [39] - 未来研究方向包括：1) 构建更具结构化的模型内生反思纠偏机制；2) 针对点击与转化等不同目标进行更具差异性的建模；3) 探索更灵活的自适应奖励融合机制 [42]