Workflow
Reasoning trace
icon
搜索文档
生成式推理再排序,可能会是LLM4RecSys的新突破口吗?
机器之心· 2026-04-08 09:36
文章核心观点 - 大模型的世界知识和推理能力是实现下一代基于大模型的推荐系统的重要基石,将推理模型引入推荐系统的再排序阶段可以突破现有深度学习模型的性能上限,并为结果提供可解释性 [2][3] - 论文提出了一种新的训练范式,通过知识蒸馏、监督微调和强化学习,将大体量LLM的推理能力赋予小体量LLM,使其在推荐场景下具备“先思考再决定”的推理能力,最终性能超越了LLM4Recsys的标杆模型 [3][7][18] - 在再排序阶段引入推理能力,特别是通过强化学习增强后,能显著提升推荐性能,实验表明最佳方法比预排序结果在recall@5和ndcg@5上分别提升了约2.4%和约1.3% [3][16] 技术方法与框架 - **语义ID技术**:采用Residual-Quantized Variational Autoencoder为物品生成从粗到细粒度的语义ID,并通过对比学习损失、EMA平滑更新字典、重置死码本、加入多样性损失函数及对末位ID赋予随机整数来防止码本坍缩 [5] - **推理路径生成**:核心是通过知识蒸馏,让大体量LLM生成高质量推理路径,再让小体量LLM学习,主要使用两种采样技术:目标采样和拒绝采样 [7] - **目标采样**:将用户交互历史和下一个真实交互物品信息提供给LLM以生成解释,作为推理路径,每个样本只需推理一次 [8] - **拒绝采样**:仅将交互历史提供给LLM以预测下一个物品并生成解释,若预测错误则重复推理直至正确或达到上限,生成的推理路径质量通常更高,但单样本需要多次推理 [8][13] - **训练策略**:先通过监督微调手把手教授模型推理能力,保证其下限;再使用强化学习配合专门设计的奖励机制(排序奖励和条件格式奖励)来进一步提升模型的推理和排序能力 [10][11][12][14] 实验与性能结果 - **性能提升**:提出的方法在Recall@5和NDCG@5指标上分别比OneRec-Think标杆提升了约2.4%和约1.3% [3] - **关键发现**:仅依靠监督微调可能会伤害模型最终准确度;没有监督微调基础的强化学习未能带来显著提升;拒绝采样相比目标采样能获得更高质量的推理路径 [19] - **最佳结果**:实验结果显示,结合拒绝采样和强化学习的方法取得了最佳性能,其中RL-rejection-KP在recall@5上达到0.7460,在ndcg@5上达到0.5234 [16] 应用场景与挑战 - **理想应用场景**:再排序阶段是应用推理模型的理想场所,因为该阶段候选物品数量最少,模型在给予候选集的情况下逐一比较、推理,符合人类思维流程 [18] - **未来挑战**:在检索和排序阶段,面对成千上万的候选集,如何高效进行超大规模筛选、将海量候选集塞入有限的模型输入窗口、控制昂贵的推理成本、满足超低延迟要求,是亟待解决的问题,特别是拒绝采样在超大候选集下所需的重采样次数将变得不可接受 [20]