传统推荐架构的瓶颈与范式局限 - 传统级联式推荐架构将召回、粗排、精排与重排割裂,导致反馈难以闭环,模块间不一致性持续累积,算力利用效率长期偏低[2] - 从FM模型到基于行为序列的精排模型,单个推荐item的计算量提升了约5个数量级,但近两年LLM技术突飞猛进时,推荐领域创新却更多停留在精排等局部环节的微调上[5] - 直接采用LLM架构服务推荐面临三大挑战:推荐模型规模已达T级参数、毫秒级延迟要求严苛、大模型推理成本可能难以被业务收益覆盖[6] 大模型应用于推荐的可行性分析 - 对“模型已足够大”的判断应聚焦“激活参数”,推荐模型在线推理的激活参数远小于典型语言模型,例如快手约250M,同行baseline从16M提升至1B,说明仍有充足scale-up空间[7] - 在信息流场景测算中,假设CPM为20元,广告占比10%,则10,000次曝光收入20元,以DeepSeek模型为参照,20元可购买到输入与输出各2M Token的算力,理论毛利约84.5%[9] - 若单次曝光服务消耗1,000 Token,在保持80%计算毛利的条件下,单次曝光可投入0.0004元,对应约15.2T FLOPs计算能力,可支持约7.6B参数规模的模型在线服务[12] - 传统级联式推荐系统由于算力高度碎片化,广义MFU可能仅为1%甚至更低,而测算中按40% MFU计算,成本可行性结论与不少团队的直观感受存在差异[13] OneRec生成式推荐框架的核心设计 - OneRec将原有稀疏ID通过多模态表征离散化为一串Token序列(语义ID),使用Behavior Transformer处理用户行为序列,再以多层Decoder进行生成,反解回原始item ID完成推荐[18] - Tokenizer方案通过Vision-Language Model处理视频原始信息,引入item-to-item和语义保持两类Loss,确保表征既能理解视频内容又能抓住推荐关键信息,泛化性强,可编码新上传视频[19][23][24] - 强化学习设计了三类奖励:用户体验与兴趣偏好、业务与生态约束、编码规则约束,将传统多目标建模简化为统一逻辑输出,系统能在天级完成业务生态控制响应,所需样本量约为传统的1/1000[26][27] OneRec的落地应用效果 - 在快手单列短视频场景,OneRec带动主站综合LT提升0.077%,极速版综合LT提升0.118%,资源开销仅为线上大盘推荐系统的1/12[28] - 本地生活场景中,本地大盘GMV提升5.09%,本地短视频GMV提升21.01%,订单数提升17.89%,买家数提升18.58%,新买家数提升23.02%[28] - 电商商城场景中,买首feed GMV提升6.41%,订单量提升4.22%,买首feed商品GMV提升14.706%,订单量提升8.352%[28] - 全量推送中仅以原线上系统推理成本的1/10,在更低计算成本下使用更大模型并取得更优效果,用户更愿意持续下滑,为插入更多视频与商业化内容提供增量空间[29] OneRecV2的定制优化与Scaling Law验证 - 早期Encoder-Decoder架构存在计算与监督错配,训练资源近90%消耗在用户历史编码上但无直接Loss监督,优化后移除了用户历史编码阶段大部分计算,将主要算力集中到后端Decoder Transformer[33] - 优化带来约94%的训练资源节省,在等量资源下,模型规模从0.5B显著放大至8B,随着模型规模扩大,损失呈平滑且可预测的下降趋势,与scaling law拟合结果一致[33][35] OneRec-Think:生成与理解统一的进展 - 尝试将文本、图像与行为数据进行联合训练,构建既能“说话”又能“推理”的推荐模型,底层以ViT等组件处理图像得到图像Token,SID由自研Tokenizer产生,上层使用统一LLM完成解码与理解[36][38][40] - 模型具备交互式推荐能力,当用户提示发生变化时,思考路径会发生明显转折,在理解既往偏好基础上依据新提示生成匹配推荐,已实现“生成—理解”统一、覆盖多模态的模型原型[40][41] - 当前推荐效果尚未全面超越线上仅以行为数据训练的模型,且成本偏高不适合全量在线应用,但方向的可行性已得到验证,行为数据与语言、图像数据融合有望催生更智能模型[40][41]
抛弃“级联”架构!快手OneRec用大模型重构推荐系统,服务成本降至1/10