Workflow
终身兴趣建模
icon
搜索文档
阿里妈妈发布MUSE:用多模态搞定十万级超长行为序列,并开源Taobao-MM数据集
机器之心· 2025-12-16 12:11
文章核心观点 - 阿里妈妈与武汉大学团队提出了一种名为MUSE的新型多模态搜索框架,旨在解决推荐系统对用户超长历史行为序列(如10万至百万级)建模能力不足的问题,通过利用图像和文本等多模态信息,系统性提升终身用户兴趣建模的质量与可用长度 [1][4][6] - MUSE框架已在阿里妈妈展示广告精排模型中全量上线,实现了对10万长度用户原始行为序列的建模能力,并在线上A/B实验中带来了显著的CTR提升(+12.6%)和业务收益(RPM +5.1%, ROI +11.4%) [6][36] - 该工作不仅提出了创新的算法与工程协同设计,还开源了首个包含“长行为序列+高质量多模态embedding”的大规模公开数据集Taobao-MM,以推动业界和学界在相关方向的研究 [1][6][41] 技术背景与问题 - 当前主流CTR建模,特别是以SIM/TWIN为代表的两阶段长期行为建模框架,虽将可用历史行为长度扩展至万级别,但收益边际提升已变得困难,尤其在检索精度受限时,序列从万级往上扩展效果提升会明显趋缓 [2] - 用户行为序列极长(在淘宝中轻松达到百万级),但受限于在线延迟、存储和算力,实际部署模型通常只能使用最近几千条行为,或进行粗粒度截断 [3] - 现有ID-based建模方法存在局限:长尾和过期item的ID embedding质量不佳,而它们在“终身历史”中占比很高;模型主要学习“ID共现关系”,而非用户真实的内容兴趣 [3][15] MUSE框架核心洞察与设计 - **核心设计原则**:GSU(通用搜索单元)应保持“简单”,而ESU(精确搜索单元)需要“丰富+融合” [12] - **对GSU的洞察**:在有高质量多模态embedding的前提下,GSU只需要一个轻量的余弦(cosine)相似度检索就足够好,复杂的检索结构收益低且不具性价比 [17] - **对ESU的洞察**:多模态序列建模与ID融合非常关键,ESU对多模态embedding的质量极其敏感,远高于GSU [18][19] - **表征预训练**:底层采用SCL多模态预训练,通过结合用户真实“搜索-购买”行为进行对比学习,使得到的embedding同时具备内容语义和行为相关性 [23] MUSE框架技术详解 - **多模态GSU**:使用SCL embedding进行简单的余弦相似度计算和Top-K检索,从用户10⁵~10⁶级历史行为中筛选出最相关的几十条,过程高效且无复杂Attention [24][26] - **多模态增强ESU**:采用SimTier与SA-TA双路并行建模 [25] - **SimTier路径**:将目标item与历史行为的多模态相似度序列压缩为一个“相似度直方图”,形成紧凑的语义兴趣分布向量,计算开销极小 [26][33] - **SA-TA路径**:在标准的ID-based Target Attention基础上,融合多模态余弦相似度及其与ID打分的交互项,形成最终的attention score,以缓解长尾item打分失真问题 [27][28][30] - **最终输出**:SimTier输出的多模态兴趣向量与SA-TA输出的ID兴趣向量拼接,作为“终身兴趣表示”输入给上层CTR模型 [30] 工程落地与性能 - **延迟控制关键**:将GSU从Ranking关键路径中剥离,进行异步预取,其延迟被Matching阶段遮蔽,从而在引入10万行为序列和多模态信息的同时不增加在线延迟 [32][35] - **具体两阶段设计**: 1. Pre-fetching阶段:与Matching并行,从远端存储拉取用户100K行为的多模态embedding并缓存至GPU显存 [36][42] 2. 相似度计算与Top-K选择阶段:在Ranking前快速计算相似度,得到Top-K行为ID和相似度序列供ESU使用,计算量小且可与特征处理并行 [36][42] - **效果验证**:线上A/B实验显示,相比仅使用5K长度行为的ID-only基线(SIM),MUSE(行为长度100K)带来CTR提升12.6%、RPM提升5.1%、ROI提升11.4% [36] - **离线消融实验**:序列越长,MUSE带来的收益越大;多模态增强ESU在所有长度上都显著优于ID-only ESU,且长度越长优势越明显 [36] 对业界的启发与可复制经验 - **GSU优化**:优先学习高质量的item图文embedding,并用多模态余弦检索替代GSU的ID-only检索,这是性价比最高的第一步,无需在GSU阶段设计复杂结构 [38] - **ESU增强**:将多模态信息引入ESU是关键,可逐步推进:引入轻量的“相似度直方图”模块(如SimTier);在现有DIN/TWIN的attention中融入多模态相似度作为辅助打分(类似SA-TA) [38] - **工程架构**:解决超长序列和多模态引入的I/O瓶颈是重点,可借鉴MUSE模板:将GSU抽成独立服务与Matching异步并行;将embedding就近缓存;确保Ranking阶段计算轻量 [39] - **落地路线**:对于拥有长行为日志(>> 万条)、丰富内容特征且ID-only模型收益见顶的业务,可先提升表征质量,用多模态支撑GSU检索,再在ESU中融合多模态信号,作为“轻量版MUSE”的起点 [46] 开源数据集Taobao-MM - **数据集价值**:这是首个同时具备“长行为序列+高质量多模态embedding”的大规模公开数据集,旨在支持“长序列 × 多模态”方向的研究,减少业界和学界自建数据的成本 [41][44] - **主要特点**:用户行为序列最长1K(开源版,内部实验支持100K);提供128维SCL多模态embedding;数据规模约1亿样本、近900万用户、3500万级item [43]