文本化用户建模
搜索文档
抛弃向量推荐!蚂蚁用8B小模型构建「用户“话”像」,实现跨任务跨模型通用并拿下SOTA
搜狐财经· 2026-01-31 23:29
那么,大模型时代应该怎么做个性化呢?一方面,传统的推荐系统和对话模型往往依赖ID Embedding或特定参数(如 LoRA)来表示用户偏好。这种不可解释、难以迁移的"黑盒"范式,正在成为桎梏。另一方面,大模型强大的推理能力和生 成能力为打破传统范式的局限性带来了机会,让个性化可以从"黑盒"走向"白盒"。 近日,蚂蚁和东北大学研究团队(后简称"团队")推出AlignXplore+,在大模型个性化上实现了一种文本化用户建模的新范 式,让复杂的用户偏好可以被人和机器同时理解,同时具备很好的扩展性和迁移性。 怎样做一个爆款大模型应用? 这恐怕是2026年AI开发者们都在关注的问题。当算力和性能不再是唯一的护城河,"爆款"意味着大模型要能精准地"抓 住"每一名具体的用户,而个性化正是其中的关键技术之一。 蚂蚁AlignXplore+团队 投稿 量子位 | 公众号 QbitAI 为什么是"文本"? △图1 个性化领域从基于向量/参数的用户表示向基于文本的用户表示的范式转变。 (a) 传统方法生成的用户专属参数和向量与训练模型紧密耦合,因此无法迁移。 (b) 团队开创了一种基于文本的范式,该范式能推断出与模型和任务无关的 ...
抛弃向量推荐!蚂蚁用8B小模型构建「用户“话”像」,实现跨任务跨模型通用并拿下SOTA
量子位· 2026-01-31 17:30
文章核心观点 - 在大模型时代,构建爆款应用的关键在于实现精准的个性化,而当前依赖向量或参数的“黑盒”范式存在不可解释和无法迁移的根本痛点 [1][6][7] - 蚂蚁与东北大学研究团队提出的 **AlignXplore+** 框架,通过“文本化用户建模”的新范式,实现了从“黑盒”到“白盒”的转变,使复杂用户偏好可被人和机器同时理解,并具备出色的扩展性与迁移性 [1][8][9] - **AlignXplore+** 在用户理解准确性、跨任务/跨模型迁移能力以及对真实世界不完美数据的鲁棒性上全面超越现有基线方法,仅用8B参数即在九大基准测试的平均分数上取得SOTA成绩 [19][20][24] 个性化技术范式转变 - 传统方法依赖ID Embedding或特定参数(如LoRA)表示用户偏好,本质是不透明、不可解释的“黑盒”,且与特定模型架构深度绑定,导致用户画像无法在不同模型和任务间迁移 [1][6][7] - 新范式主张摒弃隐空间向量,直接用自然语言归纳和推理解析用户偏好,使偏好总结成为“通用接口”,实现从“封闭的孤岛”到“通用接口”的范式转移 [5][8][9] - 基于文本的偏好归纳人眼可读、用户可控,并完全解耦了偏好推理与下游的模型和任务,使得任何大模型(如GPT、Llama、Qwen)都能无缝“读懂”并复用同一用户画像 [8][9][11] AlignXplore+ 的核心特性 - **全域通用**:能够处理真实世界中异构的数据源(如社交发帖、电商点击、新闻浏览),从碎片化数字足迹中提炼高价值偏好摘要,拼凑完整的用户全貌,打破数据孤岛 [10] - **极致迁移**:实现“一次画像,处处通用”,打破任务边界,将能力从响应选择扩展到推荐和生成等广泛个性化应用;生成的文本画像可作为通用接口,被任何下游大模型直接读取和使用 [11] - **实战适配**:设计为可基于旧摘要和新交互不断演化的流式更新系统,像人类记忆一样;面对真实场景中缺乏明确负反馈、跨平台混合数据等“不完美信号”时,能保持稳定的推理能力,免受噪音干扰 [12] AlignXplore+ 的技术框架 - 框架核心目标是让大模型在不重训、不续训的前提下,持续理解用户,包含两个主要阶段:SFT(监督微调)阶段和RL(强化学习)阶段 [13][16] - **SFT阶段**:通过“生成-验证-合并”流程创建高质量训练数据,基于多种可能的未来交互行为反推当前偏好,并引入“行为验证”机制,确保生成的用户偏好能准确预测用户行为,解决文本归纳“太泛”或“太偏”的问题 [16][17] - **RL阶段**:引入强化学习并设计两个关键机制:1) **课程剪枝**:筛选“难但可解”的高推理价值样本;2) **累积奖励**:优化偏好总结,使其不仅关注当前有效性,更关注在未来持续交互中的可演化性,以适应流式更新 [16][18] AlignXplore+ 的性能表现 - **准确性全面升级**:在包含推荐、回复选择和回复生成的九大基准测试中,仅8B参数的AlignXplore+在平均分数上取得SOTA成绩,平均得分达 **75.10%**,在流式推理场景下平均得分为 **73.17%** [20] - **迁移能力卓越**: - **跨任务迁移**:在对话任务中生成的偏好,直接用于指导新闻推荐,在R.S.->Rec.任务上取得 **74.90** 分,显著高于对比模型 [21][22] - **跨模型迁移**:生成的文本偏好给Qwen2.5-7B或GPT-OSS-20B等不同下游模型使用,均带来稳定性能提升,例如使用GPT-OSS-20B作为下游模型时,在In-domain Rec.任务上达到 **80.36** 分 [23][25] - **鲁棒性强大**:即使在移除所有负样本、仅有点击记录(正样本)的情况下,依然保持显著性能优势;面对跨领域(如电影+政治新闻)混合的历史行为数据,能精准捕捉多重兴趣,避免兴趣“平均化” [26][27][28] 行业意义与未来展望 - 该研究标志着个性化领域从基于向量/参数的用户表示向基于文本的用户表示的范式转变,为构建透明、互通的User-Centric AI奠定了基础 [4][30] - 随着AI Agent爆发,用户表示(User Representation)有望成为打通不同Agent的核心协议,而“文本即接口”的范式展现出巨大潜力 [30] - 未来研究方向包括:探索流式推理在超长周期交互中保持简洁与全面的极限、从更全面的异构用户数据中精准挖掘真实偏好、构建面向更多样化交互形式的通用个性化推理引擎 [30]