文章核心观点 - 蚂蚁与东北大学研究团队提出了一种名为AlignXplore+的大模型个性化新范式,该范式采用文本化用户建模,旨在解决传统“黑盒”用户表示方法存在的不可解释和难以迁移的问题,从而实现更通用、可迁移且鲁棒的用户理解 [1][4][6] 技术范式与核心特性 - 范式转变:从传统的基于向量/参数的用户表示转向基于文本的用户表示,将用户偏好总结为自然语言,使其成为人和机器都可理解、可修改的通用接口 [1][4][6] - 核心特性一:全域通用,能够处理来自社交网络、电商、新闻流等真实世界的异构数据源,从碎片化数字足迹中提炼完整的用户偏好摘要 [7] - 核心特性二:极致迁移,生成的文本化用户画像与模型和任务解耦,可被任何下游大模型直接读取使用,实现“一次画像,处处通用” [7][18] - 核心特性三:实战适配,采用流式更新机制应对连续交互,并能有效处理真实场景中缺乏明确负反馈、跨平台混合数据等“不完美信号” [7][19] 技术框架与实现 - 框架目标:构建一个统一框架,使大模型在不重训、不续训的前提下持续理解用户 [8] - 第一阶段(SFT):通过“生成 验证 合并”流程创建高质量训练数据,基于未来交互行为反推当前偏好,并引入行为验证机制确保偏好预测的准确性 [11][12] - 第二阶段(RL):引入强化学习,通过课程剪枝策略筛选高推理价值样本,并通过累积奖励函数优化偏好总结,以提升其在流式场景中的长期有效性 [11][13] 性能表现与优势 - 效果领先:在包含推荐、回复选择和回复生成的九大基准测试中,仅8B参数的AlignXplore+取得了平均75.10%的分数,达到SOTA水平,其零样本迁移能力平均得分比GPT OSS 20B高出4.2% [16][17] - 迁移能力卓越:在跨模型迁移实验中,AlignXplore+生成的偏好被应用于Qwen2.5 7B和GPT OSS 20B等不同下游模型,均带来稳定性能提升,例如在回复选择到推荐的任务上达到74.90% [18][19] - 鲁棒性强:在仅有正样本(点击记录)而缺乏明确负反馈的实验设置下,AlignXplore+依然保持显著性能优势;即使面对跨领域混合的历史行为数据,也能精准捕捉多重兴趣,避免兴趣被“平均化” [19][20] 行业意义与未来方向 - 行业意义:该技术为大模型时代的个性化应用提供了新思路,“文本即接口”的范式有望成为打通不同AI Agent的核心协议,推动构建透明、互通的用户中心化AI [1][22] - 未来探索:团队计划进一步探索流式推理在超长周期交互中的极限、从更全面的异构用户数据中挖掘真实偏好,以及构建面向更广泛交互形式的通用个性化推理引擎 [22][23]
抛弃向量推荐!蚂蚁用8B小模型构建「用户“话”像」,实现跨任务跨模型通用并拿下SOTA
搜狐财经·2026-01-31 23:29