Workflow
LifeSim
icon
搜索文档
首个用户生活「长程模拟器」来了!LifeSim 重新定义大模型个性化评测
机器之心· 2026-04-06 08:38
研究背景与挑战 - 现有针对个性化AI助手的评测基准与真实世界用户-助手交互存在明显脱节,主要受限于长时间、跨场景的公开数据稀缺 [2] - 真实用户需求受到时间、地点、天气、生活事件等复杂外部情境以及用户长期偏好、个性特征、近期经历和当前心理状态等内部认知的共同影响 [4] LifeSim模拟框架 - LifeSim是一个面向长期个性化助手评测的用户生活模拟框架,旨在生成连贯的生活轨迹、事件序列与多轮交互行为 [2] - 框架核心由四部分组成:用户画像、基于信念-愿望-意图(BDI)的认知引擎、基于环境约束的事件引擎、用户行为引擎 [7] - 为支持用户多样性,构建了百万级用户画像池,每个画像包含人口统计学属性、基于大五人格的特质及长期偏好 [10] - 事件引擎以真实出行轨迹为基础,融入时间、地点等环境因素,根据用户状态生成连贯生活事件 [10] - 用户行为引擎模拟多轮交互表现,综合考虑记忆、情绪与行为选择,生成的回复兼具画像一致性、上下文相关性与自然度 [10] LifeSim-Eval评测基准 - 基于LifeSim构建了LifeSim-Eval,用于系统评测模型在长期个性化交互中的能力边界 [2] - 该评测利用LifeSim构建了120个用户、1200个评测场景,覆盖8个常见生活领域,并设置单场景与长时程两种评测模式 [15] - 核心评测指标包括意图识别、意图完成度、偏好重建、画像对齐,以及回复的自然度与连贯性 [15] - 评测更关注长期用户理解、显性与隐性意图的区分,以及跨场景的个性化一致性 [15] 实验结果与核心发现 - 在单场景设置中,大多数模型在显性意图识别上表现较好,但在隐性意图识别上普遍存在超过20分的性能差距 [17] - 在长时程设置中,模型对显性意图的完成率相对稳定,但对隐性意图的完成能力明显更弱,且会随着历史长度增加而进一步下降 [20] - 测试画像记忆机制(在每个场景后让模型总结或更新用户偏好)发现,整体收益并不稳定,说明长期个性化能力的瓶颈更在于模型是否具备稳定的长期偏好推理能力 [23] - 针对不同意图类别和主题的实验结果显示,模型在显式、任务驱动需求为主的场景与需要隐式、情感推理的场景之间,性能存在明显差异 [30] - 通过案例分析,总结出当前模型在长期个性化助手任务中常见的三类问题:推理僵化、主动追问不足、用户画像利用不足 [32] 主流模型性能表现 - 在用户行为引擎性能评测中,DeepSeek-V3.2在画像一致性(P.C.)和上下文相关性(C.R.)上分别达到97.1和96.8,GPT-4o分别为94.0和95.6 [12] - 在LifeSim-Eval综合评测中,闭源模型GPT-5在显性意图识别和完成度上分别达到79.5和76.9,隐性意图分别为52.2和48.9 [19] - 开源模型中,DeepSeek-V3.2在显性意图识别和完成度上分别达到78.6和73.5,隐性意图分别为54.6和50.8;其思考版本(Thinking)在隐性意图识别和完成度上进一步提升至59.3和58.2 [19] - 在长时序意图完成性能测试中,当对话历史令牌数达到约16K时,DeepSeek-V3.2对显性意图的完成度(I.C.)从88降至80,对隐性意图的完成度则从57大幅降至30 [21] - 在问题类型统计中,Claude-Sonnet-4.5的主动询问占比最高,达51.2%;Llama3.1-8B-it的僵化推理占比最高,达64.2% [30]