如何让AI走向更高质量的共情？自然选择两项开源研究提供新路径

文章核心观点 - 当前大模型的共情能力评测与训练多集中于单轮对话，难以评估其在长期多轮互动中是否对用户心理状态产生持续、稳定的正向影响 [1][3] - 自然选择团队开源的两项研究EMPA与MAPO，为长程共情场景提供了系统性的解决方案：EMPA重新定义了“过程级”评测范式，MAPO则提供了面向长程多轮交互的强化学习算法 [3][21] - 这两项工作将主观的“共情”能力转化为可衡量、可优化的系统能力，其意义可能超越情感陪伴领域，为未来大模型进入更多需要长期理解与渐进影响用户的复杂任务提供了方法论基础 [22] EMPA：过程级共情评测框架 - 核心思路：将共情正式建模为一种长期智能体任务，用户心理状态是潜变量，对话是持续更新状态的过程，支持效果通过弱信号间接验证 [8] - 评估对象：不再只评估单句回复，而是评估整段对话轨迹对用户潜在心理状态的影响 [9] - 评估框架： - 通过Real-to-Sim数据管线，将真实长对话蒸馏为可复现的心理场景 [9] - 在非脚本化的多智能体沙盒环境中，让用户、导演、裁判等智能体与被测模型进行开放式互动 [9] - 通过共情潜力模型在潜在心理空间中建模用户状态变化，从而在轨迹层面评估对话的持续正向影响 [9] - 评测方法：采用基于准则的物理评测思路，将证据生成与最终评分进行结构性拆分 [10][12] - 裁判根据准则抽取可追溯、可归因的结构化证据，而非直接打分 [12] - 共情潜力模型在轨迹层面对证据进行聚合计算，并将其映射为潜在心理状态的变化信号 [12] - 效果：这种新的评测路径在鲁棒性与敏感度上均明显优于传统的单轮评测或LLM-as-a-Judge方法 [13] MAPO：面向长程多轮对话的强化学习算法 - 研究目标：训练模型在长期对话任务中表现更好，使其既能利用逐轮反馈，又能保持长期策略稳定性 [16] - 核心信号：同时引入两类奖励信号进行优化 [16] - 逐轮过程奖励：借助EMPA的裁判系统对每一轮回答评分，将相邻轮次评分变化带来的增量作为即时奖励，衡量单次回复是否推动对话向更好方向发展 [16] - 长期未来回报：通过蒙特卡洛方法估计从当前回合到对话结束的累计回报，以保留长程策略信息，避免模型陷入局部最优 [16] - 技术细节：对同一初始提示采样多条对话轨迹，将每一步视作训练样本 [19] - 针对即时奖励与对话轮次相对解耦、未来回报与轮次强相关的观察，分别对二者进行基于批次和基于轮次的归一化 [19] - 通过凸组合进行融合，从而在保留无评论员优势的同时，更稳定地优化长序列对话策略 [19] - 优势：相比基于GRPO的智能体强化学习方法，同时绕开了仅依赖稀疏的最终结果奖励，以及每一步需要大量采样导致样本复杂度极高的问题 [18] 两项研究的综合影响与实验结果 - 完整链路：EMPA与MAPO形成了一条完整的研究链路，前者提供评测框架，后者提供训练算法，共同将“共情”转化为可系统研究、可复现比较并可进入训练闭环的技术问题 [21] - 实验结果： - MAPO在EMPA的动态对话沙盒环境中训练后，效果显著优于GRPO，并在EMPA基准测试上取得明显提升 [21] - 在部分设置下，一个320亿参数的模型已经可以逼近Claude-3.5的表现 [21] - MAPO在其他多轮对话基准测试上也展现出较好的泛化能力 [21] - 潜在扩展：MAPO本质上是一种面向长程智能体场景的优化方法，并不局限于多轮对话任务，随着代码与环境进一步开源，有机会在更多真实任务中被验证与扩展 [21]