Workflow
RLVER框架
icon
搜索文档
7B模型“情商”比肩GPT-4o,腾讯突破开放域RL难题,得分直翻5倍
量子位· 2025-07-18 14:16
核心观点 - 腾讯混元数字人团队提出RLVER框架,通过用户模拟器同时扮演"交互环境"和"奖励来源"双重角色,解决多轮对话中RL训练的三大困境(环境、奖励、训练)[2][5] - RLVER训练后的Qwen2.5-7B模型在Sentient-Benchmark得分从13.3跃升至79.2,与GPT-4o、Gemini 2.5 Pro等商用顶级模型相当[2][16] - 模型在数学、代码等通用能力上未出现衰退,且行为风格从"解题型"转向"情绪型"[17][19] 技术框架设计 - **环境构建**:用户模拟器包含多样用户画像(性格/背景/需求),动态更新情绪状态,提供无限探索的真实对话环境[7][8][9] - **奖励机制**:基于SAGE框架显式建模用户情绪变化,累积"心情总分"作为奖励信号驱动PPO/GRPO算法[11][12][13] - **优化策略**:采用全局情绪轨迹优化(非单轮反馈),引导模型维持长期情绪走高[14] 性能表现 - **基准测试**: - Sentient-Benchmark:PPO+思考结构模型达79.2分(原始13.3分),成功率42%[16] - Chit Chat:PPO模型成功率52%,低于Sentient表现[16] - **横向对比**: - Gemini 2.5 Pro得分82.4(成功率55%) - GPT-4o得分79.9(成功率51%)[16] 训练洞察 - **模型路径差异**: - "思考式模型"侧重深度理解与共情[21] - "反应式模型"发展出行动导向补偿策略[22] - **算法选择**: - PPO在特定维度(如共情深度)突破上限[27] - GRPO带来更稳定均衡的能力增长[27] - **环境设计**: - Vanilla模拟器(包容反馈)优于Challenging模拟器(容错率低),前者训练模型Sentient得分79.2 vs后者66.4[29][30][32] - 显式思考结构提升模型抗打击能力(Challenging环境下得分66.4 vs非思考结构19.8)[33][36] 开源与资源 - 模型已开源,包含论文地址、项目代码及Hugging Face仓库链接[34]