腾讯混元AI数字人团队RLVMR框架研究 核心观点 - 提出RLVMR框架解决长程智能体存在的低效探索和泛化脆弱难题,通过奖励"思考过程"而非仅结果,实现端到端强化学习[4][6][26] - 7B模型在ALFWorld和ScienceWorld的L2任务中成功率高达83.6%,超越GPT-40等SOTA模型[11][12] - 智能体动作效率提升28.1%,训练收敛速度更快[13][14] 技术突破 - 元推理状态机制:要求智能体行动前标记认知阶段(规划/探索/反思),使思考过程可追踪[7][15] - 可验证过程奖励:轻量级验证规则实时评估思考质量,杜绝"瞎蒙"行为[8][15] - 双阶段训练:冷启动SFT学习基础推理概念+强化学习RL内化能力,形成成长曲线[22][23][25] 实验数据 - 成功率对比: - ALFWorld L2:RLVMR 83.6% vs GPT-40 68.8% vs DeepSeek-V3 53.9% [12] - ScienceWorld L2:RLVMR 32.2% vs GPT-40 41.0% vs GiGPO 25.8% [12] - 效率提升: - ALFWorld L2动作数从28.9降至15.4(降幅46.7%)[14] - ScienceWorld L1动作数从27.9降至18.8(降幅32.6%)[14] 认知科学应用 - 反思机制:使智能体主动识别问题而非盲目重试,重复动作率显著降低[18][19] - 元问题解决框架:建立跨任务的通用思维方法论(规划-探索-反思),L2任务表现提升56.3%[20][21] - 过程奖励必要性:移除元推理奖励(AMC)导致ALFWorld L2性能下降45.3%→12.5%[23] 行业意义 - 实现从结果导向到过程导向的范式革新,推动AGI向可解释、鲁棒性方向发展[26][27] - 验证"思维模式强化"路径的有效性,为构建具备真正推理能力的智能体提供方法论[21][26]
破解「长程智能体」RL训练难题,腾讯提出RLVMR框架,让7B模型「思考」比肩GPT-4o