视觉强化学习最新综述：全领域梳理（新加坡国立&浙大&港中文）

研究背景与综述定位 - 视觉强化学习（Visual RL）的爆发源于强化学习在大语言模型（LLM）中的成功迁移，特别是RLHF（人类反馈强化学习）显著提升了LLM的人类偏好对齐与复杂推理能力[7] - 当前领域面临三大核心挑战：复杂奖励信号下的策略优化稳定性、高维视觉输入的高效处理、长周期决策场景的可扩展奖励函数设计[7] - 综述核心目标包括形式化视觉RL问题、分类200+研究为四大支柱（多模态LLM/视觉生成/统一模型/VLA模型）、分析算法设计与评估体系[8] 视觉强化学习的理论基础 - 问题建模采用马尔可夫决策过程（MDP），将文本/图像/视频生成统一为episodic MDP框架，状态包含用户prompt和已生成动作序列[15] - 三大对齐范式：RLHF（三阶段流程：SFT→奖励模型→PPO优化）、DPO（直接优化偏好数据）、RLVR（可验证奖励替代主观偏好）[18][19][20] - 策略优化算法PPO（带价值网络与KL惩罚）和GRPO（组相对优势+移除价值网络）分别适用于通用场景和内存密集型任务[26][27] 四大核心应用领域多模态大语言模型（MLLM） - 常规RL驱动型MLLM使用可验证奖励（如精确匹配/IoU）优化VLM骨干，代表模型包括RePIC、GoalLadder、GRPO-CARE[32] - 空间感知方向分为2D（Omni-R1双系统GRPO优化情感识别）和3D（MetaSpatial用渲染深度奖励优化AR场景生成）[34] - 图像推理分为"基于图像思考"（SVQA-R1用视图一致性奖励）和"用图像思考"（GRIT优化答案正确性+框精度）[35] 视觉生成 - 图像生成三大奖励范式：人类中心偏好优化（ImageReward）、多模态推理对齐（UnifiedReward）、Metric驱动优化（DDPO最小化FID）[37][40] - 视频生成通过偏好模型优化（InstructVideo）、组相对优化（DanceGRPO）、领域特定奖励（Phys-AR惩罚物理定律违反）提升时序一致性[41] - 3D生成采用RL优化文本-网格生成（DreamCS融合轮廓IoU与CLIP对齐）、交互式编辑（Nabla-R2D3用实时渲染验证奖励）[41] 视觉-语言-动作模型（VLA） - GUI自动化分桌面（GUI-R1映射点击成功为稠密奖励）和移动场景（AgentCPM-GUI压缩动作空间适配设备）[42] - 视觉导航采用端到端RL（VLN-R1时间衰减奖励处理轨迹）和仿真微调（Flare实现家居场景泛化）[45] - 机器人操纵通过任务接地奖励（TGRPO）、课程式RL（RLVLA提升重排成功率）优化长周期规划[45] 评估指标与未来方向 - 分层评估框架包含集合级（FID/FVD）、样本级（人类偏好分数）、状态级（KL散度监控策略漂移）[46][48][49] - 开放挑战包括有效推理平衡（自适应周期策略）、VLA长周期RL（分层子目标发现）、视觉思考RL（混合动作空间设计）[50][51][52] - 奖励模型设计需融合低阶信号（几何一致性）与高阶偏好，并实现跨模态泛化与动态更新[53][56]