具身领域LLM结合强化学习与世界模型工作汇总

具身智能领域最新研究进展通用现实世界交互模拟器 - UniSim通过整合多维度数据集（图像/机器人/导航数据）构建生成式交互模拟器，支持从高层级指令到低层级控制的视觉结果模拟，训练后的策略可零样本迁移至现实场景[3] - 应用场景涵盖游戏/电影内容生成和具身智能体纯模拟训练，视频描述生成等AI任务也能从中获益[3] 因果世界模型与鲁棒智能体 - Google DeepMind证实因果模型是智能体实现跨领域泛化的必要条件，最优智能体的因果模型将收敛至真实因果模型[5] - 该结论对迁移学习和因果推断领域具有深远影响[5] 元强化学习效率突破 - MAMBA框架结合模型方法和元强化学习技术，在基准测试中实现15倍样本效率提升，且无需超参数调优[8] - 成功验证高维任务场景有效性，推动现实世界泛化智能体发展[8] 多模态具身智能体训练 - EMMA通过文本世界LLM指导视觉世界VLM训练，采用DAgger-DPO算法实现跨模态模仿学习，在ALFWorld任务中成功率提升20%-70%[10] - 突破传统VLM在具身视觉世界中的动态对齐障碍[10] 自动化奖励函数生成 - TEXT2REWARD框架基于LLM自动生成密集奖励代码，在17项机器人操作任务中13项超越专家编写代码，运动任务成功率超94%[14] - 支持人类反馈迭代优化，仿真器训练策略可直接部署至现实[14] 持续学习型交互智能体 - 提出Behavior-IL与环境-IL两种持续学习框架，CAMA机制无需任务边界信息，通过滑动平均实现参数更新[18] - 显著超越基于数据先验的传统持续学习方法[18] 可扩展情境强化学习 - AMAGO通过并行化Transformer训练解决记忆容量和规划视野瓶颈，在元强化学习和长期记忆任务中表现优异[21] - 结合多目标hindsight重标注方案可攻克开放世界难题[21] 大语言模型与世界模型构建 - 创新性采用PDDL构建显式世界模型，GPT-4生成含40余个动作的高质量PDDL模型，成功求解48项复杂规划任务[23] - 通过前置修正机制将人工干预需求降低至初始阶段[23]