CMU最新！跨实体世界模型助力小样本机器人学习

研究方法 - 通过模仿学习训练视觉运动策略的有效性已被证实但性能依赖大量现实世界数据收集[2] - 研究目标是利用现成或低成本数据（如公开机器人数据集和人类摆弄物体数据集）减少数据收集工作量[2] - 采用光流作为具身无关的动作表示在跨多个具身数据集上预训练世界模型再用少量目标具身数据进行微调[3] - 提出潜在策略引导(LPS)方法通过在世界模型潜在空间中搜索更优动作序列改进策略输出[3] 实验成果 - 结合预训练世界模型后仅用30次示范数据可使策略性能相对提升超过50%[3][9] - 使用50次示范数据时策略性能相对提升超过20%[3][9] - 预训练数据源包括Open X-embodiment数据集（两千个片段）和低成本人类玩耍数据集[3] 技术优势 - 光流能够打破不同机器人实体间的差异[12] - 世界模型比策略模型更适合进行跨实体预训练和新实体微调[12] - 潜在策略引导方法有效利用世界模型提升策略模型性能[12] 行业痛点 - 机器人学习成本高昂单个任务常需数小时数据采集[11] - 不同机器人实体差异给模型预训练带来挑战[11] - 现有方法可有效利用已有数据减少新数据采集需求[11]